当前位置:当前位置: 首页 >
为什么我还是无法理解transformer?
文章出处:网络 人气:发表时间:2025-06-25 12:15:13
不要想的太过复杂,就只有随机数生成的三个矩阵,原始输入已经通过矩阵相乘关联在三个随机数矩阵中,再通过一些代数游戏得到每个token对于整体输入序列的注意力权重矩阵,再和另外一个随机数矩阵进行线性的代数变化即可。
反向传播更新的是这三个矩阵的权重,三个矩阵的维度设计也是为了符合线性代数的运算。
总之这个就是一个巧妙的线性代数游戏,没有什么复杂的逻辑问题。
。
同类文章排行
- 你卡过最厉害的bug是什么?
- 到底是时代选择了Nvidia,还是Nvidia选择了时代?
- 为什么我感觉现代医学还是很落后?
- 鸿蒙电脑会在国内逐渐取代windows电脑吗?
- 这种裙子是不是对直男爆杀?
- 《诛仙》中有哪些捧腹大笑的剧情?
- 有哪些开源或免费软件吊打商业收费软件的例子?
- 我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
- 有没有一个特别好用的Linux系统?
- 消息称三大运营商将于今年下半年全面重启eSIM,eSIM有哪些好处?为何此前暂停这一业务?
最新资讯文章
- 为什么日本经济下降,大学排名跌至谷底,还有那么多人挤破脑袋去日本留学?
- 如看看Doinb直播松松真的回去了,疑似已经被TES换人?
- MacBook的诱惑在哪里?
- 5 月 28 日 DeepSeek R1 模型完成小版本试升级并开源,具体有哪些提升?使用体验如何?
- SwiftUI 是不是一个败笔?
- 如何看待求是网转载小米汽车工厂宣传片?
- 能分享一下你写过的rust项目吗?
- 如何看待海贼王1152话尾田给出的香克斯断臂的解释?
- 冬天也要穿胸罩吗?
- 中国预警机世界领先吗?
- 系统该怎样架构才能处理实时热点数据?
- 如何看待王婆相亲中女孩坦诚自己怀孕3个月,男方就直接拒绝了?
- 北京语言大学张爱玲教授被清华树木砸中逝世,清华回应系绿化养护人员违规作业所致,事故责任该如何划分?
- 华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势?
- 印度是真的烂还是咱们在信息茧房里面?






关注公众微信号
移动端,扫扫更精彩