楼主:
yam276 ('_')
2025-03-25 13:12:20※ 引述《cities516 (好忙好忙的缇宝)》之铭言:
: 我到现在其实还是不太懂transformer的原理
: 应该说
: 为什么要分Q K V三个值来算
: Q dot K 还蛮好懂的 就自己的值跟整串sequence相乘嘛
: 然后为什么要 * V
: 他数学上的意义在哪
: 总不会是 it just works 这么简单吧
: https://picx.zhimg.com/v2-b4673a40e55b90f5d0f192a789ae419d_r.jpg
: ==
来个更生活化的例子:假设你在一场齁豚聚会中,
想知道谁最近有在关注Miko的贴贴对象。过程是这样的:
Q (Query):你的问题“谁跟Miko比较贴贴?”
K (Key):每个齁豚的回答,比如“PekoMiko最强”或“mC才是主流”
V (Value):每个朋友的发癫贴贴文
你会怎么做呢?
1. 你问“谁跟Miko比较贴贴?”(Q)
2. 朋友们回答(K),有人说“PekoMiko”,有人说“miComet”
你会特别关注那些说“PekoMiko”的朋友,然后听他们讲PM圣诞夜的故事(V)
最后,你根据朋友的回答(K),挑出相关的故事(V),知道了PekoMiko的资讯
Transformer也是这样运作的:
它自动算出哪些部分相关(Q dot K),然后提取那些部分的内容(乘以V)。