你有听说过文字接龙吧?
那你想过电脑是怎么跟你玩文字接龙的吗? chatgpt就是一种经过练习的文字接龙。
embedding 字词嵌入 这个东西 我们先说说他在做啥
但是略过 算法的过程。
假设你有一句话
"我是专业的五楼 " 模型如何知道你在想什么呢?
他第一件事情,就是先把你说的话转成它可以理解的资讯
所以他会透过经由 transfermer 那篇有名论文的机制 这个讲起来很复杂
但是过程其实就是 类似人脑识别字词,记住关联这样的过程
经过演算之后它会根据 算法关注的不同点
回传给你整组 array 结构的 浮点数,词向量
这个向量就是他根据算法计算完以后,模型分析完
它跟模型已经知道的一些标注的字词表的关系, 这个出来的向量如何被决定是
模型一次次训练的结果,当然你也有参数,跟喂资料实标签的时机可以调整。
实际上,他在做的事情,假设上面这句话的把它分为四个维度去处理好了
可是从情绪推估,可能是从模型被喂养的资料的概率去决定说等等可能有什么
就这样一种维度,去负责一种推论演算,就会产生
"我是专业的五楼":[0.4,0.8,0.7,0.8]这样的资料,嵌入到这边就差不多了。
下一步就是进行联想,跟比对
上面做完以后模型会对这串资料里面的数值
去做向量计算,点积,或是用余弦定理去算说这个多维座标点跟啥最接近
就是模型觉得这句话,相近,相似,相关的句子,当然实际情况随便一个可能都有
一千多个甚至更多维度,模型里面的参数则更多 70亿都是一个很普通的数字。
你可以把模型想像一台大机器,有七十亿以上控制阀,或是一个大函式
有七十多亿参数,如何互相影响基本上未知,然后她会根据上面那个过程去回应你这样。
简单来说就是把人类文字翻译成模型可以看懂的过程。