※ 引述 《ivorysoap》 之铭言:
: 有一说一 拿政治历史问题去问ai的都是87?
: 这几天看到最多说ds ai没用的说法之一就是
: 它不回答政治问题 连历史问题也答错或不答
: 那就好笑了
这边应该要说的比较清楚的是模型的背后其实就是统计建模的概念,不管是LLM或vLLM都是
。像LLM越是没有信心的知识在取样下一个Token时越难取样出事实,所以模型其实是很好控
制的,越是复杂或是有争议的事件模型除非人工强化不然他就越容易产生幻觉(Hallucinat
ion)。所以拿某些历史尤其是冷门的历史事件或政治人物他越不容易回答正确。
不过模型也需要为人服务,所以当初不管OpenAI或是DeepSeek 再训练时才会引入强化学习
,透过关键的奖励模型大量调整模型变成尽可能不触犯当地政策法律以及让他变得有用无害
,像chatGPT也被揭露针对特定敏感人物也会尽可能拒绝回答,还有种族问题也会配合美国
政策避免触及。同理,DeepSeek 也是。
不过DeepSeek 有一个优点就是他不像OpenAI完全闭源而是选择开源模型,既然开源那你要
微调成你喜欢
的样子倒是没什么问题,开源的llama也是有办法微调成中国政府喜欢的形状。
不过DeepSeek 回归技术面,我认为他优秀的是他是首个用COT的稀疏模型,虽然他全部的参
数有到6710亿但因为稀疏MoE架构所以激活状态只用到370亿,这个在Mistral等开源模型已
经证实有用了,剩下还有MLA跟MTP等可以加速跟压缩模型的方法。这个在技术上确实都证明
可以减少GPU卡的消耗,所以什么乱七八糟媒体说得用到很多GPU可以确定是唬烂的,激活状
态根本连8张卡都不用。即使真的DS公司大量收购五万张好了,但训练跟推理根本用不到那
么多就是了。
然后R1比较优秀的是用纯强化学习免去OpenAI当时训练o1还要经过大量人工标注(主要是因
为PPO的Reward model需要用到PRM等过程奖励模型),转而使用规则加冷启动方式分阶段式
提升避免模型跑偏,这个算是蛮关键的技术,领域内也是觉得是很优秀的工作。
我觉得不管是哪边有色眼镜都太多了,技术人员还是回归技术面谈技术,毕竟人生活成只有
仇恨跟政治的人蛮可悲的。