楼主:
sxy67230 (charlesgg)
2025-05-17 19:21:57很多国外新闻这几天比较专业的都是关注在DeepSeek的新论文,详细列出了很多DeepSeek技
术细节如何省流的数据,像是KV Cache的成本还有透过软件整合协同提升硬件的使用效率(
3F
S无疑是工艺品的等级),揭露了未来减少GPU、Disk跟CPU之间的通讯无疑是下一个软硬整
合加速指标。
当前开源生态甚至是Gemini都已经将DeepSeek的GRPO当作模型对齐Reasoning的新范式了,
实际也是证明很好用有效又省钱,最近也是蛮多篇Paper探讨Reward作为一种弱监督信号为
什么有用又不会像DPO一样会过度拟合训练数据的好处。题外话,连NVIDIA 的Nemotron最新
一代也采用这样的Post training 新范式。
然后文章没揭露的是很多闭源模型当前为了alignment最新的时事资料或基于用户反馈的校
正成本,实际上谷歌、Claude跟OpenAI在这块的维护上每年都要亏损十几亿美金,这东西是
很多小企业维护不来的。
然后GPU的Infra群集这几年也是不断在往上增加,反而训练的成本才是往下掉的。谷歌跟Op
enAI为了维持服务响应花费的不比训练建构的群集还要少。
我个人认为这种文章针对性蛮强的,重点也不是在DeepSeek系统架构上的缺失,真的要我说
的话,当前DeepSeek比较大的问题是市场上具有Reasoning的LLM竞品在DS开源方法以后开始
暴增,但DeepSeek没有资源来调优当前自己的R1模型(毕竟公司多数都是研究员,可以看出
团队会更想把精力花费在研究上)。
然后实际上普通人对Reasoning的需求就不大(吉卜力会爆红显示普通人对AI的期望会更像
有趣的玩具),企业有资源的会选择自己建构,没资源的会采用Agent方式让多个响应比较
快的模型建构特定场景的任务替代Reasoning LLM。
差不多4酱