既然有人提推论,我就讲看看训练端
DSv3 论文中最大亮点,可能也是目前看起来崩盘的主要是 $5.77 million 的训练成本
和他对比的是喇叭哥曾经说 GPT4 花了超过 $100 million 训练
未公开的 GPT5 据 WSJ 说,每一次六个月训练周期需要花超过 $500 million
简单用 GPT-4 : DSv3 = o1 : DSR1 估计 o1,但应该更多啦,不过低估在这边不重要
整理一下目前已知+估计+rumor
GPT-3 : ~$4.6 million
DeepSeekV3 (DSv3): ~$5.576 million
DeepSeekR1 (DSR1): ~$12 million
GPT-4 : >$100 million
OpenAI's o1 Model: ~$200 million
GPT-5 : ~$500 million
也就是说目前市面上的训练成本会下降 ~50 倍
(20 - 50 之间,看你拿谁当标准)
反过来说是同样的预算下,若忽视模型设计和 tokenization
模型的迭代周期也会暴涨约 50 倍
我敢说现在 Meta, OpenAI, MS, Google 的服务器里面一定满满都是 DS
而且在未来六个月会不断看到新闻是
某某模型训练成本下降 10% 或加快 10%
或是 OpenAI 成功部属更低成本的模型,赤字大幅下滑
这样的新闻
另外 DSR1 也展现了更进化的 CoT,只是单单将推论过程暴露给 MoE
并允许退回验证回答,这样的 pipeline 就足以让模型更好
而且只要 test-time 时间越长,成果就成线性的更好
其实这根本是简单到不行的想法,效果却好得吓人
这些巨头绝对有能力在短时间内复制出来
-
结论是
我觉得 DS 的出现不会让资本资出减少,反而是开启另一轮军备竞赛
只要巨头们意识到其他巨头正在复制 DS 的成功,而且甚至更有效率的方法
他们只能继续加大支出,而且部分的巨头可能可以转亏为盈,譬如 OpenAI
加速 50 倍很多吗?你加速 50 倍,我就要加速 100 倍
大家都加速一百倍的时候,我要加速五百倍,直到开发出 AGI 为止
因为现在所有人都相信 AGI 和 no AGI 就是 0 和 1 的差距
先得到圣杯的人赢者通吃
※ 引述《LDPC (Channel Coding)》之铭言:
: DeepSeek这块有几个看法 Training端就等之后瓜出来再吃
: 在Inference这块 因为受限于MoE 所有推论成本可以降下来 但需求变高的是用记忆空间
: 和各个node之间的通讯开销 以及软件上cpu/gpu的load balance