楼主:
pl132 (pl132)
2025-01-29 10:58:37不,你无法用 600 万美元复制一个 DeepSeek R1
https://technews.tw/2025/01/28/you-cannot-copy-deepseekr1-with-6m/
中国 AI 新创企业 DeepSeek 最新发布的 R1 模型震惊美国股市,关键在于其相对低廉的
训练成本,不过深入分析其过程就知道,并不是花 600 万美元就能复制一个相同的模型
。
无论华尔街玩的是什么套路,DeepSeek R1 模型真正让人惊叹的,是它极度便宜的训练成
本,根据 DeepSeek 宣称,训练成本仅 557.6 万美元,几乎是其他科技巨头大型语言模
型的十分之一成本,这个费用也差不多是一位 AI 主管的年薪而已。
这个惊人的宣示实际上未必如此惊天动地,我们需要一步步拆解他们的模型训练方式,就
能了解其中奥妙。
首先,DeepSeek 和 R1 模型并非一步登天,R1 模型的训练费用其实和去年底发布的 V3
模型相同,而 V3 模型中的多数功能又和 2024 年初发布的 V2 模型共用。
在 V2 模型里,他们导入了两个重要的元件:DeepSeekMoE 和 DeepSeekMLA,前者代表了
多重专家混合(Mixture of Experts),和 ChatGPT4 一样,他们将训练出的 AI 分为多
种专家,根据对话内容调用合适领域的专家,以达成更精准而高效率的回应。后者则是多
头潜在注意力机制(Multi-Head Latent Attention),在 AI 对话中,需要加载模型和
文本,每个 token 需要对应的 key 和 value,MLA 则能够压缩 value 的储存空间,进
而减少内存需求。
https://is.gd/gzBeWB
▲DeepSeek V3 模型架构图。(Source:Github)
到了 V3 模型,他们再根据以上基础,导入负载平衡和多重 token 预测机制,进一步提
升训练效率,根据 DeepSeek 宣称,训练 V3 模型总共使用 278.8 万 H800 GPU 工时,
依每工时 2 美元推算,整体训练成本就是 557.6 万美元。
而 R1 模型的训练成本据称与 V3 模型相同,换言之,想要做出 R1 模型,并不是拿
H800 跑 280 万个工时就能做出来,还必须有前置研究、反复实验和前置算法架构。
相反地,从目前实测结果来看 DeepSeek R1 的表现与 ChatGPT O1 确实不相上下,甚至
有自己的优势,既然 DeepSeek 是开源架构,就代表其他科技巨头可以用相似的模组,投
入上百万或上千万个更高阶的 H100 GPU 工时去训练模组,如此则能获得十倍于
DeepSeek R1 的成果。
从这个角度来看,你觉得 NVIDIA 有什么好紧张的吗?