楼主:
bike3905 (RKTxLeo)
2025-01-28 19:35:46补充:数发部次长删留言了
懒人包:
某位财经网美发文说deepseek 就是骗局,而且根本是抄袭的次等chatGPT
底下数发部次长(林X敬)留言表示他们2048片H800根本不只这个钱,但是被打脸了(已删
留言)
_
原文
https://bit.ly/42s6iiT
生活中的程式:
这几天看到政治网红对于DeepSeek的评论令人瞠目结舌,没想到往下滑看到数发部次长的奇
葩留言。
难怪有前辈跟我说过:通常想要往上爬,关系比实力更重要。
这些政治网红对于完全不懂的领域,发文前也不做功课,反正就用政治脑跟自身立场来随便
胡诌一通,即便错误百出,流量却远比我看到的任何有关DeepSeek的技术文来的多。
几点勘误:
1. “成本造假,2048片H800就不只550万镁” 是错误的讲法
DeepSeek用2048片H800训练两个月,在计算训练支出上都会用“租赁”或“时间摊提”来计
算,因为这2048片H800在这两个月后,铁定会拿来训练其他模型,硬件成本本来就是会摊提
。
H800租赁价格可以到2~3美元/小时,2048片H800两个月,差不多就是论文所说的550万镁没
有错。
2. “成本造假,没计入计入资料清理、开发人力”
大部分的语言模型至多都只会公布训练所需的运算成本,因为会同时开发很多模型,许多人
力都是共用的,各国的薪资水准也都不一样,并且清理后的资料也可以复用,而训练的成本
最简单易算,也较不会有机密的问题。
OpenAI过去透露成本时也都以运算成本为主,DeepSeek没有比较特别,最后DeepSeek在论文
中也很清楚地提到550万镁是单纯的‘训练成本’。
3. “GPT-3训练一次是1024颗A100,这都比目前DeepSeek的公开或外界推测成本更优秀。”
现在会拿‘DeepSeek-V3 跟 GPT-4o’或‘DeepSeek-R1 跟 GPT-o1’ 对比训练成本就是因
为他们能力上相近,成本才有可比性。
GPT-3 跟 DeepSeek 的能力天差地远,时间也差了三四年,拿这两个放一起比训练成本就是
在呼拢不懂的人,这么爱乱比,干脆拿GPT-2来比算了。
4. DeepSeek 是场套膜骗局,证据是“问他是谁,他会说是ChatGPT”
如果DeepSeek没有开源,那大多数人都会觉得是骗局没错,但问题是他开源了,还把过程与
权重通通公开在网络上,想挑战或揪错可以,请拿程式码或成果说话。
回ChatGPT仅能代表他的训练资料中有ChatGPT参杂在内,这不意外,许多模型都会有类似问
题。
同样地,DeepSeek档敏感词就是因为服务器在中国,你不满意资安或敏感词你可以自己架一
个一模一样的。Perplexity 就没在跟你543的,自己架 DeepSeek 模型,简单就解决资安或
敏感词的问题。
5. 混合专家架构(Mixture of Experts)是旧的方法毫无创新
讲这个就是没去看DeepSeek的原始论文,DeepSeek对于过去的混合专家架构有了不少改进,
不然大家都知道有这个方法,怎么只有DeepSeek弄出来?
DeepSeek证明了推理能力可以用强化学习(Reinforcement Learning)得来,同时还可以被蒸
馏(distill)到更小的模型上,还改进了CUDA Kernel的运算方式,这不是单纯用旧方法就跑
出来的。
重点是他还开源,他们把过程中的know-how直接发表出来了。
财经网美原文
https://www.facebook.com/share/p/1BXeDzzQtj/