楼主:
Lushen (wind joker!!!)
2025-01-24 19:13:02原文标题:
Meta陷入恐慌?内部爆料:在疯狂分析复制DeepSeek,高预算难以解释
原文连结:https://www.jiqizhixin.com/articles/2025-01-24-2
发布时间:2025/01/24
记者署名:机器之心
原文内容:
“工程师正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。”
DeepSeek 开源大模型的阳谋,切切实实震撼着美国 AI 公司。
最先陷入恐慌的,似乎是同样推崇开源的 Meta。
最近,有 Meta 员工在美国匿名职场社群 teamblind 上面发布了一个贴文。贴文提到,国内 AI 新创公司 DeepSeek 最近的一系列动作让 Meta 的生成式 AI 团队陷入了恐慌,因为在前者的低成本高歌猛进下,后者无法解释自己的超高预算的合理性。
原文如下:
这一切始于 DeepSeek-V3,它在基准测试中就已经让 Llama 4 落后。更糟的是那个“拥有 550 万训练预算的不知名中国公司”。
工程师们正在疯狂地分析 DeepSeek,试图从中复制任何可能的东西。这一点都不夸张。
管理阶层担心如何证明庞大的生成式 AI 组织的成本是合理的。当生成式 AI 组织中的每个“领导”的薪资都比训练整个 DeepSeek-V3 的成本还要高,而我们有好几十个这样的“领导”时,他们要如何面对高层?
DeepSeek-R1 让情况变得更加可怕。虽然我不能透露机密信息,但这些很快就会公开。
这本来应该是一个以工程为重点的小型组织,但是因为很多人想要参与进来分一杯羹,人为地膨胀了组织的招聘规模,结果每个人都成了输家。
https://i.imgur.com/hKZ6h5W.png
贴文中提到的 DeepSeek-V3 和 DeepSeek-R1 分别发布于 2024 年 12 月 26 日和 2025 年 1 月 20 日。
其中,DeepSeek-V3 在发布时提到,该模型在多项评测成绩超越了Qwen2.5-72B 和Llama-3.1-405B 等其他开源模型,并在性能和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet 不分伯仲。
不过,更引人注目的是,这个参数量高达 671B 的大型语言模型训练成本仅 558 万美元。具体来说,它的预训练过程竟然只用了 266.4 万 H800 GPU Hours,再加上上下文扩展与后训练的训练,总共也只有 278.8 H800 GPU Hours。相比之下,Meta 的 Llama 3 系列模型的计算预算则多达 3930 万 H100 GPU Hours—— 如此计算量足可训练 DeepSeek-V3 至少 15 次。
https://i.imgur.com/mJn5POl.png
而最近发布的 DeepSeek-R1 效能更猛 —— 在数学、程式码、自然语言推理等任务上,它的效能比肩 OpenAI o1 正式版。而且模型在发布的同时,权重同步开源。很多人惊呼,原来 DeepSeek 才是真正的 OpenAI。 UC Berkeley 教授 Alex Dimakis 则认为, DeepSeek 现在已经处于领先位置,美国公司可能需要迎头赶上了。
https://i.imgur.com/NLhp4Nj.png
看到这里,我们不难理解为何 Meta 的团队会陷入恐慌。如果今年推出的 Llama 4 没有点硬本事,他们“开源之光”的地位岌岌可危。
有人指出,其实该慌的不只 Meta,OpenAI、Google、Anthropic 又何尝没有受到挑战。 “这是一件好事,我们可以即时看到公开竞争对创新的影响。”
https://i.imgur.com/gQ5fHDH.png
还有人担心起了英伟达的股价,表示“如果 DeeSeek 的创新是真的,那么 AI 公司是否真的需要那么多显示卡?”
https://i.imgur.com/HIFcTx6.png
不过,也有人质疑,DeepSeek 究竟是靠创新还是靠蒸馏 OpenAI 的模型取胜?有人回复说,这可以从他们的发布的技术报告中找到答案。
https://i.imgur.com/HIFcTx6.png
目前,我们还无法确定贴文的真实性。
不知道 Meta 后续会如何回应,即将到来的 Llama 4 又会达到怎样的表现。
心得/评论:
Meta工程师在TeamBlind(一个匿名的职涯讨论区,需要经过公司Email验证)爆料中国的DeepSeek对内部影响很大
DeepSeek R1训练成本550万美元 可能比一个Meta大头的年薪还便宜
DeepSeek 这件事情也不光是中国自己在吹嘘
看了一下 Twitter/Reddit 美国AI工业界、学术界反响非常大
DeekSeek 的母公司幻方量化产出 DeepSeek 的故事也在 Twitter 广受讨论
https://i.imgur.com/NLhp4Nj.png
DeepSeek R1 开源+论文公开应该会推进一波AI界的发展
DeepSeek 后续发展值得关注一下
作者:
jacktypetlan (å››å四隻石ç…å)
2025-01-24 19:33:00完蛋 算力过剩 overbooking 台G NV拦腰斩都不够NV至少1/4膝盖斩 欧印放空 台股一万二见
作者: dongdong0405 (聿水) 2025-01-24 20:02:00
哈哈哈中国进来卷
作者: squeakywheel 2025-01-24 20:06:00
就是美国抄袭中国啦 某族群最爱嘴的
不然老黄干嘛卖那台掌中型的AI机另外推特翻译那个GOOGLE翻得没错我觉得这比较像吹很久的edge AI踏出第一步OPENAI的O3就是RL压 圣诞节前的13天倒数也有RL出现O3就是O1 RL来的 省去训练成本
还好它开源 同样的算法创新让资源更多的美国科技巨头来用 以他们握有的训练资源能产出更惊人的结果但感觉AGI和技术奇点的时间又被提前了.......这才是最恐怖的吧 感觉2030年前就要奇点了
不用担心OPENAI 那个疯子一心只想要真的AGI 就跟马斯克一心想上火星一样 赛道不同
有 至少在大胆创新+高效工程这两方面是非常优秀的中国一堆骗钱公司是事实 但DeepSeek和他们不一样也是事实 这两个事实又不冲突...你现在没听到要启MoE项目 只是表示你公司不在最前沿现在最前沿的美国公司一定会启新项目投入MoE方向了
叫美国时代过去之前,他科技还是屌打世界2-30年…
作者: MumiPyonPyon 2025-01-24 22:15:00
Deepseek不是open的吗@@
模型是科研 应用是商业 其实这两件事关连不大~~商业上 还是拥有直接面对消费者布署能力和通路的巨头们优势最大组织文化的问题 DeepSeek作得到但是华为腾讯百度没作到 就说明了这不是中美差异 而是组织文化差异要论软工高手和996的强度 中国大公司比DeepSeek强多了 这几年骗钱的中国AI公司也没少过 DeepSeek能成功自然有其公司文化的独特之处对啊 算法改进了效率变好 第一直觉当然是再放大模型或是再加训练集吧 对BigTech来说...
作者: vindiesl2000 (vindiesl2000) 2025-01-25 05:46:00
美国ai本就是华西街炒股工具
牢美白猪不行很久了 只能靠祖国人跟阿三撑著现在老川还卡移民 我看五年内牢美要完