[新闻]新模型 R2 延后主因！DeepSeek 尝试华为 pl132 PTT批踢踢实业坊

[新闻]新模型 R2 延后主因！DeepSeek 尝试华为

楼主: pl132 (pl132) 2025-08-14 19:58:01

新模型 R2 延后主因！DeepSeek 尝试华为芯片失败，还是得靠 NVIDIA
https://tinyurl.com/24gqjw6w
中国人工智能（AI）公司 DeepSeek 在尝试使用华为芯片训练新模型失败后，延后新一代
模型的发布，这也凸显北京推动取代美国技术的困难。
知情人士透露，DeepSeek 在 1 月发布 R1 模型后，受到官方鼓励，改采用华为升腾（
Ascend）处理器，而非 NVIDIA 系统。
然而，在使用升腾芯片进行 R2 训练过程中持续遇到技术问题，因此改回 NVIDIA 芯片进
行训练，仅在推理（Inference）阶段使用华为芯片。知情人士透露，这是模型发布从 5
月延后的主要原因，导致 DeepSeek 在竞争中落后。
所谓“训练”是模型透过大量资料集中学习，“推理”则利用已训练好的模型进行预测或
产生回应。由此可知，中国芯片在关键任务上仍落后美国竞争对手，这也是中国追求半导
体自给自足所面临的挑战。
外媒《金融时报》（FT）指出，北京已要求中国科技公司必须为订购 NVIDIA H20 芯片提
供正当理由，借此推广华为、寒武纪（Cambricon）等国产替代方案。
业界人士认为，与 NVIDIA 产品相比，中国芯片存在稳定性问题、芯片间连线速度较慢，
以及软件水准较差等劣势。
据悉，华为曾派出一支工程师团队前往 DeepSeek 办公室，协助利用其 AI 芯片开发 R2
模型。但即使如此，DeepSeek 仍无法在升腾芯片上成功完成一次训练。不过，DeepSeek
与华为合作改为将模型在推理（Inference）阶段能相容于升腾芯片。
知情人士透露，DeepSeek 创办人梁文峰在内部表达对 R2 进展不满，并努力投入更多时
间打造更先进模型，以维持公司在 AI 领域的领先地位。R2 发布延后的原因还包括更新
模型所需的资料标注时间比预期更长，根据中媒报导，该模型有望在未来数周内发布。
加州大学柏克莱分校 AI 研究员 Ritwik Gupta 认为，将升腾用于训练这方面，华为正在
经历“成长痛”，但预期它最终会适应，“我们今天还没看到用华为训练的领先模型，不
代表未来不会发生。这只是时间问题”。
==========
其实是华为没有台积电,没办法搞出好芯片,难怪老黄有恃无恐
就算缴15%获利也没差,应该可以拖住中国AI发展到2030年

继续阅读

[心得] 2025 杂鱼面试经验分享 (1)Iversonshao [心得] 科技业与生活encyclopedia [请益] Offer请益fatu [请益] Offer请益fatu [情报] MIPI CSI/DSI应用线上研讨会a080644966 [新闻] 川普开辉达Blackwell销中后门掀国安疑虑hvariables [聘书] Cooler Master 资深商业数据分析师pudding86200 [新闻] 台积电宣布：将在2年内结束6吋晶圆生产　Angels5566 [新闻] 固态电池发展，特斯拉不看好应用在电动stpiknow [讨论] 英飞凌infineon 台北职缺分享a9202507