[新闻]新模型 R2 延后主因!DeepSeek 尝试华为

楼主: pl132 (pl132)   2025-08-14 19:58:01
新模型 R2 延后主因!DeepSeek 尝试华为芯片失败,还是得靠 NVIDIA
https://tinyurl.com/24gqjw6w
中国人工智能(AI)公司 DeepSeek 在尝试使用华为芯片训练新模型失败后,延后新一代
模型的发布,这也凸显北京推动取代美国技术的困难。
知情人士透露,DeepSeek 在 1 月发布 R1 模型后,受到官方鼓励,改采用华为升腾(
Ascend)处理器,而非 NVIDIA 系统。
然而,在使用升腾芯片进行 R2 训练过程中持续遇到技术问题,因此改回 NVIDIA 芯片进
行训练,仅在推理(Inference)阶段使用华为芯片。知情人士透露,这是模型发布从 5
月延后的主要原因,导致 DeepSeek 在竞争中落后。
所谓“训练”是模型透过大量资料集中学习,“推理”则利用已训练好的模型进行预测或
产生回应。由此可知,中国芯片在关键任务上仍落后美国竞争对手,这也是中国追求半导
体自给自足所面临的挑战。
外媒《金融时报》(FT)指出,北京已要求中国科技公司必须为订购 NVIDIA H20 芯片提
供正当理由,借此推广华为、寒武纪(Cambricon)等国产替代方案。
业界人士认为,与 NVIDIA 产品相比,中国芯片存在稳定性问题、芯片间连线速度较慢,
以及软件水准较差等劣势。
据悉,华为曾派出一支工程师团队前往 DeepSeek 办公室,协助利用其 AI 芯片开发 R2
模型。但即使如此,DeepSeek 仍无法在升腾芯片上成功完成一次训练。不过,DeepSeek
与华为合作改为将模型在推理(Inference)阶段能相容于升腾芯片。
知情人士透露,DeepSeek 创办人梁文峰在内部表达对 R2 进展不满,并努力投入更多时
间打造更先进模型,以维持公司在 AI 领域的领先地位。R2 发布延后的原因还包括更新
模型所需的资料标注时间比预期更长,根据中媒报导,该模型有望在未来数周内发布。
加州大学柏克莱分校 AI 研究员 Ritwik Gupta 认为,将升腾用于训练这方面,华为正在
经历“成长痛”,但预期它最终会适应,“我们今天还没看到用华为训练的领先模型,不
代表未来不会发生。这只是时间问题”。
==========
其实是华为没有台积电,没办法搞出好芯片,难怪老黄有恃无恐
就算缴15%获利也没差,应该可以拖住中国AI发展到2030年

Links booklink

Contact Us: admin [ a t ] ucptt.com