[新闻] 跳过 CUDA，Deepseek 用精细的 PTX 写成 TBOC PTT批踢踢实业坊

[新闻] 跳过 CUDA，Deepseek 用精细的 PTX 写成

楼主: TBOC (花严) 2025-01-30 14:51:39

跳过 CUDA，Deepseek 用精细的 PTX 写成
科技新报作者 Alan Chen | 发布日期 2025 年 01 月 29 日 18:54
在 Deepseek 掀起全球科技圈一阵波澜后，各界都试图从深度求索公布的文件中，找出他
们如何成功的方式，韩国大宇未来资产的分析报告指出，Deepseek 并未使用 Nvidia 的
CUDA 编写，而是透过大量精密调整的并行线程执行代码，达成采用较低规格的硬件产出
高效能 AI 模型表现。
OpenAI 的 ChatGPT 引爆全球人工智能热潮，除了 Nvidia 显示芯片的算力效能之外，
CUDA 架构也是重要脚色之一，因此目前美国各大科技巨头开发的 AI 产品，大多是以
CUDA 架构为基础进行开发。
但是在 Deepseek 横空出世后，号称使用效能较低的 H800 芯片却能产出与 ChatGPT 相
等效能，使各界对于深度求索如何办到感到好奇，韩国大宇未来资产在研究该公司文件后
指出，Deepseek 并未像其他 AI 模型一样采用 CUDA 架构，而是透过并行线程执行代码
（Parallel Thread Excution, PTX）构成。
PTX 是 Nvidia 为 GPU 产品开发的一种中间语言（Intermediate Language），是 CUDA
这类高阶 GPU 程式语言和低阶机器码之间的桥梁，而 PTX 作为一种 Close-to-metal 的
指令集架构，比起 CUDA 来说可让工程师进行更多，更细致的最佳化调整。
不过透过 PTX 虽然可以进行更多专门的最佳化调整，但缺点是很难维持稳定，需要人力
大量除错，因此也显示出 Deepseek 工程师在设计过程中的功力。
而 Deepseek 的出世，也打破了硅谷巨头在人工智能竞争中的军备竞赛局面，AI 开发或
许不一定非得追求最强芯片和庞大芯片数量，透过精细的程式设计也能让低规设备跑出高
效结果，这可能也是前日美国科技股市震荡的主要原因。
https://bit.ly/3PTtnDF
备注:
绕过CUDA还得问行业权威YO叔

继续阅读

[问卦] 地震chen96374 [爆卦] 地震harrybbs [问卦] 台湾唸理工的那么顶为何做不出一个AI?TomFord5566 [问卦] 人均寿命越来越长过年应该改两年一次吧YU0121 [问卦] 张无忌除了害死常遇春还有谁?KDimitrov313 [问卦] 为何三鸟牌萤幕现在不流行反而都啥电竞arnold3 Re: [问卦] 脆：就算孙俪是中共党员看甄嬛也不是卖台devidevi Re: [问卦] 宫庙对社会的贡献是什么？GA389434 [问卦] 青鸟才是背叛台湾的人吧 ==？ZengMaktub [问卦] 黑人484无法享受雷射除毛服务?yoyoflag