跳过 CUDA,Deepseek 用精细的 PTX 写成
科技新报 作者 Alan Chen | 发布日期 2025 年 01 月 29 日 18:54
在 Deepseek 掀起全球科技圈一阵波澜后,各界都试图从深度求索公布的文件中,找出他
们如何成功的方式,韩国大宇未来资产的分析报告指出,Deepseek 并未使用 Nvidia 的
CUDA 编写,而是透过大量精密调整的并行线程执行代码,达成采用较低规格的硬件产出
高效能 AI 模型表现。
OpenAI 的 ChatGPT 引爆全球人工智能热潮,除了 Nvidia 显示芯片的算力效能之外,
CUDA 架构也是重要脚色之一,因此目前美国各大科技巨头开发的 AI 产品,大多是以
CUDA 架构为基础进行开发。
但是在 Deepseek 横空出世后,号称使用效能较低的 H800 芯片却能产出与 ChatGPT 相
等效能,使各界对于深度求索如何办到感到好奇,韩国大宇未来资产在研究该公司文件后
指出,Deepseek 并未像其他 AI 模型一样采用 CUDA 架构,而是透过并行线程执行代码
(Parallel Thread Excution, PTX)构成。
PTX 是 Nvidia 为 GPU 产品开发的一种中间语言(Intermediate Language),是 CUDA
这类高阶 GPU 程式语言和低阶机器码之间的桥梁,而 PTX 作为一种 Close-to-metal 的
指令集架构,比起 CUDA 来说可让工程师进行更多,更细致的最佳化调整。
不过透过 PTX 虽然可以进行更多专门的最佳化调整,但缺点是很难维持稳定,需要人力
大量除错,因此也显示出 Deepseek 工程师在设计过程中的功力。
而 Deepseek 的出世,也打破了硅谷巨头在人工智能竞争中的军备竞赛局面,AI 开发或
许不一定非得追求最强芯片和庞大芯片数量,透过精细的程式设计也能让低规设备跑出高
效结果,这可能也是前日美国科技股市震荡的主要原因。
https://bit.ly/3PTtnDF
备注:
绕过CUDA还得问行业权威YO叔