https://x.com/bookwormengr/status/1883355712191123666
关于DeepSeek的优化改进
许多人没注意到的是:
DeepSeek也绕过了CUDA并使用底层编程语言PTX做优化
在辉达的PTX语言实际编译流程中
CUDA代码首先被编译为PTX代码
PTX代码再被编译为目标GPU架构的机器码(SASS,Streaming ASSembler)
CUDA起到了提供高级编程接口和工具链的作用
可简化开发者的工作
而PTX作为中间层充当高级语言和底层硬件间的桥梁
PTX允许进行细粒度优化
如寄存器分配和Thread/Warp级别的调整
这种编译复杂又难维护
所以其他公司用的是CUDA这种高级编程语言
V3硬件效率之所以比Meta高出10倍
关键在于V3针对自己需求把132个流式多处理器(SMs)中的20个修改成负责服务器间通信
而不是计算任务
变相绕过了硬件对通信速度的限制
这点是用辉达的PTX实现的,不是CUDA
虽然DeepSeek把优化做到极致
然而同行表示
DeepSeek这种直接编写PTX代码的做法很难移植到不同型号的GPU
针对H100优化的代码移到其他型号上效果打折扣也可能根本不work