[情报] DeepSeek绕过CUDA 自己优化底层编程语言 jackliao1990 PTT批踢踢实业坊

[情报] DeepSeek绕过CUDA 自己优化底层编程语言

楼主: jackliao1990 (jack) 2025-01-29 19:55:49

https://x.com/bookwormengr/status/1883355712191123666
关于DeepSeek的优化改进
许多人没注意到的是:
DeepSeek也绕过了CUDA并使用底层编程语言PTX做优化
在辉达的PTX语言实际编译流程中
CUDA代码首先被编译为PTX代码
PTX代码再被编译为目标GPU架构的机器码（SASS,Streaming ASSembler）
CUDA起到了提供高级编程接口和工具链的作用
可简化开发者的工作
而PTX作为中间层充当高级语言和底层硬件间的桥梁
PTX允许进行细粒度优化
如寄存器分配和Thread/Warp级别的调整
这种编译复杂又难维护
所以其他公司用的是CUDA这种高级编程语言
V3硬件效率之所以比Meta高出10倍
关键在于V3针对自己需求把132个流式多处理器（SMs）中的20个修改成负责服务器间通信
而不是计算任务
变相绕过了硬件对通信速度的限制
这点是用辉达的PTX实现的,不是CUDA
虽然DeepSeek把优化做到极致
然而同行表示
DeepSeek这种直接编写PTX代码的做法很难移植到不同型号的GPU
针对H100优化的代码移到其他型号上效果打折扣也可能根本不work

继续阅读

[新闻] 阿里巴巴发布人工智能模型称超越 DeepSeAngels5566 [新闻] DeepSeek涉不当获取OpenAI数据？微软调查sunbysea Re: [讨论] 台湾为什么搞不出DeepSeek?ggian123 Re: [讨论] 台湾为什么搞不出DeepSeek?nfish Re: [新闻]不，你无法用 600 万美元复制一个 DeepSeeKanzakiHAria Re: [新闻]不，你无法用 600 万美元复制一个 DeepSeesxy67230 [新闻]不，你无法用 600 万美元复制一个 DeepSeepl132 [新闻] 美海军开出第1枪！全面禁止使用DeepSeekboards [讨论] AI京剧硅谷惊雷youtien [新闻] 除夕夜惊传竹科瞬间压降工程师吓到抛下qazxc1156892