Re: [新闻] 跳过 CUDA，Deepseek 用精细的 PTX 写成 s213092921 PTT批踢踢实业坊

Re: [新闻] 跳过 CUDA，Deepseek 用精细的 PTX 写成

楼主: s213092921 (麦靠贝) 2025-01-31 14:55:07

《转载》
网络上传deepseek绕过了辉达cuda，我跟大家讲一下deepseek到底做了什么。
辉达严格来说是一个平台性公司，并不止是硬件，硬件只不过是一个载体，它的护城河是cuda计算平台，所有高性能并行计算的祖师爷，只要你用辉达的显卡做高性能计算，就要透过cuda计算平台。
你说用AMD的显示卡，嗨，它没有生态呀，就像android和windows phone那么大的差别。你买苹果手机，不是买的硬件，而是IOS整个生态，这个生态也是用户黏性的核心，cuda也是如此，你搞高效能运算，周边的配套生态工具都是cuda的，你总不能自己再开发一套出来，就像你一个开发电商的会去再造个JAVA的轮子吗？辉达打来十年的领先时间。所以各大公司都被英伟达狂宰，有苦难言。
总之一句话，英伟达创造了当代高效能运算的所有标准软件、硬件以及工俱生态，你想写个demo用啥都行，你想上生产除了辉达别无选择，这就是过去十年AI圈的现实，天下苦达子久矣。
Deepseek开源以后利用Meta二十分之一的成本，完成了比Meta性能好十倍的大模型，达到了与全球领先chatgpt最新版本相当的实力。
Deepseek不仅公布了开源了程式码，公开了测试方式与数据，还发表了全新架构的论文，这相当于一把梭了。
各路人马一开始不相信，然后开始扒deepseek，用deepseek的源代码，测试数据，样本等可以完全复现一次deepseekR1的训练过程，成本就是那么低，这让所有人都闭嘴了。
有点从不服的心态变成你是挺牛逼的意思了，接着研究细节，然后从论文中发现了deepseek改造了辉达底层的cuda生态，用比cuda更底层的ptx语言重写了cuda的硬件逻辑，让其中有20个流处理器硬件做了CUDA规定以外的事，弥补了阉割版显示卡在网络通讯上的不足，相当于绕过辉达的管理平台与运算生态，直接给辉达的硬件发号施令。
这是英伟达股价崩盘的核心逻辑，辉达的最大护城河让人挖开了一个洞。辉达是个霸气十足的太岁，如今deepseek在太岁头上动土了。
deepseek可以这么做，就代表别人也可以这么做。有人问了那之前没人能想到吗？
这个问题很好，之前一定有大神想过，但是有很多问题导致无法实现。一是在大模型刚出现的时候一片蓝海，大家空间无限大，都在忙着攻城略地，速度和效率是最大优先级，没人给你时间去搞底层语言编程这玩意，特别是美国人，花钱能解决的事不叫问题，不就是美元嘛，印就完了，钱有得是，辉达的显卡随便买，谁脑子有洞给自己找麻烦？
中国不一样，被美国制裁只能用阉割卡，还不能随便买，资源极度匮乏，必须用最小的硬件压榨出最大的性能出来，只能剑走偏锋。所以用ptx绕过cuda这件事只会发生在中国，不可能发生在美国，逻辑不允许
第二点是大语言模型的发展进入了一个全新的时期，工作效率理解力推理能力精度都有了质的飞跃，deepseek是用deepseek推理模型本身完成了海量的ptx代码优化工作，这才使deepseek 的新版本有可能绕过CUDA完成程式指令集的巨量任务。 ptx是变种的组合语言，如果用真人写，以现在的资料量累死也写不完，但是AI它效率高呀，怎么写也不累…
辉达现在的危机是怎么给投资人说cuda依然在未来几十年的地位无法被撼动，但显然他们还没找到答案。谁能想到AI的教宗竟然被AI给革了命，这找谁说理去。
我再强调一遍，国运，不在于人，而在于势，美国的势没了，这才是最恐怖的。
小结：Deepseek好像用自家模型完成PTX的工作量

继续阅读

[问卦] 干你娘老人真的好臭jumpjumpp [问卦] 有人上过中坜旧车站的厕所吗romdan [新闻] 立法院大嘻哈　吴沛忆、苏巧慧、邱议莹、taiwan08 [问卦] 华妃不要那么皮能活到最后吗？GGININDER4NI [问卦] 台湾湿冷是新手村难度？OrcDaGG [问卦] 网络对养小孩花费越来越豪洨？DarkKnight [问卦] 有没有中国人他妈的不抽菸会死的八卦？tom86814 [问卦] 跟对人是不是可以无罪？Lineage097 [新闻] 宜兰走春车祸一死四伤！疑后车未减速追撞g01794827 [问卦] 出国去四国东北北陆山阴对吧？InfoWars