Re: [新闻] 跳过 CUDA,Deepseek 用精细的 PTX 写成

楼主: s213092921 (麦靠贝)   2025-01-31 14:55:07
《转载》
网络上传deepseek绕过了辉达cuda,我跟大家讲一下deepseek到底做了什么。
辉达严格来说是一个平台性公司,并不止是硬件,硬件只不过是一个载体,它的护城河是cuda计算平台,所有高性能并行计算的祖师爷,只要你用辉达的显卡做高性能计算,就要透过cuda计算平台。
你说用AMD的显示卡,嗨,它没有生态呀,就像android和windows phone那么大的差别。 你买苹果手机,不是买的硬件,而是IOS整个生态,这个生态也是用户黏性的核心,cuda也是如此,你搞高效能运算,周边的配套生态工具都是cuda的,你总不能自己再开发一套出来,就像你一个开发电商的会去再造个JAVA的轮子吗? 辉达打来十年的领先时间。 所以各大公司都被英伟达狂宰,有苦难言。
总之一句话,英伟达创造了当代高效能运算的所有标准软件、硬件以及工俱生态,你想写个demo用啥都行,你想上生产除了辉达别无选择,这就是过去十年AI圈的现实 ,天下苦达子久矣。
Deepseek开源以后利用Meta二十分之一的成本,完成了比Meta性能好十倍的大模型,达到了与全球领先chatgpt最新版本相当的实力。
Deepseek不仅公布了开源了程式码,公开了测试方式与数据,还发表了全新架构的论文,这相当于一把梭了。
各路人马一开始不相信,然后开始扒deepseek,用deepseek的源代码,测试数据,样本等可以完全复现一次deepseekR1的训练过程,成本就是那么低,这让所有人都闭嘴了。
有点从不服的心态变成你是挺牛逼的意思了,接着研究细节,然后从论文中发现了deepseek改造了辉达底层的cuda生态,用比cuda更底层的ptx语言重写了cuda的硬件逻辑,让其中有20个流处理器硬件做了CUDA规定以外的事,弥补了阉割版显示卡在网络通讯上的不足,相当于绕过辉达的管理平台与运算生态,直接给辉达的硬件发号施令 。
这是英伟达股价崩盘的核心逻辑,辉达的最大护城河让人挖开了一个洞。 辉达是个霸气十足的太岁,如今deepseek在太岁头上动土了。
deepseek可以这么做,就代表别人也可以这么做。有人问了那之前没人能想到吗?
这个问题很好,之前一定有大神想过,但是有很多问题导致无法实现。 一是在大模型刚出现的时候一片蓝海,大家空间无限大,都在忙着攻城略地,速度和效率是最大优先级,没人给你时间去搞底层语言编程这玩意,特别是美国人,花钱能解决的事不叫问题,不就是美元嘛,印就完了,钱有得是,辉达的显卡随便买,谁脑子有洞给自己找麻烦?
中国不一样,被美国制裁只能用阉割卡,还不能随便买,资源极度匮乏,必须用最小的硬件压榨出最大的性能出来,只能剑走偏锋。 所以用ptx绕过cuda这件事只会发生在中国,不可能发生在美国,逻辑不允许
第二点是大语言模型的发展进入了一个全新的时期,工作效率理解力推理能力精度都有了质的飞跃,deepseek是用deepseek推理模型本身完成了海量的ptx代码优化工作,这才使deepseek 的新版本有可能绕过CUDA完成程式指令集的巨量任务。 ptx是变种的组合语言,如果用真人写,以现在的资料量累死也写不完,但是AI它效率高呀,怎么写也不累…
辉达现在的危机是怎么给投资人说cuda依然在未来几十年的地位无法被撼动,但显然他们还没找到答案。 谁能想到AI的教宗竟然被AI给革了命,这找谁说理去。
我再强调一遍,国运,不在于人,而在于势,美国的势没了,这才是最恐怖的。
小结:Deepseek好像用自家模型完成PTX的工作量

Links booklink

Contact Us: admin [ a t ] ucptt.com