Re: [请益] 算力需求到底是缺还是快饱和了?

楼主: waitrop (嘴砲无双)   2026-07-03 10:38:43
要解释的东西很多,
趁著长周末,
我就把为何inference 就是 DRAM+ASIC 这件事说明白,
尤其是MRVL
首先,
这是META 发表新的AI ASIC for inference,
ASIC+CXL+DDR4/DDR5
https://www.tomshardware.com/pc-components/dram/meta-fights-soaring-hardware-costs-by-reusing-old-ddr4-server-memory-in-new-ddr5-only-servers-custom-cxl-2-0-chip-marries-legacy-ddr4-2400-with-cutting-edge-ddr5-6400
这是Quqlcomm 发表新到AI ASIC for inference,
ASIC+DRAM+ near/in memory compute
https://www.tomshardware.com/tech-industry/artificial-intelligence/qualcomm-reveals-hbc-near-memory-ai-architecture-ai250-and-ai350-accelerators-touts-6x-higher-bandwidth-per-watt-compared-to-hbm-200x-capacity-compared-to-on-chip-sram
这是MRVL 跟谷歌联合发表的MPU,
ASIC+CXL+DRAM+ near/in memory compute
https://www.semicone.com/article-432.html
其实,
这三颗很可能是同一颗芯片,
至少已经确定其中两颗是同一颗芯片,
然后因为合约没有锁IP 跟专利,
所以这颗芯片已经卖到全世界几乎每家公司都已经有solution了,
包含中国的阿里, 百度等公司,
这颗已经卖翻了,
这也代表整个 inference 产业已经从 GPU HBM,
转型成为ASIC + CXL + DRAM + in memory compute,
这颗芯片从一开始就是为了解决LLM memory wall 而设计的,
又刚好非常适合inference 的使用模式,
再解释就又要写一堆,
而且又是无限引战文,
我就直接告诉你整个业界现在就是这样走
※ 引述《waitrop (嘴砲无双)》之铭言:
: ※ 引述《maplefff (降息の恐怖嘎鳄)》之铭言:
: : 这要从两个层面去分析当前现况: 模型层 和 云基础设施层
: : 如果只评估最能盈利的toB coding方向, 目前主要LLM提供商能力大致如下
: : Anthropic > OpenAI >>>> Gemini >= 中国模型 > grok, meta, others
: : 模型层营收开始出现显著分化, 开始往两超集中, 并且愈来愈集中的态势
: : 模型商品化, 白菜化的叙事落空, 市场看法逐渐转向并不是花大钱, 叠加算力
: : 就能得到前沿模型能力. 前沿LLM供应商保有足够多的隐秘知识, 并逐渐垄断市场
: : 这表示Anthropic, Open AI 营收增速高100%, 毛利率60%~高70%可能是可持续的
: : 能见度至少有半年, 并可能延长到1~2年以上
: : 模型层的高毛利使得模型供应商有能力支付高溢价购买算力
: : 所以高毛利会逐渐传导到云基础设施供应商, 大幅改善4大CSP业者的现金流
: : 并继续推动AI基础设施的扩充
: : 这里有几个消息或资讯可以应证该推论
: : 1. AWS 7/1开始对EC2 ML服务直接涨价20%:
: : 这是既26年1月调涨15%, 最新一轮的涨价; 并且涨幅比之前更大, 年内累积涨幅达38%.
: : H100(P5)报价:
: : 1月前: ~$3.8/hr 1~6月:~$4.3/hr 7月: ~$5.2/hr
: : H200(P5e)报价:
: : 1月前: ~$4.3/hr 1~6月:~$5.0/hr 7月: ~$6.0/hr
: : B200(P6-B200)报价:
: : 1月前: NA 1~6月:~$10.3/hr 7月: ~$12.4/hr
: : 2. Vast.ai上的价格:
: : Vast.ai是目前市场上最大的P2P GPU租赁平台, 其代表的意义是GPU租赁地板价
: : 因为市场肯定是从: 四大CSP -> NeoCloud -> Vast.ai等另类平台
: : 这样的顺序去依序寻找算力,上一层价格太贵才会往下找, 所以价格对需求外溢
: : 的敏感度会非常高.
: : Vast.ai另外一个好处是价格是即时撮合出来并留有历史季度
: : https://vast.ai/pricing/gpu/B200
: : 可以看到价格从1月开始逐步缓涨, 到5月硅谷开始Tokenmaxing狂潮,
: : 价格中价暴涨将近100%, 然后逐渐回归理性, 但年内依然累积60%左右涨幅
: : 最后结论一下:总得来讲LLM市场竞争正在逐渐去泡沫, 淘汰实力较弱的参与者
: : 并转向合理的寡头垄断, 这使得LLM行业能保持合理毛利率, 并逐渐扩散到整体相关行业
: : 在模型层失利的厂商, 透过转化现有GPU去基础设施层改善现金流和资产价值
: : 是理性的双赢选择, 推论其为泡沫破裂的早期征兆是严重滑坡
: : CSP, NV股价有被低估, 内存股价低得夸张, 可以摊平购买
: 先说结论,
: 算力还是很缺,
: 内存, 尤其是DRAM, 还是很缺
: 详细原因,
: 我在几个星期前有解释过
: https://www.ptt.cc/bbs/Stock/M.1782458086.A.529.html
: 撇开不能说,
: 以及家丑不能外扬的部分,
: 可惜这部分才是最精彩的地方,
: 我说的都是我在业界现在正在看到的情况
: 从去年下半年开始,
: 尤其Gemini 追上 OpenAI Claude 之后,
: LLM 训练部分已经不是瓶颈,
: 因为各家大模型现在训练出来都差不多聪明,
: 没有到差距很大,
: 如果你有感觉差距很大,
: 那是信仰的问题,
: 当然Claude 在 coding 这块是真的强也真的好用,
: 这些就不多说, 会引战
: 反正去年下半年之后,
: 主战场就转移到推理inference 上面,
: 也就是AI API token 等应用层面上,
: 而inference 推理市场是训练市场的百倍千倍以上,
: 所以怎么可能会算力过剩,
: 推理应用市场所需要的算力远远不足,
: 你看Gemini 现在的表现就知道推理的算力还是不足
: Meta 跟 xai 算力出租代表的是他们退出AI训练竞争,
: 也就是退出AI 模型竞争,
: 转型成为资料中心的包租公,
: 你就想成像是类似ORCL Corewave等公司的形式,
: 不开发模型, 单纯出租算力
: 这不表示算力过剩,
: 只是表示他们退出AI模型竞争,
: 现在算力都用在推理inference,
: 用在每一笔AI API token,
: 也就是真正能生出钱的地方,
: 只要token 还有需求,
: 算力就会有需求
: 除了谷歌之外,
: 模型商跟CSP厂是各自有自己的算盘,
: 以CSP厂的角度, 包含Meta xai+cursor等,
: 他们的商业想法是,
: 如果以后每一个模型都差不多一样聪明,
: 那么真正有议价权跟控制权的是掌握算力的一方,
: 也就是CSP厂,
: cursor 套皮可以随意转换任何模型,
: CSP厂跟meta 等算力出租公司,
: 可以压低模型价格可以用自己的算力去议价
: 在模型商的想法是相反,
: 如果模型商能出一个遥遥领先最聪明的模型, 甚至是AGI,
: 那么有议价权跟控制权的是这个唯一的AGI 模型,
: 他们可以随意转换CSP厂压低算力价格,
: 最好的例子就是OpenAI 怎么去凹 微软跟ORCL的算力
: 所以这很难说 谁会胜出,
: 你觉得以后会有唯一的AGI真神模型,
: 还是以后所有的模型都差不多一样聪明的烂大街模型,
: 我没有答案就是了
: Anyway, 扯远了,
: 反正训练模型只剩三家在玩,
: 但是inference 推理市场是百家争鸣,
: 卖token 的是算力远远不足,
: 而其中,
: DRAM 对inference 的需求会远高于HBM,
: ASIC 对inference 的需求会远高于GPU,
: 这道理就是量大管饱,
: API token 要的就是量大管饱,
: 速度差一点没关系
: 或者我们用生活上的例子来说明,
: 台北到高雄,
: 你可以选择坐飞机, 坐高铁, 坐台铁,
: 开法拉利, 开Toyota,
: 甚至可以选择坐统联, 或是骑脚踏车一日双城,
: 这跟你的乘客量还有票价有很大的相关性,
: inference 推理的API token 要的就是量大管饱,
: 每个token 的单价要压到最低,
: 吞吐量要最大,
: 所以训练是开法拉利, 推理是坐公共汽车,
: 训练是坐飞机, 推理是搭公共汽车

Links booklink

Contact Us: admin [ a t ] ucptt.com