楼主:
maplefff (maplefff)
2026-06-26 08:41:59※ 引述《Pixma258 (乡民们!别争了!!)》之铭言:
: 乳题,为何内存可以疯涨价成这样
: 川狗一句话都不敢出来叫
: 但晶圆不行,涨价要涨的小心奕奕
: 川狗不时出来叫
: 如要论内存和晶圆,晶圆制造技术门槛更高
: 而且对AI基建晶圆重要性也绝对不会输内存
: 有没有内存可以随便喊涨那么高的毛利率
: 晶圆不行
: 股价更是晶圆疯涨成这样,晶圆却被倒货
: 实在看不懂,想请教一下大家
“HBM容量每GPU大概每年增长40%以上
这条需求曲线的陡峭程度,是DRAM供给端 14% 的晶圆产能增长,
乘以 9% 的密度提升,很难追上的
在硬件领域,因为解码阶段KV快取的极高频宽
和极高内存容量的要求,也导致了HBM独特的地位。即便是HBM涨价三五倍,
把钱花在HBM上带来的边际token产出提升,仍然比花在其他地方要划算的多。
其他几个内存路线,SRAM,HBF,CXL,PIM,
目前都无法在HBM的主力赛道KV快取/解码阶段上正面竞争,
起码未来5年甚至更长时间,不太可能找到替代路线”
https://x.com/fi56622380/status/2070029693810847988?s=20
////////////
只要LLM还是当前自回归生成(AR, Autoregressive Generation)工程范式,
每生成1个token都需要搬运KV快取计算上文每一个token和下文的注意力(Attention)
那内存问题就是供给侧无解的问题, 因为LLM对内存频宽扩展的需求会是
token生成长度二次方增长.
将token生成长度1M token -> 10M token, 内存频宽需要扩展100倍
这远远高于现实世界工厂建设和制程优化的速度.
要解决该问题, 唯一的方法是从算法根本上去解决.
我很久之前就认为文本Diffusion模型很可能是下一代新工程范式
从流形假设的观点看Diffusion的生成更稳定, 从工程实践去看其生成更有效率
文本Diffusion模型可以一次性读取KV快取就透过GPU迭代生成大量token
目前工程实践可以做到一次生成256 token以上, 这表示KV快取搬运减少256倍
而未来显然会更长. 这会把当前的内存受限问题重新拉回到GPU, 算力受限问题上
关键的转折点会落在什么时候上下文长度已经长到这个效益无法忽视
文本Diffusion模型, 随着前阵子Google释出开源DiffusionGemma, 使用起来差距
跟同参数量的AR模型已经在1~2个世代之内. 这表示文本Diffusion已经夸过研究阶段
正式进入工程实践和大规模部署可能.