Re: Google TurboQuant 内存压缩突

楼主: h0103661 (路人喵)   2026-03-26 14:38:54
※ 引述《pchooooome (千石ユノ的胎盘)》之铭言
: Google TurboQuant 内存压缩突
: Google 推出新 AI 内存压缩算法 TurboQuant,可将 AI 的“工作记 忆体”压缩高达
6
: 倍。
: 哇靠真假,这样本地跑超大模型,的日子是不是要来了
: 挖苦挖苦
这个是上下文量化
先不谈论这个量化损失度,毕竟这个得实测
算一下理论上的内存使用量
拿DeltaNet上下文架构的Qwen3.5为例
8k 压缩前: 0.26, 压缩后: 0.03
32k 压缩前: 1.05, 压缩后: 0.13
128k 压缩前: 4.19, 压缩后: 0.52
262k 压缩前: 8.39, 压缩后: 2.10
1M 压缩前: 32.32, 压缩后: 8.08
如果本体4B用4bit量化,大小是2.74GB
你只需要6.8GB的vram就能有
1M上下文
智商超过gpt oss
图像识别
的无审查本地模型
普通人用262k就很够了,这样总共需要3.8GB
能用GTX1050来跑
苹果用户甚至可以直接装在Air上
当然一切前提是真的如google所说的没有变笨

Links booklink

Contact Us: admin [ a t ] ucptt.com