[闲聊] Google 发表 110万 token/s 的AI架构

楼主: h0103661 (路人喵)   2026-03-27 09:05:09
严格来说是gcp员工的个人报告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懒人包:
把Qwen 3.5放到96张B200平行运算
最高速度1,103,941 token/s
最终瓶颈不是模型而是分流节点忙不过来了
缺点
使用mtp所以有失真风险
KV cache太重,实验用1500就极限了
给大家一个对比
现在大部分AI的速度不到100tps
这个是一万倍
0.0
作者: lovez04wj06 (车前草)   2026-03-27 09:06:00
太夸张
作者: crimsonmoon9 (绯月)   2026-03-27 09:07:00
1500是指context window吗 这么小不能干嘛吧
作者: MiMi563372 (弟切)   2026-03-27 09:08:00
反正台湾就卖铲子就好,算法就让大厂厮杀
楼主: h0103661 (路人喵)   2026-03-27 09:09:00
对,就真的这么小,往上加一点点都得丢掉几个节点
作者: diefish5566 (LOL板李奥纳多皮卡丘)   2026-03-27 09:10:00
上下文1500 读了个啥
作者: windowsill (蓝冬海)   2026-03-27 09:10:00
吐了
作者: amsmsk (449)   2026-03-27 09:20:00
笑死
作者: dog41125 (TL)   2026-03-27 09:27:00
好猛喔,但是unity还是得自己挂插件的部分可以进步一下吗?自己挂好累==
作者: CureSeal (库露露)   2026-03-27 09:31:00
看起来是实验室的技术

Links booklink

Contact Us: admin [ a t ] ucptt.com