[闲聊] Google 发表 110万 token/s 的AI架构 h0103661 PTT批踢踢实业坊

[闲聊] Google 发表 110万 token/s 的AI架构

楼主: h0103661 (路人喵) 2026-03-27 09:05:09

严格来说是gcp员工的个人报告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懒人包：
把Qwen 3.5放到96张B200平行运算
最高速度1,103,941 token/s
最终瓶颈不是模型而是分流节点忙不过来了
缺点
使用mtp所以有失真风险
KV cache太重，实验用1500就极限了
给大家一个对比
现在大部分AI的速度不到100tps
这个是一万倍
0.0

作者: lovez04wj06 (车前草) 2026-03-27 09:06:00

太夸张

作者: crimsonmoon9 (绯月) 2026-03-27 09:07:00

1500是指context window吗这么小不能干嘛吧

作者: MiMi563372 (弟切) 2026-03-27 09:08:00

反正台湾就卖铲子就好,算法就让大厂厮杀

楼主: h0103661 (路人喵) 2026-03-27 09:09:00

对，就真的这么小，往上加一点点都得丢掉几个节点

作者: diefish5566 (LOL板李奥纳多皮卡丘) 2026-03-27 09:10:00

上下文1500 读了个啥

作者: windowsill (蓝冬海) 2026-03-27 09:10:00

吐了

作者: amsmsk (449) 2026-03-27 09:20:00

笑死

作者: dog41125 (TL) 2026-03-27 09:27:00

好猛喔，但是unity还是得自己挂插件的部分可以进步一下吗？自己挂好累==

作者: CureSeal (库露露) 2026-03-27 09:31:00

看起来是实验室的技术

继续阅读

超恨测住.........................miHoYo Re: 股票qscxz [瓦特] 你的名字出现在艾普斯坦名单里DoraGian [姆咪] 丰原Megacolon Re: 股票pchooooome [瓦特] 肥豚KurageuRoa Re: [闲聊] comfyuicrimsonmoon9 [姆咪] 柯今天会这样jerry7668 Re: [姆咪] 20岁女“社群媒体成瘾”提告判赔9600万windowsill Re: [边缘] 下次还要去池袋bluesheep816