严格来说是gcp员工的个人报告
https://medium.com/google-cloud/1-million-tokens-per-second-qwen-3-5-27b-on-gke-
with-b200-gpus-161da5c1b592
懒人包:
把Qwen 3.5放到96张B200平行运算
最高速度1,103,941 token/s
最终瓶颈不是模型而是分流节点忙不过来了
缺点
使用mtp所以有失真风险
KV cache太重,实验用1500就极限了
给大家一个对比
现在大部分AI的速度不到100tps
这个是一万倍
0.0