相关文章可以参考这个
https://36kr.com/p/2927059579722630
比较有意义的是这边
https://spectrum.ieee.org/new-inference-chips
前言
虽然大家都在讨论AI要怎样获利 但AI产品要获利前 有一个很重要的大前提
就是AI infrastructure得先成熟 也就是如何让巨大数量消费者能在平台上(Large-scale)
能得到平台上的服务 这个第一步关键就是Inference 上的成本 算力提升也意味单位
成本下降
自从LLM兴起后(GenAI) 直到去年都比较是Training上的改进 像是软件端有Deep-Speed
陆续整合到LLM/Transformer上 能把训练数度提高百倍(意味成本降低百倍)
硬件端有A100->H100 (Transformer加速) HBM容量变大 等等此类
但针对AI商业化的Inference块一直很不明朗
去年之前 我个人认为Inference玩家就是NV/AMD/i皇(免强算半个)/ASIC玩家等大乱战
今年开始Inference开始有比较严谨的方式去量化"Large-Scale Service" 来推广落地
这都意味以后的服务平台成本会下降 以现在GPT-4o 25.00元 你可以使用1M tokens
(注2) 想像一下 以后的成本可以降到100倍以上 同时也意味AI infra在走向产业落地
而第二个连结(ieee)就是开始在量化Inference的成本/能力 里面用秒来计算能提供多少
客户请求(queries)
里面有两个比较重要的分类 (1) 一个是MoE 这是一种算法上的设计 会成为将来主流
他能在LLM包山包海的下游任务(例如 文字总结 写程式 医疗问题) 能动态选取专家
所以在MoE上表现好 对效能上来说都会好 (2)处理位元数降低(e.g., f32/bf16/f4)
处理位元数降低好处会带来运算速度增快 运算成本降低 但通常缺点就是效能会变很糟
(正确率下降 模型准度降低) 但NVDA弄出了一个4位元版本 且准度没有太大牺牲
Blackwell FP4运算效力非常夸张 ( https://reurl.cc/myrAMM )
第二个连结可以看出明显AI inference 老黄把众家对手打得满头包...在第二张图里
就算校正GPU数量 狗家的TPU也是没占上风(注3)
处此之外 还有一份报告是关于Llama3 ( https://www.aizws.net/news/detail/1238 )
可以看见当算力拉高高算力 高power 巨大集群 系统容易崩溃 就连老黄都无法避免
然而这在A100丛集 崩溃几乎没有出现过 这也意味众家对手再拉高power 算力
软件容易不稳定而崩溃 在这个AI军备竞赛下 时间永远是个最重要的成本 这也意味
其他对手还只要没在巨大集群验证过都不能算上玩家 (目前只有狗家)
最后一个总结 老黄的核心思想就是算力 (硬件+软件+巨大cluster)
当年老黄在显卡大战说过 我每半年提高显卡算力一倍 虽然一堆游戏厂商
跟我说他家电动游戏不需要这样强显卡 但我们不能照游戏厂商需求来设计
我们给他们更好的显卡 这样他们才能设计更好的游戏 我们可以创造需求
同样 只要对先进算法有需求 算力就会存在 显卡大战所有的套路 我们会再重新走一次
而AI这个路线也是如此 因为Scaling Law已经讲明 算力无穷止尽造就无穷智能
就算今天LLM技术落伍 只要有需求先进的算法 就会需要算力 Scaling Law就是摩尔定律
CPU当年无限开发计算能力 有了软件业 显卡无限开发算力 有了电动产业
这也是为何Eric Schmidt说 政府用算力10的26次方flops当作监管条件
其他政治上的风险
https://www.youtube.com/watch?v=UczALD7ZZDU
Data Center->水 土地 电力 当地居民抗议