AI超级集群时代即将来临!这对AI芯片是利多,但会持续多久呢?
原文网址:https://bit.ly/3Oo2g2G
原文:
过去两年来,营运大数据中心的公司一直在竞相购买辉达的AI处理器。现在,一些最雄心
勃勃的参与者正在透过建立所谓的超级电脑服务器集群来升级未来AI之战。
xAI在几个月内就在孟菲斯建造了一台名为Colossus的超级电脑,其中配备了 100,000颗
辉达的Hopper AI芯片,并宣称全世界上最强大的超级集群。Meta执行长马克祖克柏于
2024年10月表示,他的公司已经在使用一组芯片来训练其最先进的AI模型,因为其也正积
极建立超级集群。
一年前,由数万个芯片组成的集群就被认为是非常庞大了。根据瑞银分析师估计,OpenAI
使用了大约10,000颗辉达AI芯片来训练其于2022年底推出的ChatGPT版本。如今这一超级
集群风潮,开始吹向更多厂商。
也由于对这种更大超级集群的推动,正帮助辉达维持成长轨迹,使其季度营收从两年前的
约70亿美元增加到如今的超过350亿美元。
迄今为止,将许多芯片安装在一个地方,并透过超高速网络电缆连接在一起,可以以更快
的速度产生更大的AI模型,似乎成为风潮。换句话说,辉达AI热潮的持续在很大程度上将
取决于最大的芯片集群的表现。这一趋势不仅带来了芯片购买热潮,还刺激了对辉达网络
设备的需求,该设备正迅速成为一项重要业务,每年带来数十亿美元的销售额。
如今看起来,用于训练巨型AI模型的最大超级集群最多包含10万颗辉达当前芯片。接下来
的下一代超级集群的起始数量约为10颗Blackwell芯片,这一性能提升将是明显的。
对于xAI和Meta等公司来说,这一场资金赌注很高。它们一方面为了运算能力而相互竞争
,另一方面也打赌拥有更多的辉达芯片,将可转化为相应更好的AI模型。除了xAI和Meta
之外,OpenAI和微软也一直致力于为AI建立重要的新型运算设施。此外,谷歌也正在建造
大型数据中心来容纳驱动其AI战略的芯片。
根据SemiAnalysis研究,超级集群正从几十个芯片一直扩展到10万颗AI芯片,但没有证据
其会持续扩展到100万颗AI芯片和1000亿美元的系统。可是马斯克的下一步可能是在2025
年夏天为xAI和自动驾驶系统建立一个由辉达最新芯片组成的30万颗芯片集群。
这是一个庞大的投资,毕竟,每一颗Blackwell芯片的成本约为3万美元,这意味着10万颗
AI芯片的超级集群将花费30亿美元,那更不用说30万颗AI芯片了。此外,随着高耗能芯片
集群变得更加紧密,保持辉达芯片冷却就变成一项重大挑战。
这一场AI超级集群的游戏,将是下一个值得关注的议题,这也会影响未来AI趋势的发展啊
!