在GPU缺货以及成本过高情况下,许多公司正在用软件或其他技术来榨取更多AI处理能力
https://bit.ly/3PiiZV3
随着科技巨头和AI企业抢购为AI提供动力的先进电脑芯片,企业正在寻求新技术,以从可
以使用的AI芯片中获取更多利益。其中,一些公司正在节省AI芯片的使用,或者转向软件
,协助从可用芯片中榨取更多性能并帮助降低成本。
训练生成式AI模型需要多达数万颗GPU。这些GPU大部分是由辉达提供,台积电已经表示,
其在一年半内都难以满足巨大的需求。
IT顾问和外包服务公司Infosys表示,如果从头开始训练AI模型,将需要大量的运算能力
。即使公司设法找到运算资源,成本也会高得令人望而却步。全球最大的科技公司和尖端
新创公司可能在确保使用这些GPU方面具有优势,甚至迫使关系密切的新创公司使用其软
体能力来更有效地运用其GPU。
Netskope表示已经建构了100多个AI模型,用于检测网络安全威胁和帮助提高网络性能等
任务。虽然该公司使用自己的GPU训练这些模型,但其目标是同时训练多个模型,以有效
利用GPU。
另一个称之为推理AI也需要处理能力,但通常低于训练AI所需的能力。对于 Netskope的
推断,使用CPU即使功能不如专属GPU,但更容易获得。而且他们发现这些CPU通过开源软
体工具进行了调整,也能获得更高的性能,从而帮助该公司满足即时模型输出的处理需求
。
数位营运公司PagerDuty正在考虑开源解决方案并运行自己的AI基础设施。也有其他公司
正在转向第三方软件,以从自己的GPU中获得更多性能。例如:Run:ai表示,该公司将其
优化软件直接安装在客户的GPU上。该软件可以自动利用闲置的运算能力,以获得更好的
处理效率,其客户通常拥有数百到数千个GPU用于AI训练。
新创公司OctoML表示,它同样帮助企业从AI硬件中获得更多性能,在云端之上提供服务。
VMware是一家软件巨头,长期专注于企业虚拟化,也致力于帮助客户管理多个云端平台或
数据中心所使用的AI处理。VMware在8月份宣布更新其与辉达的合作伙伴关系,其联合客
户将能够使用数量较少GPU的服务器。
Gartner表示,可以肯定的是,亚马逊、微软和谷歌等云端提供商也可以透过出租来提供
公司所需的处理能力,就像出租电脑服务器一样。
总之,在短期一年半至两年内,由于GPU不易取得,加上过高成本,想要持续发展生成式
AI商机,软件优化GPU运算能力,甚至将闲置GPU有效运用,都能够以较低成本将AI芯片性
能发挥最大,所以为了榨取更多AI能量,这将是不得不的中短期做法。