[新闻] IEEE：GPU很好，但不是唯一 jackliao1990 PTT批踢踢实业坊

[新闻] IEEE：GPU很好，但不是唯一

楼主: jackliao1990 (jack) 2024-03-31 12:23:05

IEEE：GPU很好，但不是唯一
https://www.qbitai.com/2024/03/131950.html
十三
CPU价值重新被发现
是时候让CPU在AI应用上“支棱”起来了。
这是去年大语言模型大火之时，权威期刊 IEEE Spectrum 在一篇文章中，开门见山给出
的一个观点；并且是由一群AI研究人员得出、声量越来越大的那种。
文章还坦言道：
诚然GPU可能占据了主导地位，但在AI领域中的许多情况下，CPU却是更合适的那一个
。
例如文章引援了Hugging Face首席布道官Julien Simon体验的真实案例——
拿一个英特尔® 至强® 系列CPU ，就能轻松驾驭Q8-Chat这个大语言模型，而且反应速
度很快。
Simon对此开诚布公地表示：
GPU虽然很好，但垄断从来不是一件好事，可能会加剧供应链问题并导致成本上升。
英特尔CPU在许多推理场景中都能很好地运作。
而这也正与当下大模型的发展趋势变化相契合，即逐渐从训练向推理倾斜，大模型不再仅
较真于参数规模、跑分和测评，更注重在应用侧发力。
一言蔽之，比的就是看谁能 “快好省” 地用起来。
不过话虽如此，但在真实的AI场景中，CPU真的已经“支棱”起来了吗？
京东云，选择CPU
如果说当时在这个话题上，IEEE扮演了“嘴替”，是在帮那些AI应用实践的先行者们发声
，那么这种发声，确实又吸引或带动了更多实干者来验证这种可行性。他们如今已经可
以给出一个确定答案，即在许多AI推理的场景中，CPU已经能很好地上岗了。
例如中国公有云服务器市场的翘楚例如中国公有云服务器市场的翘楚京东云，它pick的
便是最新的第五代英特尔® 至强® 可扩充处理器。
具体而言，是在其新一代京东云端服务器上搭载了这款高阶CPU。
话不多说，我们直接先来看效果。
首先，从整体来看，新一代京东云端服务器的整机效能最高提升了23%！
除此之外，在AI推理方面的表现也是Up Up Up。
电脑视觉推理：表现提升38%
Llama 2推理：性能提升51%
而之所以能有如此突破，核心就是第五代英特尔® 至强® 可扩展处理器内建的AMX（高
阶矩阵扩充）技术对AI的加速能力。
英特尔® AMX 是针对矩阵运算推出的加速技术，支援在单一操作中计算更大的矩阵，让
生成式AI 更快运作。
一言以蔽之，你可以把它当作内建在CPU中的Tensor Core。
展开来说， AMX引入了一种包含两个组件的新矩阵处理框架，包括二维的寄存器文件，它
由被称为“tile”的寄存器组成；另一个是一系列能够在这些tile上执行操作的加速器。
在这些技术的加持之下，以向量检索为例，当处理n个批次的任务时，需要对n个输入向量
x和n个数据库中的向量y进行相似度比较。
这一过程中的相似度计算涉及到大量的矩阵乘法运算，而英特尔® AMX能够针对这类需求
提供显著的加速效果。
https://tinyurl.com/bdzdkax9
△英特尔® AMX架构
在提升模型效能的过程中，英特尔® oneDNN 作为AMX的软件搭档，可为操作者提供一种
高效的最佳化实现方式。
开发者只需呼叫MatMul原语，并提供必要的参数，包括一些后处理步骤，oneDNN便会自动
处理包括配置块寄存器、数据从内存的加载、执行矩阵乘法计算以及将结果回写到内存等
一系列复杂操作，并在最后释放相关资源。
这种简化的编程模式显著减轻了工程师的编程负担，同时提升了开发效率。
透过上述软硬结合的最佳化措施，京东云端新一代服务器就可以在大模型推理和传统深度
学习模型推理等场景里提供能满足客户效能和服务品质(QoS) 需求的解决方案，同时还可
以强化各种CPU本就擅长的通用运算任务的处理效率。仅就大家关心的大模型推理而言，
已经能用于问答、客服和文件总结等多种场景。
https://tinyurl.com/45vjymn7
△Llama2-13B推理性能测试数据
而且除了效能上的最佳化之外，由于搭载了英特尔® AMX等模组，新一代京东云端服务器
也可以更快地回应中小规模参数模型，把成本也狠狠地打了下去。
你以为这就结束了？英特尔CPU为新一代京东云端服务器带来的好处，可不仅涉及推理加
速和成本，更可靠的安全防护也是其独到优势之一。
基于新款处理器内建的英特尔® Trust Domain Extension （Intel® TDX）技术，京东
云在不改变现有应用程式的情况下，就能建构基于硬件设备的可信任执行环境（Trusted
Execution Environment，TEE）。
英特尔® TDX透过引入信任域（Trust Domain，TD）虚拟环境，利用多密钥全内存加
密技术，实现了不同TD、实例以及系统管理软件之间的相互隔离，让客户的应用和资料与
外部环境隔离，防止未授权访问，且效能损耗较低。
总的来说，英特尔CPU上的这项技术，是从硬件、虚拟化、内存到大模型应用等多个层
面，为新一代京东云端服务器的资料和应用保密提供了可靠支撑。
重新发现CPU的价值
AI进入2.0时代，所有应用都值得重写一遍已逐渐成为共识。
如果站在算力基础设施的视野重新检视这场变革，还能发现这样一个新趋势：推理算力越
来越被重视起来。
也就是随着大模型应用场景的日益丰富，对推理阶段的效能要求也变得更高且多样化。
一方面，即时性强、时延敏感的终端侧场景需要尽可能短的反应时间；
另一方面，并发量大、吞吐量高的云端服务则需要强大的批次能力。
同时，针对不同硬件平台、网络条件的推理适配也提出了更复杂甚至带有不同前置条件的
要求。
如此一来，先前在硬件上的单一“审美观”就被改写，本来就主攻通用计算、能在整个AI
的协同编排中扮演重要角色，又能撸袖子自己上、兼顾AI加速，同时还有更多“才艺”、
应用适配也更为灵活，相比GPU或专用加速芯片获取更容易，且已部署到无处不在的CPU，
其价值也被重新发现，这一切都顺理成章。
相信随着软硬件适配的不断深入，以及云端端协同的加速落地，CPU还有望在AI，特别是
AI推理实践中找到更多的用武之地，发挥更大的应用潜力。
可以预见，高性能、高效率、高适应性的CPU，在大模型越来越卷的时代，依旧是可靠的
选择。这一点，会有更多人因为实践，而见证。
最后让我们打个小广告：为了科普CPU在AI推理新时代的玩法，量子位开设了《最“in”
AI》专栏，将从技术科普、产业案例、实战优化等多个角度全面解读。
我们希望透过这个专栏，让更多的人了解CPU在AI推理加速，甚至是整个AI平台或全流程
加速上的实践成果，重点就是如何更好地利用CPU来提升大模型应用的效能和效率。

作者: kissa0924307 (瓦斯来一桶) 2024-03-31 13:07:00

哪为何只禁辉达GPU卖中国？

作者: keelungReeve (基隆李维) 2024-03-31 20:37:00

接下来要吹riscv吗

作者: buster520798 (Nick520) 2024-04-01 00:22:00

CPU for AI training and inference?

作者: darkangel119 (星星的眷族) 2024-04-01 15:58:00

欧好棒快欧印

继续阅读

[新闻] “电力即国力”和硕童子贤：得核融合者godofsex [讨论] 现在只会Python或是其他高阶语言会失业吧GrexJosh [新闻] HBM 有望成“内存循环之母”，美光股价月飙 30%Merkle [新闻] 美科技业去中出狠招！戴尔厦门厂员工砍半hvariables [新闻] 反英伟达CUDA联盟集结：Google英特尔高通jackliao1990 [新闻] 我的领导马斯克：痛恨开会，不要非技术中jackliao1990 ［问卷］生成式AI使用意图填问卷抽礼券cherng2011 Re: [新闻] 劳动部证实：联想提大量解雇计画书裁oops577 [新闻] 增产报国！台积电去年员工新生儿数2463人qazxc1156892 Re: [新闻] 减少对中台技术依赖！美国考虑和墨西哥合sky2030