ithome
2022英特尔资料中心绘图处理器:Ponte Vecchio
结合英特尔、台积电制程技术,打造适用高效能运算与机器学习的单一平台,将模组化堆
叠扩充架构发挥至极致
在2019年11月的美国超级电脑大会期间,英特尔宣布,他们将基于自行发展的Xe架构,推
出新的通用绘图处理器(GPU),而为了因应高效能运算的建模与模拟工作负载、机器学
习训练等应用需求,他们预计推出代号为Ponte Vecchio的独立GPU,基于Xe架构之余,也
将导入英特尔7奈米制程,以及Foveros 3D、EMIB封装技术,当中会集结HBM内存、CXL
互连接口等多种技术智财,整合至单一封装。
英特尔期盼透过这样的产品,搭配新世代Xeon Scalable系列服务器处理器,也就是代号
为Sapphire Rapids的产品,以及横跨多种运算架构的统一程式开发模式:OneAPI,实现
百万兆级(exascale)运算。当时,他们也宣布美国阿贡国家实验室Aurora系统,将运用
上述产品来建置运算节点。
隔年8月的英特尔架构日,他们揭露Xe架构更多资讯,例如,细分为4种微架构,而Ponte
Vecchio对应的是其中的Xe-HPC微架构,而在封装方式上,采用Foveros、CO-EMIB等两种
作法,当中包含多种晶砖(Tile)。
到了今年3月举行的Intel Unleashed线上发表会(也就是英特尔宣布IDM 2.0策略的那场
活动),执行长Pat Gelsinger首度公开展示Ponte Vecchio芯片。
在6月的欧洲国际超级电脑大会期间,英特尔宣布Ponte Vecchio已过电开机,进入系统验
证阶段,并将提供OCP Accelerator Module(OAM)外形的模组,以及基于4张OAM模组而
成的子系统,以此支援高效能运算应用下的纵向扩展(Scale-up),以及横向扩展(
Scale-out)部署需求。
过了一个月之后,英特尔在他们的Accelerated线上发表会,重申加速制程与封装创新,
再度提及Ponte Vecchio,并表明这系列将是首款采用EMIB与第二代Foveros封装技术的产
品。
到了8月,在英特尔召开的年度架构日当中,针对Ponte Vecchio这款资料中心GPU,揭露
更多技术层面的资讯。
例如,他们首度详细介绍Xe-HPC微架构的组成,以及延展性。在效能方面,以设计定案送
交制造的第一版为例,根据英特尔内部测试,FP32运算效能超过45 TFLOPS,内存存取
频宽达到5 TB/s以上,连结频宽是2 TB/s以上。若使用ResNet框架来进行推论,每秒可处
理4.3万张以上的图片,若使用ResNet进行训练,每秒可处理3,400张以上的图片。
Xe-HPC 2-Stack型态的Ponte Vecchio
英特尔顶级资料中心GPU:Ponte Vecchio,今年已在两个重要场合亮相,一次是3月的
IDM 2.0策略的线上发表会,执行长Pat Gelsinger首度公开展示这款芯片,另一次是英特
尔架构日,负责这项产品的总工程师Masooma Bhaiwala,展示Xe-HPC 2-Stack型态的
Ponte Vecchio。
提供超越竞争对手的运算效能与I/O频宽
对于Ponte Vecchio运算效能、内存频宽、连结频宽等规格,英特尔在今年8月英特尔架
构日首度公开相关资讯,就产品卖相来看,相当具有市场竞争力,足以威胁Nvidia这几年
主推的A100 GPU,甚至是尚未发布的第四代NVLink。图片来源/英特尔
采用模组化、多晶砖架构,堪称英特尔最复杂的芯片设计
就芯片设计方式而言,今年英特尔架构日也揭露Ponte Vecchio的特点。它和Sapphire
Rapids一样,也是由多个晶砖(Tile)组合而成,但架构设计上更为复杂,该公司负责这
项产品的总工程师Masooma Bhaiwala,甚至将这项产品评为:“从事芯片建构工作30年以
来,最复杂的芯片”。
简而言之,这些单元是透过多片EMIB晶砖组装起来,而能以低耗电、高速的方式,将晶砖
与晶砖之间连结起来,而这群晶砖之后会放在Foveros封装之中。
Ponte Vecchio本身所使用的晶砖类型也相当丰富,英特尔先前提到有47片之多,但到底
有多少种?
他们也在2021架构日,首度揭露这款系统单芯片架构是由8种元件所组成,分别是:运算
晶砖(Compute Tile)、Rambo晶砖、Forveros、基础晶砖(Base Tile)、HBM晶砖、Xe
Link晶砖、可容纳多个晶砖的封装(Multi Tile Package)、EMIB晶砖。
从产品设计工程的角度来看,Ponte Vecchio这款系统单芯片,使用超过1千亿颗电晶体,
里面放了47片晶砖(Tile),总共使用5种制程,因此,在架构设计上,相当复杂,也突
显其挑战性。
提供运算组建区块,能以层层堆叠方式扩充GPU应用规模
就运算与扩充性而言,Ponte Vecchio不只导入多晶砖式设计,就其采用的Xe-HPC微架构
而言,英特尔目前区分成4种阶层式组建区块(building block),包含:核心(Core)
、片段(Slice)、堆叠(Stack)、连结(Link),并以图解方式呈现各自的特色,以及
彼此的关系,让所有人理解GPU规模如何扩充。
Xe-Core
首先是核心,也就是Xe-Core,内含8个向量引擎、8个矩阵引擎(Xe Matrix eXtensions
,XMX),以及号称业界最大的512 KB容量L1快取内存。
Xe-Core当中的每个向量引擎可支援512位元宽度的向量,以此处理整数运算与浮点运算,
若是FP16、FP32、FP64型别,每个周期可分别执行512、256、256个运算。
至于矩阵引擎的部分,每个内建8个脉动阵列(systolic array),而且,在每个运算周
期中,可执行8组512位元宽度的向量处理。
无论是向量引擎或矩阵引擎,都可支援宽型的加载/储存单元(Load/Restore),每个运
算周期可喂送512 Bytes资料。
Xe-HPC Slice
Core往上一层就是Slice,这一层的扩充,包含16个Xe Core、16个光线追踪单元(Ray
Tracing Unit)、1个硬件式脉络交换处理(Hardware Context)。
基本上,16个Xe Core能为整个Xe-HPC GPU,提供8 MB的L1快取内存(16 x 512 KB);
光线追踪单元包含多种固定功能的计算。
Xe-HPC Stack
串连更多Xe-HPC Slice,即可组成Xe-HPC Stack,事实上,这个阶层也等同于一套完整的
GPU。基本上,每1个Xe-HPC Stack,包含了4个Xe-HPC Slice,而此时,也等于坐拥64个
Xe Core、64个光线追踪单元,以及1个硬件式脉络交换处理。
这一层还配更大容量的L2快取内存(英特尔称为Xe Memory Fabric),以及4个HBM2e记
忆体控制器、复制引擎(Copy Engine)、媒体引擎(Media Engine),以及8个Xe Link
。
同时,Xe-HPC的架构支援多堆叠式(Multi-Stack)设计,英特尔强调这也是业界首创的
作法。之所以能实现这种方式,主要仰赖的是他们发展的EMIB封装技术。而且,每一座
Xe-HPC Stack堆叠中的Xe Memory Fabric,可以直接相互连结,如此可促成两座Xe-HPC
Stack之间,能有统合、一致的内存。
Xe Link
这项接口可针对GPU对GPU之间的连结,提供高速、一致的I/O交织存取,支援加载/储存
、大量资料传输。
同时,它内建了8埠交换器,可用于单节点、8个完全连结的GPU,而不需要其他元件的协
助。而这个特色也让用户能借此建立有弹性的拓朴。透过图解的呈现方式,英特尔也逐一
示范单节点的多种GPU连接架构,从最基本的2个GPU,常见的4个GPU,到因应更大型处理
需求的6个GPU、8个GPU。而基于这样的架构,若要做到纵向扩展,不需要额外元件。
整体而言,无论是Ponte Vecchio或Xe-HPC,就英特尔本次公布的硬件架构设计,以及层
层堆叠的扩充性,的确具有一定的说服力,然而,能否让市场接受,进而挑战竞争厂商的
领导地位,关键可能在于软件生态系的健全与开放,以及各种应用场景的拓展。
https://www.ithome.com.tw/tech/146524
备注:英特尔要先巩固服务器市场了吗?
自从Epyc 横空出世之后吃掉了不少客户
这次服务器先跟台积电合作,是要收回原本被吃掉的客户吗?
顺便为以后的消费及打下基础吧