[情报] 2022英特尔资料中心绘图处理器：Ponte Ve nk11208z PTT批踢踢实业坊

[情报] 2022英特尔资料中心绘图处理器：Ponte Ve

楼主: nk11208z (小鲁) 2021-09-08 23:32:23

ithome
2022英特尔资料中心绘图处理器：Ponte Vecchio
结合英特尔、台积电制程技术，打造适用高效能运算与机器学习的单一平台，将模组化堆
叠扩充架构发挥至极致
在2019年11月的美国超级电脑大会期间，英特尔宣布，他们将基于自行发展的Xe架构，推
出新的通用绘图处理器（GPU），而为了因应高效能运算的建模与模拟工作负载、机器学
习训练等应用需求，他们预计推出代号为Ponte Vecchio的独立GPU，基于Xe架构之余，也
将导入英特尔7奈米制程，以及Foveros 3D、EMIB封装技术，当中会集结HBM内存、CXL
互连接口等多种技术智财，整合至单一封装。
英特尔期盼透过这样的产品，搭配新世代Xeon Scalable系列服务器处理器，也就是代号
为Sapphire Rapids的产品，以及横跨多种运算架构的统一程式开发模式：OneAPI，实现
百万兆级（exascale）运算。当时，他们也宣布美国阿贡国家实验室Aurora系统，将运用
上述产品来建置运算节点。
隔年8月的英特尔架构日，他们揭露Xe架构更多资讯，例如，细分为4种微架构，而Ponte
Vecchio对应的是其中的Xe-HPC微架构，而在封装方式上，采用Foveros、CO-EMIB等两种
作法，当中包含多种晶砖（Tile）。
到了今年3月举行的Intel Unleashed线上发表会（也就是英特尔宣布IDM 2.0策略的那场
活动），执行长Pat Gelsinger首度公开展示Ponte Vecchio芯片。
在6月的欧洲国际超级电脑大会期间，英特尔宣布Ponte Vecchio已过电开机，进入系统验
证阶段，并将提供OCP Accelerator Module（OAM）外形的模组，以及基于4张OAM模组而
成的子系统，以此支援高效能运算应用下的纵向扩展（Scale-up），以及横向扩展（
Scale-out）部署需求。
过了一个月之后，英特尔在他们的Accelerated线上发表会，重申加速制程与封装创新，
再度提及Ponte Vecchio，并表明这系列将是首款采用EMIB与第二代Foveros封装技术的产
品。
到了8月，在英特尔召开的年度架构日当中，针对Ponte Vecchio这款资料中心GPU，揭露
更多技术层面的资讯。
例如，他们首度详细介绍Xe-HPC微架构的组成，以及延展性。在效能方面，以设计定案送
交制造的第一版为例，根据英特尔内部测试，FP32运算效能超过45 TFLOPS，内存存取
频宽达到5 TB/s以上，连结频宽是2 TB/s以上。若使用ResNet框架来进行推论，每秒可处
理4.3万张以上的图片，若使用ResNet进行训练，每秒可处理3,400张以上的图片。
Xe-HPC 2-Stack型态的Ponte Vecchio
英特尔顶级资料中心GPU：Ponte Vecchio，今年已在两个重要场合亮相，一次是3月的
IDM 2.0策略的线上发表会，执行长Pat Gelsinger首度公开展示这款芯片，另一次是英特
尔架构日，负责这项产品的总工程师Masooma Bhaiwala，展示Xe-HPC 2-Stack型态的
Ponte Vecchio。
提供超越竞争对手的运算效能与I/O频宽
对于Ponte Vecchio运算效能、内存频宽、连结频宽等规格，英特尔在今年8月英特尔架
构日首度公开相关资讯，就产品卖相来看，相当具有市场竞争力，足以威胁Nvidia这几年
主推的A100 GPU，甚至是尚未发布的第四代NVLink。图片来源／英特尔
采用模组化、多晶砖架构，堪称英特尔最复杂的芯片设计
就芯片设计方式而言，今年英特尔架构日也揭露Ponte Vecchio的特点。它和Sapphire
Rapids一样，也是由多个晶砖（Tile）组合而成，但架构设计上更为复杂，该公司负责这
项产品的总工程师Masooma Bhaiwala，甚至将这项产品评为：“从事芯片建构工作30年以
来，最复杂的芯片”。
简而言之，这些单元是透过多片EMIB晶砖组装起来，而能以低耗电、高速的方式，将晶砖
与晶砖之间连结起来，而这群晶砖之后会放在Foveros封装之中。
Ponte Vecchio本身所使用的晶砖类型也相当丰富，英特尔先前提到有47片之多，但到底
有多少种？
他们也在2021架构日，首度揭露这款系统单芯片架构是由8种元件所组成，分别是：运算
晶砖（Compute Tile）、Rambo晶砖、Forveros、基础晶砖（Base Tile）、HBM晶砖、Xe
Link晶砖、可容纳多个晶砖的封装（Multi Tile Package）、EMIB晶砖。
从产品设计工程的角度来看，Ponte Vecchio这款系统单芯片，使用超过1千亿颗电晶体，
里面放了47片晶砖（Tile），总共使用5种制程，因此，在架构设计上，相当复杂，也突
显其挑战性。
提供运算组建区块，能以层层堆叠方式扩充GPU应用规模
就运算与扩充性而言，Ponte Vecchio不只导入多晶砖式设计，就其采用的Xe-HPC微架构
而言，英特尔目前区分成4种阶层式组建区块（building block），包含：核心（Core）
、片段（Slice）、堆叠（Stack）、连结（Link），并以图解方式呈现各自的特色，以及
彼此的关系，让所有人理解GPU规模如何扩充。
Xe-Core
首先是核心，也就是Xe-Core，内含8个向量引擎、8个矩阵引擎（Xe Matrix eXtensions
，XMX），以及号称业界最大的512 KB容量L1快取内存。
Xe-Core当中的每个向量引擎可支援512位元宽度的向量，以此处理整数运算与浮点运算，
若是FP16、FP32、FP64型别，每个周期可分别执行512、256、256个运算。
至于矩阵引擎的部分，每个内建8个脉动阵列（systolic array），而且，在每个运算周
期中，可执行8组512位元宽度的向量处理。
无论是向量引擎或矩阵引擎，都可支援宽型的加载／储存单元（Load/Restore），每个运
算周期可喂送512 Bytes资料。
Xe-HPC Slice
Core往上一层就是Slice，这一层的扩充，包含16个Xe Core、16个光线追踪单元（Ray
Tracing Unit）、1个硬件式脉络交换处理（Hardware Context）。
基本上，16个Xe Core能为整个Xe-HPC GPU，提供8 MB的L1快取内存（16 x 512 KB）；
光线追踪单元包含多种固定功能的计算。
Xe-HPC Stack
串连更多Xe-HPC Slice，即可组成Xe-HPC Stack，事实上，这个阶层也等同于一套完整的
GPU。基本上，每1个Xe-HPC Stack，包含了4个Xe-HPC Slice，而此时，也等于坐拥64个
Xe Core、64个光线追踪单元，以及1个硬件式脉络交换处理。
这一层还配更大容量的L2快取内存（英特尔称为Xe Memory Fabric），以及4个HBM2e记
忆体控制器、复制引擎（Copy Engine）、媒体引擎（Media Engine），以及8个Xe Link
。
同时，Xe-HPC的架构支援多堆叠式（Multi-Stack）设计，英特尔强调这也是业界首创的
作法。之所以能实现这种方式，主要仰赖的是他们发展的EMIB封装技术。而且，每一座
Xe-HPC Stack堆叠中的Xe Memory Fabric，可以直接相互连结，如此可促成两座Xe-HPC
Stack之间，能有统合、一致的内存。
Xe Link
这项接口可针对GPU对GPU之间的连结，提供高速、一致的I/O交织存取，支援加载／储存
、大量资料传输。
同时，它内建了8埠交换器，可用于单节点、8个完全连结的GPU，而不需要其他元件的协
助。而这个特色也让用户能借此建立有弹性的拓朴。透过图解的呈现方式，英特尔也逐一
示范单节点的多种GPU连接架构，从最基本的2个GPU，常见的4个GPU，到因应更大型处理
需求的6个GPU、8个GPU。而基于这样的架构，若要做到纵向扩展，不需要额外元件。
整体而言，无论是Ponte Vecchio或Xe-HPC，就英特尔本次公布的硬件架构设计，以及层
层堆叠的扩充性，的确具有一定的说服力，然而，能否让市场接受，进而挑战竞争厂商的
领导地位，关键可能在于软件生态系的健全与开放，以及各种应用场景的拓展。
https://www.ithome.com.tw/tech/146524
备注:英特尔要先巩固服务器市场了吗?
自从Epyc 横空出世之后吃掉了不少客户
这次服务器先跟台积电合作,是要收回原本被吃掉的客户吗?
顺便为以后的消费及打下基础吧

继续阅读

[菜单] 35K 中度游戏机 singlelife06 [菜单] 30-35K游戏机Xching [开箱] 高风压Scythe镰刀SCMG-5100W无限伍旋风版vostro [请益] evga二手卡保固问题taihao [闲聊] EVGA显卡排序问题s8824270 [闲聊] 关于顺发的显卡库存 G4321 [菜单] 游戏机 55kqope [菜单] 20K左右娱乐影音文书机amos0827 [闲聊] 大哥 3060 ti 到货囉jimmy871026 [请益] X570-E是不是没有Thunderbolt3...keon29