[情报]Zen 5微架构解密,提升执行单元数量与宽度

楼主: amduser (重返荣耀)   2024-07-17 01:25:52
来源
https://benchlife.info/amd-zen-5-microarchiteture-preview/
Intel 消费性平台消失的 AVX-512,以全速之姿在 AMD Zen 5 微架构当中复活了!
在正式进入 Zen 5 微架构之前,我们希望先行提到制程的二三事。
此次 Zen 5 微架构的推出,在制程方面搭配 TSMC N4(桌上型处理器版本)∕ N3(行动
处理器版本);特别是桌上型处理器版本,制程演进并不若 Zen(GF 14nm)> Zen 2(
TSMC N7)或是 Zen 3(TSMC N7)> Zen 4(TSMC N5),N4 算是 N5 的强化版本,在
TSMC 的规划中并非完整的制程世代跃进。有了这个先决条件之后,读者可以思考一下
AMD 是如何去强调 Zen 5 和 Zen 4 之间的差异。
执行单元变多、变宽
相较于先前多个 Zen 微架构的世代演进,AMD 这次在 Zen 5 微架构的着墨上少了许多至
少 PPT 就少了好多页,最主要的变化集中在执行单元的数量以及宽度。就 AMD 内部统计
而言,执行单元以及 retire 指令数量的成长替 Zen 5 IPC 贡献最多效能提升幅度,资
料路径强化 ∕ 解码和微指令快取次之,原本在 Zen 4 IPC 提升幅度最大的前端部分反
而没有提及。
▼ Zen 5 微架构让效能提升的因素,最主要集中于执行单元数量和宽度提升。
https://benchlife.info/wp-content/uploads/2024/07/001-1000x563.jpg
AMD Zen 5 IPC uplift percentage
让我们同样从处理器核心的前端出发:分支预测更为精准、输出量提升、延迟更低已是每
一代微架构的必修学分,L1 指令快取也同样改善了频宽和延迟(每时脉周期 32Byte 升
级至 32Byte x 2)。比较重大的变化发生在解码单元,直接从 Zen 4 的单一解码单元每
时脉周期输出 4 个指令,直接翻倍来到 Zen 5 的 2 个解码单元每时脉周期共输出 8 个
指令,微指令快取从每时脉周期输出 9 个变成 6 x 2 个,微指令伫列配发数量也从每
时脉周期 6 个提升至 8 个。
▼ Zen 5 微架构前端较大的变化位于解码单元,从前一世代的 4 个指令翻倍为 8 个。
https://benchlife.info/wp-content/uploads/2024/07/002-1000x562.jpg
AMD Zen 5 frontend
整数单元部分,ALU 从 4 个提升至 6 个、乘法单元变成 3 个、AGU 和分支单元分别多
1 个,并且更平均地安排每个执行单元。随着执行单元数量的提升,dispatch ∕
retire 指令数量最高也来到 8 个。从简报的图示看来,Zen 5 排程器的规划方式也有
所不同,Zen 4 采用 2 个执行单元埠共用 1 个排程器的设计,Zen 5 则是改为含 ALU
功能的埠共用 1 个排程器、AGU 则共用另外 1 个,但 AMD 并未说明排程指令数量的变
化。
▼ Zen 5 微架构整数部分新增多个执行单元,dispatch ∕ retire 同步提升至 8 个指
令。
https://benchlife.info/wp-content/uploads/2024/07/003-1000x562.jpg
AMD Zen 5 integer execution units
浮点数单元数量在 Zen 5 微架构并未升级,同样有着 6 个(含 2 个浮点加法器、延迟
从 3 个周期缩减至 2 个周期),主要因应 AVX-512 指令集进行调整。Zen 4 虽然也支
援 AVX-512,却是透过“double-pumped”的方式,让宽度仅有 256bit 的浮点单元去执
行 512bit 浮点 ∕ 向量运算,如今 Zen 5 已将浮点单元扩充至完整 512bit,代表执行
AVX-512 指令时相较前一世代更快。在 AMD 内部的 IPC 效能测试之中,成长幅度最高
的部分也来自于执行 AVX-512 指令。
▼ Zen 5 微架构已将浮点数执行单元部分扩展至完整 512bit,执行 AVX-512 指令相较
Zen 4 微架构更为快速。排程器也升级至 3 个,每个包含 32 个条目,暂存器也因应
AVX-512 而加宽至 512bit ∕ 384 个条目。
https://benchlife.info/wp-content/uploads/2024/07/004-1000x562.jpg
AMD Zen 5 float/vector execution units with AVX-512
因应执行单元数量扩增、浮点数单元宽度提升,喂资料的速度也必须加快。Zen 5 L1 资
料快取从前一世代 32KB ∕ 8-way,升级至 48KB ∕ 12-way,单一时脉周期最高也从载
入 3 笔 ∕ 储存 2 笔升级为加载 4 笔 ∕ 储存 2 笔资料(AMD 未说明 512bit 资料长
度时的变化)。其余 L2、L3 没有变化,依旧是 1MB ∕ 16-way、32MB ∕ 16-way(
victim 设计,L3 快取实际容量会跟随核心数量、产品定位而变动)。
题外话,由于 AMD Ryzen 9000 系列桌上型处理器依旧采用与 Ryzen 7000 系列桌上型处
理器相同的 cIOD,因此每个 CCD 向 cIOD 的读写频宽应该也相同;每个 Infinity
Fabric 时脉周期,CCD 向 cIOD 传输 16Byte 资料、cIOD 向 CCD 传输 32Byte 资料。
(根据 AMD 简报尾部的附注小字,Ryzen 9000 搭配 DDR5 内存的较佳运作速度应该仍
是 DDR5-6000)
▼ Zen 5 L1 资料快取升级至 48KB ∕ 12-way,也同步提升读写频宽。
https://benchlife.info/wp-content/uploads/2024/07/005-1000x562.jpg
AMD Zen 5 incresed L1 data cache capacity and set-association
AVX-512 完整效能加持
最后就是 IPC 比比看的时间,根据 AMD 的测试,Zen 5 相较 Zen 4 的 IPC 几何平均提
升幅度来到 16%,特别是那些使用到 AVX-512 指令的应用程式幅度最高,机器学习效能
可提升 32%、Geekbench 5.4 的 AES-XTS 更高达 34%!
▼ 相较于 Zen 4,Zen 5 IPC 几何平均提升幅度达 16%。
https://benchlife.info/wp-content/uploads/2024/07/006-1000x562.jpg
AMD Zen 5 geomean 16% IPC uplift compared to Zen 4
▼ 应用到 AVX-512 的指令,Zen 5 IPC 提升幅度更高!
https://benchlife.info/wp-content/uploads/2024/07/007-1000x562.jpg
我猜游戏性能7800X3D应该还是比9900X还强一些,
但影音处理,AI,渲染RYZEN 9900X应该就默秒全,
之前曾经看过7950X的某项AVX512测试结果很惊人
https://tinyurl.com/exubbs6n
https://images.anandtech.com/graphs/graph17585/130235.png
这次完整 512bit FPU的效能应该会更强吧
期待之后的完整测试

Links booklink

Contact Us: admin [ a t ] ucptt.com