[情报]Zen 5微架构解密，提升执行单元数量与宽度 amduser PTT批踢踢实业坊

[情报]Zen 5微架构解密，提升执行单元数量与宽度

楼主: amduser (重返荣耀) 2024-07-17 01:25:52

来源
https://benchlife.info/amd-zen-5-microarchiteture-preview/
Intel 消费性平台消失的 AVX-512，以全速之姿在 AMD Zen 5 微架构当中复活了！
在正式进入 Zen 5 微架构之前，我们希望先行提到制程的二三事。
此次 Zen 5 微架构的推出，在制程方面搭配 TSMC N4（桌上型处理器版本）∕ N3（行动
处理器版本）；特别是桌上型处理器版本，制程演进并不若 Zen（GF 14nm）> Zen 2（
TSMC N7）或是 Zen 3（TSMC N7）> Zen 4（TSMC N5），N4 算是 N5 的强化版本，在
TSMC 的规划中并非完整的制程世代跃进。有了这个先决条件之后，读者可以思考一下
AMD 是如何去强调 Zen 5 和 Zen 4 之间的差异。
执行单元变多、变宽
相较于先前多个 Zen 微架构的世代演进，AMD 这次在 Zen 5 微架构的着墨上少了许多至
少 PPT 就少了好多页，最主要的变化集中在执行单元的数量以及宽度。就 AMD 内部统计
而言，执行单元以及 retire 指令数量的成长替 Zen 5 IPC 贡献最多效能提升幅度，资
料路径强化 ∕ 解码和微指令快取次之，原本在 Zen 4 IPC 提升幅度最大的前端部分反
而没有提及。
▼ Zen 5 微架构让效能提升的因素，最主要集中于执行单元数量和宽度提升。
https://benchlife.info/wp-content/uploads/2024/07/001-1000x563.jpg
AMD Zen 5 IPC uplift percentage
让我们同样从处理器核心的前端出发：分支预测更为精准、输出量提升、延迟更低已是每
一代微架构的必修学分，L1 指令快取也同样改善了频宽和延迟（每时脉周期 32Byte 升
级至 32Byte x 2）。比较重大的变化发生在解码单元，直接从 Zen 4 的单一解码单元每
时脉周期输出 4 个指令，直接翻倍来到 Zen 5 的 2 个解码单元每时脉周期共输出 8 个
指令，微指令快取从每时脉周期输出 9 个变成 6 x 2 个，微指令伫列配发数量也从每
时脉周期 6 个提升至 8 个。
▼ Zen 5 微架构前端较大的变化位于解码单元，从前一世代的 4 个指令翻倍为 8 个。
https://benchlife.info/wp-content/uploads/2024/07/002-1000x562.jpg
AMD Zen 5 frontend
整数单元部分，ALU 从 4 个提升至 6 个、乘法单元变成 3 个、AGU 和分支单元分别多
1 个，并且更平均地安排每个执行单元。随着执行单元数量的提升，dispatch ∕
retire 指令数量最高也来到 8 个。从简报的图示看来，Zen 5 排程器的规划方式也有
所不同，Zen 4 采用 2 个执行单元埠共用 1 个排程器的设计，Zen 5 则是改为含 ALU
功能的埠共用 1 个排程器、AGU 则共用另外 1 个，但 AMD 并未说明排程指令数量的变
化。
▼ Zen 5 微架构整数部分新增多个执行单元，dispatch ∕ retire 同步提升至 8 个指
令。
https://benchlife.info/wp-content/uploads/2024/07/003-1000x562.jpg
AMD Zen 5 integer execution units
浮点数单元数量在 Zen 5 微架构并未升级，同样有着 6 个（含 2 个浮点加法器、延迟
从 3 个周期缩减至 2 个周期），主要因应 AVX-512 指令集进行调整。Zen 4 虽然也支
援 AVX-512，却是透过“double-pumped”的方式，让宽度仅有 256bit 的浮点单元去执
行 512bit 浮点 ∕ 向量运算，如今 Zen 5 已将浮点单元扩充至完整 512bit，代表执行
AVX-512 指令时相较前一世代更快。在 AMD 内部的 IPC 效能测试之中，成长幅度最高
的部分也来自于执行 AVX-512 指令。
▼ Zen 5 微架构已将浮点数执行单元部分扩展至完整 512bit，执行 AVX-512 指令相较
Zen 4 微架构更为快速。排程器也升级至 3 个，每个包含 32 个条目，暂存器也因应
AVX-512 而加宽至 512bit ∕ 384 个条目。
https://benchlife.info/wp-content/uploads/2024/07/004-1000x562.jpg
AMD Zen 5 float/vector execution units with AVX-512
因应执行单元数量扩增、浮点数单元宽度提升，喂资料的速度也必须加快。Zen 5 L1 资
料快取从前一世代 32KB ∕ 8-way，升级至 48KB ∕ 12-way，单一时脉周期最高也从载
入 3 笔 ∕ 储存 2 笔升级为加载 4 笔 ∕ 储存 2 笔资料（AMD 未说明 512bit 资料长
度时的变化）。其余 L2、L3 没有变化，依旧是 1MB ∕ 16-way、32MB ∕ 16-way（
victim 设计，L3 快取实际容量会跟随核心数量、产品定位而变动）。
题外话，由于 AMD Ryzen 9000 系列桌上型处理器依旧采用与 Ryzen 7000 系列桌上型处
理器相同的 cIOD，因此每个 CCD 向 cIOD 的读写频宽应该也相同；每个 Infinity
Fabric 时脉周期，CCD 向 cIOD 传输 16Byte 资料、cIOD 向 CCD 传输 32Byte 资料。
（根据 AMD 简报尾部的附注小字，Ryzen 9000 搭配 DDR5 内存的较佳运作速度应该仍
是 DDR5-6000）
▼ Zen 5 L1 资料快取升级至 48KB ∕ 12-way，也同步提升读写频宽。
https://benchlife.info/wp-content/uploads/2024/07/005-1000x562.jpg
AMD Zen 5 incresed L1 data cache capacity and set-association
AVX-512 完整效能加持
最后就是 IPC 比比看的时间，根据 AMD 的测试，Zen 5 相较 Zen 4 的 IPC 几何平均提
升幅度来到 16％，特别是那些使用到 AVX-512 指令的应用程式幅度最高，机器学习效能
可提升 32％、Geekbench 5.4 的 AES-XTS 更高达 34％！
▼ 相较于 Zen 4，Zen 5 IPC 几何平均提升幅度达 16％。
https://benchlife.info/wp-content/uploads/2024/07/006-1000x562.jpg
AMD Zen 5 geomean 16% IPC uplift compared to Zen 4
▼ 应用到 AVX-512 的指令，Zen 5 IPC 提升幅度更高！
https://benchlife.info/wp-content/uploads/2024/07/007-1000x562.jpg
我猜游戏性能7800X3D应该还是比9900X还强一些，
但影音处理,AI,渲染RYZEN 9900X应该就默秒全，
之前曾经看过7950X的某项AVX512测试结果很惊人
https://tinyurl.com/exubbs6n
https://images.anandtech.com/graphs/graph17585/130235.png
这次完整 512bit FPU的效能应该会更强吧
期待之后的完整测试

继续阅读