[情报] Infinity Cache 立大功，RDNA 2 架构详解 KotoriCute PTT批踢踢实业坊

[情报] Infinity Cache 立大功，RDNA 2 架构详解

楼主: KotoriCute (Lovelive!) 2020-11-19 01:43:25

Infinity Cache 立大功，应用于 Radeon RX 6000 系列的 RDNA 2 架构详解
https://benchlife.info/rdna-2-architecture-detailed-with-infinity-cache/
快取就是要大、大才有效！
这次 AMD 推出采用 RDNA 2 架构的 Radeon RX 6000 系列显示卡，可说是彻底地扬眉吐
气，该公司不仅是在 x86 处理器效能彻底赢过竞争对手 Intel，Radeon RX 6000 系列相
较 NVIDIA GeForce RTX 3000 系列也是相当具有竞争力，突破过去仅能在中阶主流市场
对打的情况。
仔细端详 RDNA 2 和 RDNA 内部 CU（Compute Unit）差异，除了增加 DXR（DirectX
Raytracing）必须的 Ray Accelerator 光线加速器单元之外，并没有什么变化，小修小
改传输路径与快取机制、强化 power gating 省电机制、提升时脉频率，让 RDNA 2 的
IPC 相较 RDNA 仅有个位数的成长。那么接下来你会问，能够干掉 GeForce RTX 3090
的效能是从哪里来的？
▼ RDNA 2 三大主轴：更高的运作时脉、Infinity Cache、支援最新的 DirectX 12
Ultimate 和 DirectStorge API 功能。
https://benchlife.info/wp-content/uploads/2020/11/001-1.jpg
如同 NVIDIA Ampere 世代，加入浮点数执行功能至原本的 INT 整数执行单元，直接让
CUDA/Stream Processor 数量暴增，RDNA 2 世代 Navi 21 芯片设计，同样也从前一世
代 Navi 10 的 40 个 CU/2560 个 Stream Processor，翻倍暴增到 80 个 CU/5120 个
Stream Processor（Radeon RX 6900 XT 采用完全体，其余型号依序递减数量），这也
让持续采用 TSMC 7nm 制程的情况之下，芯片面积与电晶体数量，从 251mm2/103 亿个成
长至 519mm2/268 亿个。
▼ RDNA 2 使用 TSMC 7nm 制程，并添加 AV1 硬件解码与 8K HEVC 编码能力。
https://benchlife.info/wp-content/uploads/2020/11/002-1.jpg
▼ 执行单元与快取的细部资讯
https://benchlife.info/wp-content/uploads/2020/11/003-1.jpg
▼ AMD 替每个 CU 均添加 1 个光线加速器单元，因此 RDNA 2 的光线追踪单元数量跟着
CU 变动，Radeon RX 6900 XT 为 80 个、Radeon RX 6800 XT 为 72 个、Radeon RX
6800 为 60 个。
https://benchlife.info/wp-content/uploads/2020/11/004-1.jpg
▼ RDNA 2 CU 面对不同类型资料的运算能力，每个时脉能够遍历 4 个 bonding box 或
是 1 个光线与三角形的相交检测。
https://benchlife.info/wp-content/uploads/2020/11/004_001.jpg
▼ 每组 Shader Engine 的 RB+ 为全新设计，单一时脉周期能够处理 8 个 32bit 色深
像素，并与光栅单元连动提供 2×1、1×2、2×2 取样支援。
https://benchlife.info/wp-content/uploads/2020/11/004_002.jpg
128MB Infinity Cache
Stream Processor 数量成长，相对而言需要喂给执行单元更多的指令、资料，NVIDIA 采
用与 Micron 合作 GDDR6X 绘图内存加大频宽。AMD 目前已确立运算、绘图架构分立路
线，运算交由 CDNA 系列搭配 HBM 类型内存负责，消费市场端应该不会再出现
Radeon VII 这样的产物，在亟需频宽的情况之下，直接在 Navi 21 芯片设计高达
128MB 的 Infinity Cache，Radeon RX 6800/6800 XT/6900 XT 各等级均可享用。
▼ Navi 21 芯片设计于 GDDR6 内存和 L2 快取之间，添加容量为 128MB 的
Infinity Cache。
https://benchlife.info/wp-content/uploads/2020/11/005-1.jpg
▼ 快取太小没意义，太大又会让芯片过胖，衡量快取命中率与容量的关系式之后，
128MB 是个比较适中的容量。
https://benchlife.info/wp-content/uploads/2020/11/012-2.jpg
Navi 21 仍旧采用 GDDR6 内存，总线宽度 256bit，搭配 16Gbps 速度版本时，可以
提供 512GB/s 频宽，Radeon RX 6800/6800 XT/6900 XT 全线均提供 16GB 内存容量。
128MB 的 Infinity Cache 在芯片内部的总线宽度为 64byte x 16 通道，在最高自动
加速频率达 1.94GHz 的状况下，能够提供将近 2000GB/s 频宽（基础频率则可提供
1664GB/s），相当惊人！
▼ Infinity Cache 采用动态时脉设定，最高可达 1.94GHz，提供将近 2000GB/s 频宽。
https://benchlife.info/wp-content/uploads/2020/11/006-1.jpg
由于这个 128MB Infinity Cache 的出现，才能够喂饱饥肠辘辘的 5120 个 Stream
Processor，也一举让 RDNA 2 拥有相当不错的能源效率比值。除了传统上的光栅化成像
之外，128MB 容量也能够摆放光线追踪所必需的 BVH 树状资料结构，有助于加速光线与
三角形的相交检测，这个极度消耗芯片面积的 Infinity Cache 也算是值得了。
▼ 于图片最左方能够观察到，若是没有添加 Infinity Cache，其实 RDNA 2 相较于
RDNA 的 IPC 涨幅并不明显。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg
▼ Infinity Fabric 不仅提供惊人的频宽，相对而言更能提升能源效率比值、降低存取
延迟。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg
RDNA 2 架构也终于加入包含光线追踪、VRS 可变速率着色（Tier 2）、Mesh Shader 网
格着色器、Sampler Feedback 取样回馈等 DirectX 12 Ultimate 功能。其实 AMD 这部
分走得相当缓慢，甚至比 Intel 还要慢，Intel 早已在代号 Ice Lake 处理器的 Gen
11 绘图核心支援 VRS，AMD 直到 RDNA 2 才算是全面导入。
▼ RDNA 2 已全面支援 DirectX 12 Ultimate。
https://benchlife.info/wp-content/uploads/2020/11/009-1.jpg
Smart Access Cahce
另一方面，AMD 终于提供 3A 平台（处理器、主机板的芯片组、显示卡）合体加速特性，
当支援的硬件相互搭配，能够开启所谓的 Smart Access Memory 功能，再次提升游戏效
能。纵使 AMD 于发表 Radeon RX 6000 系列显示卡当下并未提供详细技术资讯，之后辗
转得知其实就是 Resizable BAR 功能。
PCI 规范当中，需要每个设备自行准备 256Byte 的 Configuration Register Space，前
64Byte 储存这个设备的 Device ID、Vender ID 等基础资讯，后 192Byte 则是描述这
个装置究竟有什么功能，到了 PCIe 时代，这个 256Byte 空间扩展至 4KB。处理器无法
直接存取这些额外的 4KB－256Byte 空间，而是透过内存位址映射的方式，从高位址往
下映射空间，处理器仅需读写这些映射空间，实际 PCIe 设备空间操作则由 PCIe Root
Complex 负责。
BAR 为 Base Address Register 的缩写，也就是 PCIe 设备空间映射到系统内存的基
底位址，一般来说为保持与 32 位元作业系统的相容性，BAR 通常为 256MB（1 个 PCIe
系统最多拥有 256 条 Bus、每条 Bus 最多拥有 32 个设备、每个设备最多拥有 8 个功
能，每个功能对应 1 个 4KB 范围，256 x 32 x 8 x 4KB＝256MB）。256MB 内存映射
通常在 64bit 作业系统当中不会有什么问题，因为内存控制器根本无法完整寻址 264
实体内存；但在比较老旧的 32bit 作业系统，你可以发现并无法完整用完 232＝4GB
实体内存，因为部分位址已拿去作为设备 I/O 或是内存空间映射用途。
▼ Smart Access Memory 应该就是 PCIe 规范里的 Resizable BAR 功能，让处理器可以
同时存取显示卡所有的内存，而非默认的 256MB。
https://benchlife.info/wp-content/uploads/2020/11/010-1.jpg
为保持相容性，目前在内存位址中切给 PCIe BAR 的空间也都保持 256MB，但其实
BAR 能够增加它的范围大小，也就是 AMD 所说的完全存取显示卡所搭载的内存，而非
仅限于 256MB。依据 AMD 内部的实际测试，若是启用 Smart Access Memory，最高能够
在 Forza Horizon 4 游戏获得 11％的效能提升。此举也让绿色阵营额外表示，它们的
芯片其实也支援 Resizable BAR 功能，未来会透过软件更新开放。
▼ RDNA 2 能源效率比值相较 RDNA 提升约 54％，其中 21％透过 Infinity Cache 与
微调设计提供、17％为强化省电设计、16％为提升运作频率。
https://benchlife.info/wp-content/uploads/2020/11/011-1.jpg

作者: qweertyui891 (摸鱼厨师) 2020-11-19 02:10:00

学老黄搞精简核心有搞头吗? 只有CUDA才办得到?

作者: fokchiwai199 (ivygor) 2020-11-19 02:38:00

就算6800屌打3090又如何？买不到啊

继续阅读

[情报] Core 辉煌即将再现 Raja 表示 Alder Lakeultra120 [情报] NV 四款新游戏DLSS性能提升最高可达 120％ultra120 [情报] EVGA 推出超短机身ATX BP Bronze 系列电源ultra120 [情报] 华擎B450M Steel Legend(粉)恭迎Ryzen5000ultra120 [情报] 利民多款AIO一体水冷便宜上市ultra120 [菜单] 26k游戏机allen017 [菜单] 45K游戏多工机wpc75 [请益] itx风散推荐valda [菜单] 50K游戏娱乐机ahjoe [菜单] 45k游戏机js880002