[情报] Infinity Cache 立大功,RDNA 2 架构详解

楼主: KotoriCute (Lovelive!)   2020-11-19 01:43:25
Infinity Cache 立大功,应用于 Radeon RX 6000 系列的 RDNA 2 架构详解
https://benchlife.info/rdna-2-architecture-detailed-with-infinity-cache/
快取就是要大、大才有效!
这次 AMD 推出采用 RDNA 2 架构的 Radeon RX 6000 系列显示卡,可说是彻底地扬眉吐
气,该公司不仅是在 x86 处理器效能彻底赢过竞争对手 Intel,Radeon RX 6000 系列相
较 NVIDIA GeForce RTX 3000 系列也是相当具有竞争力,突破过去仅能在中阶主流市场
对打的情况。
仔细端详 RDNA 2 和 RDNA 内部 CU(Compute Unit)差异,除了增加 DXR(DirectX
Raytracing)必须的 Ray Accelerator 光线加速器单元之外,并没有什么变化,小修小
改传输路径与快取机制、强化 power gating 省电机制、提升时脉频率,让 RDNA 2 的
IPC 相较 RDNA 仅有个位数的成长。那么接下来你会问,能够干掉 GeForce RTX 3090
的效能是从哪里来的?
▼ RDNA 2 三大主轴:更高的运作时脉、Infinity Cache、支援最新的 DirectX 12
Ultimate 和 DirectStorge API 功能。
https://benchlife.info/wp-content/uploads/2020/11/001-1.jpg
如同 NVIDIA Ampere 世代,加入浮点数执行功能至原本的 INT 整数执行单元,直接让
CUDA/Stream Processor 数量暴增,RDNA 2 世代 Navi 21 芯片设计,同样也从前一世
代 Navi 10 的 40 个 CU/2560 个 Stream Processor,翻倍暴增到 80 个 CU/5120 个
Stream Processor(Radeon RX 6900 XT 采用完全体,其余型号依序递减数量),这也
让持续采用 TSMC 7nm 制程的情况之下,芯片面积与电晶体数量,从 251mm2/103 亿个成
长至 519mm2/268 亿个。
▼ RDNA 2 使用 TSMC 7nm 制程,并添加 AV1 硬件解码与 8K HEVC 编码能力。
https://benchlife.info/wp-content/uploads/2020/11/002-1.jpg
▼ 执行单元与快取的细部资讯
https://benchlife.info/wp-content/uploads/2020/11/003-1.jpg
▼ AMD 替每个 CU 均添加 1 个光线加速器单元,因此 RDNA 2 的光线追踪单元数量跟着
CU 变动,Radeon RX 6900 XT 为 80 个、Radeon RX 6800 XT 为 72 个、Radeon RX
6800 为 60 个。
https://benchlife.info/wp-content/uploads/2020/11/004-1.jpg
▼ RDNA 2 CU 面对不同类型资料的运算能力,每个时脉能够遍历 4 个 bonding box 或
是 1 个光线与三角形的相交检测。
https://benchlife.info/wp-content/uploads/2020/11/004_001.jpg
▼ 每组 Shader Engine 的 RB+ 为全新设计,单一时脉周期能够处理 8 个 32bit 色深
像素,并与光栅单元连动提供 2×1、1×2、2×2 取样支援。
https://benchlife.info/wp-content/uploads/2020/11/004_002.jpg
128MB Infinity Cache
Stream Processor 数量成长,相对而言需要喂给执行单元更多的指令、资料,NVIDIA 采
用与 Micron 合作 GDDR6X 绘图内存加大频宽。AMD 目前已确立运算、绘图架构分立路
线,运算交由 CDNA 系列搭配 HBM 类型内存负责,消费市场端应该不会再出现
Radeon VII 这样的产物,在亟需频宽的情况之下,直接在 Navi 21 芯片设计高达
128MB 的 Infinity Cache,Radeon RX 6800/6800 XT/6900 XT 各等级均可享用。
▼ Navi 21 芯片设计于 GDDR6 内存和 L2 快取之间,添加容量为 128MB 的
Infinity Cache。
https://benchlife.info/wp-content/uploads/2020/11/005-1.jpg
▼ 快取太小没意义,太大又会让芯片过胖,衡量快取命中率与容量的关系式之后,
128MB 是个比较适中的容量。
https://benchlife.info/wp-content/uploads/2020/11/012-2.jpg
Navi 21 仍旧采用 GDDR6 内存,总线宽度 256bit,搭配 16Gbps 速度版本时,可以
提供 512GB/s 频宽,Radeon RX 6800/6800 XT/6900 XT 全线均提供 16GB 内存容量。
128MB 的 Infinity Cache 在芯片内部的总线宽度为 64byte x 16 通道,在最高自动
加速频率达 1.94GHz 的状况下,能够提供将近 2000GB/s 频宽(基础频率则可提供
1664GB/s),相当惊人!
▼ Infinity Cache 采用动态时脉设定,最高可达 1.94GHz,提供将近 2000GB/s 频宽。
https://benchlife.info/wp-content/uploads/2020/11/006-1.jpg
由于这个 128MB Infinity Cache 的出现,才能够喂饱饥肠辘辘的 5120 个 Stream
Processor,也一举让 RDNA 2 拥有相当不错的能源效率比值。除了传统上的光栅化成像
之外,128MB 容量也能够摆放光线追踪所必需的 BVH 树状资料结构,有助于加速光线与
三角形的相交检测,这个极度消耗芯片面积的 Infinity Cache 也算是值得了。
▼ 于图片最左方能够观察到,若是没有添加 Infinity Cache,其实 RDNA 2 相较于
RDNA 的 IPC 涨幅并不明显。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg
▼ Infinity Fabric 不仅提供惊人的频宽,相对而言更能提升能源效率比值、降低存取
延迟。
https://benchlife.info/wp-content/uploads/2020/11/007-1.jpg
RDNA 2 架构也终于加入包含光线追踪、VRS 可变速率着色(Tier 2)、Mesh Shader 网
格着色器、Sampler Feedback 取样回馈等 DirectX 12 Ultimate 功能。其实 AMD 这部
分走得相当缓慢,甚至比 Intel 还要慢,Intel 早已在代号 Ice Lake 处理器的 Gen
11 绘图核心支援 VRS,AMD 直到 RDNA 2 才算是全面导入。
▼ RDNA 2 已全面支援 DirectX 12 Ultimate。
https://benchlife.info/wp-content/uploads/2020/11/009-1.jpg
Smart Access Cahce
另一方面,AMD 终于提供 3A 平台(处理器、主机板的芯片组、显示卡)合体加速特性,
当支援的硬件相互搭配,能够开启所谓的 Smart Access Memory 功能,再次提升游戏效
能。纵使 AMD 于发表 Radeon RX 6000 系列显示卡当下并未提供详细技术资讯,之后辗
转得知其实就是 Resizable BAR 功能。
PCI 规范当中,需要每个设备自行准备 256Byte 的 Configuration Register Space,前
64Byte 储存这个设备的 Device ID、Vender ID 等基础资讯,后 192Byte 则是描述这
个装置究竟有什么功能,到了 PCIe 时代,这个 256Byte 空间扩展至 4KB。处理器无法
直接存取这些额外的 4KB-256Byte 空间,而是透过内存位址映射的方式,从高位址往
下映射空间,处理器仅需读写这些映射空间,实际 PCIe 设备空间操作则由 PCIe Root
Complex 负责。
BAR 为 Base Address Register 的缩写,也就是 PCIe 设备空间映射到系统内存的基
底位址,一般来说为保持与 32 位元作业系统的相容性,BAR 通常为 256MB(1 个 PCIe
系统最多拥有 256 条 Bus、每条 Bus 最多拥有 32 个设备、每个设备最多拥有 8 个功
能,每个功能对应 1 个 4KB 范围,256 x 32 x 8 x 4KB=256MB)。256MB 内存映射
通常在 64bit 作业系统当中不会有什么问题,因为内存控制器根本无法完整寻址 264
实体内存;但在比较老旧的 32bit 作业系统,你可以发现并无法完整用完 232=4GB
实体内存,因为部分位址已拿去作为设备 I/O 或是内存空间映射用途。
▼ Smart Access Memory 应该就是 PCIe 规范里的 Resizable BAR 功能,让处理器可以
同时存取显示卡所有的内存,而非默认的 256MB。
https://benchlife.info/wp-content/uploads/2020/11/010-1.jpg
为保持相容性,目前在内存位址中切给 PCIe BAR 的空间也都保持 256MB,但其实
BAR 能够增加它的范围大小,也就是 AMD 所说的完全存取显示卡所搭载的内存,而非
仅限于 256MB。依据 AMD 内部的实际测试,若是启用 Smart Access Memory,最高能够
在 Forza Horizon 4 游戏获得 11% 的效能提升。此举也让绿色阵营额外表示,它们的
芯片其实也支援 Resizable BAR 功能,未来会透过软件更新开放。
▼ RDNA 2 能源效率比值相较 RDNA 提升约 54%,其中 21% 透过 Infinity Cache 与
微调设计提供、17% 为强化省电设计、16% 为提升运作频率。
https://benchlife.info/wp-content/uploads/2020/11/011-1.jpg
作者: qweertyui891 (摸鱼厨师)   2020-11-19 02:10:00
学老黄搞精简核心有搞头吗? 只有CUDA才办得到?
作者: fokchiwai199 (ivygor)   2020-11-19 02:38:00
就算6800屌打3090又如何?买不到啊

Links booklink

Contact Us: admin [ a t ] ucptt.com