[情报] 显示卡的下一步,HBM 架构看 AMD FIJI

楼主: ultra120 (原厂打手 !!!)   2015-04-17 16:16:09
AMD Fiji 虽然还未发表,不过从 SK hynix HBM 架构还是能够分析出将会是款什么样的
芯片。
目前对于 6 月份 Computex 后才会发表的 AMD Radeon 旗舰 Fiji 芯片各方说法都不一
,不过我们仍然可以透过 SK hynix 的次世代 HBM 架构进行 AMD Fiji 芯片的一些分析

目前从 Videocardz 所曝光的一些 AMD Radeon R9 390X WCE 的简报中可以发现,将会具
备 4096 个 SP、256 个 TMU、64 个 ROP,需要 PCIe 6pin + 8pin 或者是 2 组 PCIe
8pin 的供电,不过最让人好奇的是在 HBM 规模从原先的 4GB 扩展到 8GB。
简报中指出了从 4GB 提升为 8GB 的方式,主要为加入 Dual-link interposing 机制,
而这个机制才是我们所关心的重点。
先来谈谈 HBM 吧,可能各位对于 HBM 只有很初步的认识就是 Stacked memory or
Stacked dram(堆叠内存),而造就能够堆叠的原因主要是因为 TSV(through
silicon via),透过在硅晶圆上开孔搭配 micro bump 将 2 个硅晶圆连接在一起。
对于 HBM 有初步的认识后,再来聊聊内部组成。
HBM 预计推出 4Hi、8Hi 版本,而目前所使用到的都是 4Hi 版本,也就是堆叠 4 层(4
dram die + 1 base logic die),而内部每层当中,又会有 2 个 Channel,造就目前
HBM 中拥有 8 个 Channel,而每个 Channel 当中又可以划分为 8 or 16 个 Bank,这
个 Bank 就是组成 HBM 最小的一个单位,当然在 Bank 之下还有 Row & Column 排列的
电容。
在 HBM2 则是会新增 Pseudo Channel,能够将 page size 从原先的 2KB 拆为 1KB,解
决长久以来 tFAW 周期内限制 4 Activations 的问题,从原先的 tFAW 2KB x 4 ACT,变
更为 tEAW 1KB x 8 ACT,增加频宽利用率。
那么对于 AMD 将采用的 HBM,他到底长什么样子呢?以下就来分析实作可行性。
容量怎么变成 8GB 呢?我们目前已经知道 HBM 第 1 代原先预计采用 2Gb 颗粒进行堆叠
,总共 4 层组成 8Gb(1GB)。不过从最新 SK hynix 资料中来看,新的 HBM 将会采用
4Gb 颗粒进行堆叠(每 1 Cahnnel 为 2Gb),4Hi 即为 2GB,4 颗 HBM 即为 8GB。
为什么会变成单层 4Gb 呢?
从 JEDEC 所提供的文件中可以发现 HBM Channel Address 采用的方式为 1、2Gb 颗粒都
是 8 Bank 设计,其中容量增加的关键在 Row Address 从原先的 13bit 增加为 14bit。
*计算方式:2^3(Bank)x 2^6(Column)x 2^14(Row)x 256bit = 2Gb。
单层 8Gb 则是从这个基础上再增加 1 倍 Bank 达成,所以网络上猜测容量倍增是否是增
加了 Bank 数量从原先的 8 增加为 16,这个假设是不成立的情形。另外在简报中,特别
指出了容量增加是采用 Dual-Link interposing 的方式达成,且 HBM2 预计将不需要这
种方式,那么 Row Address 增加的方式在这段叙述中就不成立,显然 AMD 采这个方式的
机率较低。
另外网络上也猜测是否为 HBM 加上 GDDR5 的组合,虽然 HBM 是有类似应用,不过这种
组合显然与需要大频宽的 GPU 架构不太相符。且该应用变相需在单颗 GPU 中同时拥有
HBM 控制器与 GDDR5 控制器,与下一阶级 Radeon R9 390 只有 4GB 的规格相去甚远,
这个方案可行性非常低。
那么还有方式来增加容量吗?有的,不过这种方式其实有一点蠢,在原先由 4 颗 4Hi
HBM 1GB 的基础下增加为 8 颗,即可达到所谓的 8GB。不过为什么可以这么做呢?这部
份恐怕得回到内存架构 Rank 数量的概念,简单略述即为共用 讯号线,透过 Chip
select 的方式切换不同 Rank 的 HBM。
这种方式既符合 Dual-Link interposing 的叙述,同时也可以简化等级区分难度,同时
在 HBM2 因为单一 HBM 容量激增的缘故,也不再需要透过增加 HBM 颗粒的方式来增加容
量。
不过一开始就说过这种方式有点蠢,原因其实不外乎在于成本增加之外,还增加了整块
Substrate 与 Interposing 的面积。同时散热也面临到需要更大的问题,且由于是 2
个独立的 HBM 需要透过 chip select 去切换,无疑徒增延迟的问题。
不过实际到底如何运作,还是得实际看到样品才能确认,各位觉得 AMD 会选择什么方式
呢?
http://benchlife.info/?p=124
有请obov大XD

Links booklink

Contact Us: admin [ a t ] ucptt.com