[情报] Volta白皮书:完整版5376个核心 效能提升

楼主: KotoriCute (Lovelive!)   2017-06-20 20:11:47
NVIDIA公开Volta显示卡秘密:完整版5376个核心,效能提升50%
http://www.expreview.com/55104.html
http://images.nvidia.com/content/volta-architecture/pdf/Volta-Architecture-Whi
tepaper-v1.0.pdf
https://goo.gl/WPkJBy
AMD将在8月初发布RX Vega游戏显示卡,也将重返高性能显示卡市场,但是Vega这次面对
的对手不只是16nm Pascal显示卡,还有NVIDIA新一代12nm FFN制程的Volta显示卡。今年
5月份NVIDIA率先发布了Tesla V100加速卡,用的是GV100大核心,游戏市场的Volta显示
卡问世只是时间问题,它不会像Vega显示卡那样难产。今天NVIDIA又公开了Volta核心的
架构秘密,确认了Volta完整版核心是84组SM单元,总计5376个CUDA核心,而且SM单元效
能比Pascal这一代提升50%,而现在的GV100大核心只启用了80组SM单元,5120个CUDA核心
,NVIDIA还留有杀手锏。
NVIDIA正式确认了完整版Volta显示卡是84组SM单元,每个SM单元有64组FP32浮点单元、
64组INT32整数单元、32组FP64双精度浮点单元、8个Tensor单元(用于深度学习)、4个
纹理单元,外加8组512bit显示内存控制器,每个HBM 2堆栈搭配2组显示内存控制器
,总计有5376个CUDA核心(FP32、 INT32)、2688个FP64单元、336个纹理单元、672个
Tensor单元,还有4096bit等效频宽、16GB HBM 2显示内存,频宽900GB/s。
NVIDIA的Volta显示卡使用了TSMC与NVIDIA定制的12nm FFN制程,而TSMC的12nm制程实际
上也是采用目前16nm制程改良的,主要优化了效能、核心面积,性能比16nm FFC制程提升
10%,但是核心面积可缩减20%。即便如此,GV100大核心的面积依然从目前的610mm2增加
到了815mm2,主要原因就是SM单元数量大增,从60组SM单元增加到了84组。根据NVIDIA的
白皮书介绍,Volta架构的SM单元做了大幅改进,新的SM单元效能比Pascal这代提升50%,
因此才能在同样的功耗封装下大幅提升FP32/FP64计算性能。
当然,NVIDIA在Volta显示卡上的重点除了提升传统的FP32/FP64计算性能之外,最重要的
还是提升深度计算性能,为此增加了专用的计算单元,每组SM单元有8个Tensor单元,总
计640个Tensor单元,Tensor性能可达120TFLOPS,是Pascal这代的12倍多。不过现在的
GV100大核心很有可能跟去年的GP100大核心一样专用于计算市场,真正对游戏玩家有影响
的还是后面的GV102核心,NVIDIA势必要做些精简,比如砍掉对游戏没用的Tensor单元,
减少L2快取,HBM 2显示内存也没必要,SM单元很有可能也会重组,可以预见游戏用的
GV102核心会进一步降低效能,不过CUDA核心总数相比Pascal也会大幅提升,游戏性能再
上一个台阶。

Links booklink

Contact Us: admin [ a t ] ucptt.com