[情报] nVidiaGPU架构Volta 发表人工智能强心剂

楼主: carrrrrrrry (霸气登场)   2017-05-12 01:07:34
nVidia 新 GPU 架构 Volta 发表,为人工智能注入一针强心剂
http://imgur.com/8v1iww9
今年的 GTC 2017(GPU Technology Conference 2017)中,Nvidia CEO 黄仁勋带来了全
新的 GPU 架构 Volta。1.5 倍的双精度浮点数计算效能提升,以及采用特化架构所带来
的 12 倍人工智能计算效能提升,为计算市场带来震撼的消息。
Nvidia 在 2016 年的 GTC 中,便发表了新的 GPU 架构 Pascal。其中,让人印象最深刻
的,莫过采用 8 张 Tesla P100 的人工智能训练机 DGX-1。一台机器便带来以往需要数
台服务器才能达到的效能,为人工智能发展带来新气象。
然而,短短的一年间,Nvidia 又带来新消息──新的 GPU 架构 Volta。强悍的 R&D 团
队,将其主要竞争对手远远抛在后头。同时,也让世人见识到,在后莫尔定律的年代,
GPU 将承接 CPU 的发展速度,推进电脑的计算效能。
新技术突破,奠定 Volta 于人工智能的王者之姿
这次 Volta 架构带来数个新技术。 其中,最重要的莫过 Tenser Core。其他还有细部硬
体架构调整、第 2 代 NVLink 以及新软件支援,让 Nvidia 在人工智能领域扮演领导者

首先,从硬件架构来看,这次 GPU 架构和前一代 P100 相比,V100 将整数计算单元和浮
点数计算单元独立出来,让整数计算和浮点数计算可同时运行,物尽其用。此外,每个
SM(Streaming Multiprocessor)中新增 8 个 Tensor Core,让 Volta 带来 12 倍的
训练提升以及 6 倍的决策加速。
http://imgur.com/IK6a0Za
究竟 Tensor Core 是如何运作的呢?首先,假设我们要求解两个 4×4 矩阵相乘再加上
一个 4×4 矩阵,如下图,那将会产生 4×4×4 个乘法计算需求。在采用 Tensor Core
之前,需要执行 4 次 4×4 矩阵相乘并相加,相当花时间。
在新 Tensor Core 中,由于一个 Tensor Core 是 4×4×4 的特化计算元件,让 GPU 可
同时执行 4×4×4 个矩阵相乘并相加,如下图所示。借此达到更多计算加速。这就是
Nvidia 对人工智能所发展的杀手锏。
http://imgur.com/8p9MvcJ
新旧架构比一比,效能三级跳
那么 Volta 和 Pascal 究竟有什么差异呢,就让我们摊开所有细节来比一比吧!
http://imgur.com/0wSP5Wg
https://goo.gl/1EjFPC
有种AMD不只是车尾灯看不到的感觉 还被耀眼的光芒闪的不要不要的
作者: classskipper (Redeemer)   2017-05-12 07:56:00
还在说信仰……人家nv的股票在两天间涨了27%

Links booklink

Contact Us: admin [ a t ] ucptt.com