[情报] NVIDIA 发表 8 万核桌面级超级电脑

楼主: carrrrrrrry (霸气登场)   2018-03-28 13:21:49
核弹教父势不可挡:NVIDIA 发表 8 万核桌面级超级电脑
https://imgur.com/JFLEyPk.jpg
在标准运算技术的时代,推动进步的是 Intel 和由它发扬光大的摩尔定律。但 2012 年
之后,当运算技术进入了名为“深度学习”的全新时代,创办于 1993 年的 NVIDIA 却成
为了强势黑马。
“NVIDIA 通过深度学习平台所取得的创新,许多都已成为世界标准。我们以 远超摩尔定
律的速度推动运算性能飞速成长,促进健康、交通、科学探索等无数领域的突破。”在一
场演讲中,创办人兼 CEO 黄仁勋自豪地对数千名观众表示。
去年,站在同一个舞台,黄仁勋说他一直想要找到摩尔定律之后的路。而以神经网络为基
础的人工智能,其爆发式发展到了 2018 年已经过去了五年。而在这五年里,GPGPU(通
用图形处理器)成为了人工智能研发的利器,在运算密集型的深度学习任务上独步天下。
NVIDIA 指出,和五年前的 Ferml GPU 架构相比,最新一代的 Volta GPU 架构的浮点运
算能力提升了 25 倍。
“摩尔定律 10 年 5 倍,”黄仁勋说,“这就是我们超越摩尔定律的证明。”
https://imgur.com/o0IT49o.jpg
NVIDIA 开发者社群的扩张迅速,印证了黄仁勋大胆的声明。该公司统计,GPU 开发者在
今年将达到 82 万人,比五年前成长了 5 倍;在 NVIDIA GPU 上开发必备的分布式运算
架构工具包 CUDA,下载数量超过了 800 万,其中约一半是在过去一年里下载的。不仅如
此,该公司提供的 GPU 加速技术还被世界上大量超级电脑协同采用,其 Volta GPU 为美
国的 Summit 和 Sierra 两大超级电脑增加了大约 100 PFLOPS(百万兆次浮点运算能力
)。
在美国时间 3 月 27 日的 NVIDIA GPU 技术大会 (GTC 2018) 上,该公司带来了多个在
深度学习、自动驾驶和机器人领域足以掀起巨浪的新产品。其中最为重头的,则是一年一
度的新核弹级显卡 —— 这次,并不是 GTX 11 系列,也不是传闻甚嚣尘上的“矿卡”,
而是一台被黄仁勋称为“桌面超级电脑”的工作站:NVIDIA DGX-2。
DGX-2 是一台专门用于人工智能训练和 / 或推理任务的桌面电脑:
https://imgur.com/uutFs3C.jpg
这是它的内部结构:
https://imgur.com/uwoDOQq.jpg
你可以看到,在图中 1 和 2 的位置看起来是很多块芯片。其实他们是 NVIDIA 的
Tesla V100 Volta 架构 GPGPU,单枚算力达到双精度 7.8 TFLOPS(兆次浮点运算)、
单精度 15.7TFLOPS、深度学习 125TFLOPS。
而 DGX-2 单机箱安装了 16 枚 V100,总体性能达到了惊人的 2PFLOPS—— 业界第一台
超过百万兆次浮点运算能力的单机箱电脑 —— 称它为超级电脑或许并不浮夸。
但 DGX-2 的算力并非靠堆叠出来,如果它们之间不能实现高频宽的数据互通则无意义。
时间倒回两年前,NVIDIA 有意在深度学习的设备市场上对 Intel 发起直接挑战,推出了
Pascal 架构的 P100 GPGPU。在当时,主流服务器 PCIe 总线接口的频宽和时延,已经
无法满足 NVIDIA 的需求。于是它们开发出了一个新的设备内互联标准,叫做 NVLink,
使得频宽达到了 300 GB/s。一个 8 枚 GPGPU 的系统里,NVLink 大概长这样:
https://imgur.com/W6Gld6e.jpg
然而 NVLink 的标准拓扑结构在理论上最多支援 8 枚 显卡,仍不足以满足 NVIDIA 对于
新系统内置更多显卡的需要。于是在 NVLink 的基础上,NVIDIA 开发出了一个名专门在
显卡之间管理 NVLink 任务的协调处理器,命名为 NVSwitch。这个组建在 DGX-2 上,让
16 枚 GPGPU 中两两之间实现 NVLink 互通,总频宽超过了 14.4 TB。
这个数字创造了桌面级电脑内总线接口频宽的新高,但实现它的目的并非跑分,而在于
DGX-2 可以 1)更快速地训练一个高复 杂度的神经网络,或 2)同时训练大量不同结构
的神经网络。
https://imgur.com/SlhdeuS.jpg
NVIDIA CEO 黄仁勋,背景是 NVSwitch 示意图
N 卡之所以被称为核弹有一种另类的解释方式:它的多核心架构在这个依核心数量论高下
的时代显得超凡脱俗 —— 动辄几百、上千个 CUDA 核心,令人不明觉厉。而在 DGX-2
上,16 枚 V100 的 CUDA 核数达到了疯狂的 81,920 核心。这个事实,结合 NVSwitch
技术、512GB 现存、30TB NVMe 固态硬盘、两枚至强 Platimum CPU 和高达 1.5TB 的主
机内存 ——
黄仁勋用 GPU 深度学习里里碑式的杰作 AlexNet 来举例。研究者 Alex Krizhevsk 用了
6 天,在 NVIDIA GPU 上训练 AlexNet,这个研究首次利用梯度下降法和卷积神经网络
进行电脑图像识别,显著优于枝前的手调参数法,拿下了 ImageNet 图像识别竞赛冠军。
AlexNet 让 Alex 世界闻名,这 6 天可以说值了。
然而,“同样的 8 层卷积神经网络,我用 DGX-2 跑了一下,只用 18 分钟就达到了同样
的结果,”黄仁勋说,“五年,500 倍的进步。”
这说明很多东西。其中有一条:在这五年里,NVIDIA 的技术进步节奏已经无法用摩尔定
律来描述了。
DGX-2 主要的应用场景是显著加速高端科研和商业人工智能产品的研发和面市。它显然不
是一台消费级的产品 —— 高达 150 万美元的售价 ……
https://imgur.com/1WEf6tL.jpg
开玩笑的,最终售价是 40 万美元 ……
https://imgur.com/dXnNvo0.jpg
然而即便是 40 万美元的未含税价格,还是让一些手头紧张的工业使用者望而却步。别担
心,DGX-2 只是今天 NVIDIA 在人工智能领域的几个新产品之一,其它还有:
1.DGX 机箱里面的 V100 GPGPU 升级版,内存升级到了 32 GB,那些只需要单枚或者少
量显卡的研究者,生产力得到解放,可以训练更复 杂的神经网络了:
https://imgur.com/VwwvCr8.jpg
2. 面向包括电影视觉特效、建筑设计等创意工业,推出的 Quadro GV100 显卡产品。
Quadro GV100 是一块工作站显卡,里面是两枚 V100 GPU。这块显卡支援 NVIDIA 最新的
顶级光线追踪 (Ray Tracing) 技术 NVIDIA RTX:
https://imgur.com/6sQkuiA.jpg
3.NVIDIA RTX:如前述,NVIDIA 开发的一种极其复 杂,且运算密集型的光效技术。简单
来说,像在真实世界里那样,掺杂的多光源、复杂的环境,导致光线照到不同材质的物品
上所呈现出的散逸,以及物品对光源、对其它物品,在曲面、球面甚至不规则表面所产生
的反射效果,或者光源照射到玻璃杯产生的不规则投影 ——这些光效和阴影在过去极难
通过电脑完美呈现,但 NVIDIA 今天向着亦真亦幻往前走了一步。
https://imgur.com/KGnEf0V.gif
4.TensorRT 4,新一代的 TensorFlow 推理工具;GPU 对美国科技公司在去年推出的深度
学习兼容框架标准 ONNX 兼容;终于可以在 Kubernetes (K8S) 上管理 NVIDIA GPU 了,
支援 AWS、Google Cloud Platform、阿里云等。
5. 新的自动驾驶车载运算架构 ORIN。
6. 驾驶虚拟模拟技术 Drive SIM & Constellation。这是一个很有趣的技术,可以让
NVIDIA 以及其它开放平台的科技公司在 GPU 上模拟自动驾驶汽车训练,显著降低开放
道路真车训练的危险性。这个技术还有一个独特的用法:接入了该平台的汽车,在未来可
以 远程操控,黄仁勋演示了一个司机在会场,用 VR 头盔和手把 远程驾驶一辆汽车躲避
障碍并成功停车。
https://imgur.com/Fe1YYTW.jpg
7. 机器人开发开放平台 ISSAC,利用了 NVIDIA 在自动驾驶上积累的一些技术,比如高
精度地图绘制等。
8.Project CLARA,一个云端医疗诊断的计画。这个计画非常有趣,简单来说,NVIDIA 医
院提供基于云端的医疗图像识别超级电脑,一个场景是上传心脏 B 超的即时视频流,云
端的显卡运行训练好的神经网络,可以将画面变成 3D 的体积图像,然后即时将器官显示
出来,从而生成一个更容易观看的 3D 画面。现场演示的画面还给出了器官功能的即时数
据,包括每次搏动的输血量等,令人印象深刻。
https://imgur.com/dvcllam.jpg
硅谷是一个 T 恤帽衫和拖鞋统治的地方,而 NVIDIA 的创办人黄仁勋在这里是个相当明
显的另类:一身皮夹克的他,工程师出身又负责过市场,演讲起来丝毫没有许多其它科技
大佬身上特有的“虚伪”气息。
在 GTC 2018 上,可能觉得自己气场还不够强,他直接站在了椅子上接受记者的提问;他
明显接受过公关训练,但在回答提问时的诚恳仍然在科技大佬中显得独特,甚至直接问旁
边的公关“你是不是想打断我?但我已经说完了。”人称“核弹教父”的黄仁勋,名副其
实。
他吐槽常见的 x86 架构服务器站,一个机柜动辄数十台服务器,十几台机柜总成本成百
上千万美元。而取得同样的深度学习训练效果,只需几台或者十几台 V100,或者一台
DGX-2,价格至多六位数。这也是为什么他在演讲时,不断对台下的观众重复:多买更划
算!(The more you buy, the more you save.) 几乎将一场 GPU 技术演讲变成了电视购
物。
“Watch now ‘cause here I come.” 是黄仁勋上台前的暖场歌曲里的一句歌词。
至少在今天,将摩尔定律踩在脚下,黄仁勋和他的 NVIDIA 看起来势不可挡。
https://imgur.com/ZiE6xlm.jpg
https://goo.gl/51bbL6
可以把整个PTT网站放进去吗?
这样上PTT会更快吗?
作者: CactusFlower (仙人掌花)   2018-03-28 13:25:00
买来帮我想晚餐到底要吃什么好 谢谢五楼出钱 我先预约一台了
作者: gkkkkkkkkkkk (gkkkkkkkkkkk)   2018-03-28 13:38:00
谢谢5楼
作者: david7112123 (Ukuhama)   2018-03-28 13:39:00
上PTT能稳定60侦吗?
作者: jeffrey40504 (Argus)   2018-03-28 13:45:00
研究型电脑哪有在管回本的…
作者: juiclykiller (松山鬼见愁㊣抖M抖M)   2018-03-28 16:12:00
矿厂懒得跟你比 tune一下算力爽爽卖到断货
作者: cavitylapper (类聚)   2018-03-28 18:48:00
这该不会是做出来挖矿的吧....
作者: PlayStation3 (超级喜欢于小文)   2018-03-28 20:59:00
老黄真是最帅亚洲人

Links booklink

Contact Us: admin [ a t ] ucptt.com