NVIDIA黄仁勋在GTC CHINA 2019说了些什么?
http://bit.ly/34Fgh2H
2019 年 12 月 18 日,AI图形处理器大厂辉达 (Nvidia) 一年一度GTC CHINA论坛,执行长黄仁勋的主题演讲更是精彩,除发表Nvidia新产品外,还可从演讲中分享他对AI 领域的未来发展提出自己独到见解与预测。
随着5G推出及算法的演进,众多AI软硬件解决方案不断推出,未来谁将主导市场仍然未可知。
专为机器人推出全新版本Isaac软件开发套件(SDK)
全新版本Isaac软件开发套件(SDK),为机器人提供更新的AI感知和仿真功能。包括:Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网络模型、算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。新版本导入了使用Isaac Sim训练机器人,并将所生成的软件部署到真实机器人中。这有望大大加快机器人的开发速度,从而实现综合数据的训练。
推出六款RTX的新进展
辉达去年(2018)发布了RTX新一代GPU架构Turing(图灵),以及一系列基于图灵架构的RTX GPU。黄仁勋表示图灵架构被视为辉达十多年来在计算机图形领域最重要的创新,将光线追踪技术引入辉达的GPU中。目前已有多款游戏机支持RTX。这次论坛,也推出六款RTX。目前,辉达已经卖出15亿块GPU图形加速器以相同的CUDA架构。
辉达还推出了Max-Q设计,对超高的GPU效能和总体系统进行优化,可以用于轻薄的高性能笔记本电脑。
推出START云游戏服务。随着云计算的普及,云游戏也将越来越普及。黄仁勋在GTC China 2019宣布,辉达与腾讯游戏合作推出START云游戏服务,该服务已从今年(2019)初开始进入测试阶段。START使游戏玩家可以随时随地,即使是在配置不足的设备上也能玩3A级游戏。
推出Orin 瞄准自动驾驶汽车和机器人
Orin是辉达花费4年时间投入数十亿美元打造,性能比最新一代Xavier提升7倍,算力最高可达200TOPS。Orin是一种SoC系统级芯片由170亿个电晶体(transistors)组成,整合辉达新一代GPU架构和Arm Hercules CPU内核以及全新深度学习和计算机视觉加速器,每秒可运行200万亿次计算(200TOPS),几乎是辉达上一代Xavier系统级芯片性能的7倍。Orin计划2022年投产。预计应用于自动驾驶汽车和机器人中同时运行的大量应用和深度神经网络,符合ISO 26262 ASIL-D等系统安全标准。
DRIVE AGX Orin作为一个软件定义平台,支援从L2级到L5级完全自动驾驶汽车开发的兼容架构平台,将成为OEM开发大型复杂的软件产品的最佳工具。Nvidia宣称Orin和Xavier均可相容于开放码的CUDA、TensorRT API及各类库进行编程,因此开发者能够在一次性投资后使用跨多代的产品。
目前,滴滴将与辉达一起使用Orin共同推进自动驾驶和云计算领域的发展和合作,从选择辉达DRIVE作为他们的L4级的AV平台和云计算平台,采用辉达的AI技术应用在它们的滴滴自动驾驶车辆当中,并且也支持“滴滴云”。
转移学习和联邦学习协助业者降低AI门槛
面对自动驾驶安全议题,其实,早前辉达的DRIVE结构就AI导入数据中心中“端到端平台”。也就是说,真正技术在道路上使用之前,首先是要在数据中心进行验证。同时,先第一步就是海量的数据收集工作。在有人驾驶的车辆上,需要安装很多的传感器,包括摄像头及雷达以达到收集大量的数据,以协助汽车厂商已经可以构建和部署具有功能安全性、并符合诸如ISO 26262等国际安全标准的自动驾驶乘用车和卡车。
迁移学习使NVIDIA DRIVE使用者能够借助NVIDIA在自驾车开发领域的大力投入,加速开发感知软件,并基于各自的应用和目标进一步开发这些网络。
联邦学习最主要的功能就是能够保证数据隐私不被侵犯。按照官方说法,无论是医院、实验室、汽车公司,大家都可以去开发并且训练这些神经网络,数据还可以保存在本地。或可以把一些训练和处理后的结果上传到云端服务器上,促进公司之间的合作,包括各品牌之间的合作、各地区之间的合作等等,而它能够保证数据隐私不被侵犯。
辉达宣称,更重要的是,这些工具让汽车客户能够去针对他们自己的车型来定制化自己的软件开发。
GPU替换CPU,成本仅1/10,性能提升百倍
辉达已推出AI平台可应用于训练、云端、终端、自动驾驶。辉达Telsa v100 GPU,利用这些TB级的数据集去创建一个模型、在GPU上训练这些数据,然后把它放到GPU的内存当中去训练TB级别的数据,GPU训练成本只有CPU的十分之一,并且支援更大规模的模型训练。黄仁勋也表示GPU不是要替代CPU,而是AI负载一个更好的选择。
推出TensorRT 7B软件优化是实现会话式AI的关键
根据黄仁勋的数据,GPU+Arm的硬件,加上CUDA以及TensorFlow的优化,Arm进行深度学习的性能是x86处理器性能的96%。2018年辉达发布了计算图优化编译器TensorRT5,通过优化PyTorch和TensorFlow等框架中训练出来的AI模型,减少计算和内润访问,让模型在GPU上运行的效率大幅提升。
今年GTC China 2019上宣布推出TensorRT 7,它支持各种类型的RNN、Transformer和CNN。TensorRT 7能够融合水平和垂直方向的运算,可以为开发者设计的大量RNN配置自动生成代码,逐步融合LSTM单元,甚至可跨多个时间融合。相比TensorRT5只支持30种变换,TensorRT 7能支持1000多种不同的计算变换和优化。
若要实现会话式AI,首先需要把语音转化为文字,然后借由AI语音算法模型获得需要的语音,并理解其含义,再将回应合成为语音进行回复。对话式AI需要可编程性、丰富的软件堆叠以及低GPU延迟。若以TensorRT 7,可在300毫秒(0.3秒)内完成复杂的工作。