[新闻] 英特尔：GPU已过时，Nvidia的人工智能之 lazy321 PTT批踢踢实业坊

[新闻] 英特尔：GPU已过时，Nvidia的人工智能之

楼主: lazy321 (amen) 2017-04-10 11:37:02

英特尔：GPU已过时，Nvidia的人工智能之路会越来越难
刚刚上任的英特尔人工智能事业部（AIPG）首席技术长 Amir Khosrowshahi 表示，目前
所使用 GPU 等级太低了，半导体产业需要构建全新的神经网络架构。
在出任这个新职位之前，Khosrowshahi 是 Nervana System（下简称 Nervana）的联合
创始人兼首席技术长，Nervana 于 2016 年 8 月被英特尔收购，但并未对外披露具体的
收购金额。Nervana 利用最先进的技术来使用 GPU，而且还自行研发替代了标准的
Nvidia 组合语言程式，从而让 Nervana 能够生成“次优”的架构体系。在英特尔大力
部署人工智能战略的大背景下，该公司所能提供的技术迅速成为了发展的核心力量。
Khosrowshahi 本周四向 ZDNet 透露：“早在 Nervana 成立之初我们就着手研发自己的
组合语言程式，当时只是为了我们自己的研发需求，不过后来我们发现它要比 Nvidia 官
方的库存快两到三倍，所以我们就将其开源了。”
Nervana 并不仅仅在软件方面发力，而且还创建了自己的目标向神经网络训练。
他说道：“神经网络是预先设定好操作的系列整合。它并不像人类和系统之间的互动，而
是被描述为数据流的系列指令集。”
Khosrowshahi 表示，在执行图形渲染过程中辅助图形处理单元的部分功能是没有必要的
，比如大容量暂存、顶点着色处理、渲染和纹理等。他表示：“GPU 中的大部分电路在
部署机器学习之后是没有必要的… 这些东西会随着时间的推移而不断积累，最终产生了
非常多无用的东西。”
他进一步解释：“对你来说并不需要的电路，在 GPU 芯片中不仅占据了很大一片空间，
而且从能源利用率上考虑也产生了相当高的成本。神经网络则相当简单，利用小巧的矩阵
乘法和非线性就能直接创建半导体来实现 GPU 的功能，而且你所创建的半导体非常忠诚
于神经网络架构，显然这是 GPU 所无法给予的。”在设计思路上，CPU 有复杂的控制逻
辑和诸多最佳化电路，相比之下计算能力只是 CPU 很小的一部分；而 GPU 采用了数量众
多的计算单元和超长的流水线，但只有非常简单的控制逻辑并省去了快取，因而在需要大
量计算的机器学习方面表现更好，而 TPU 则是专为机器学习的矩阵乘法设计和优化，因
而在机器学习方面比 GPU 更胜一筹。
Khosrowshahi 给出的答案：就是目前尚在开发中的 Lake Crest，这是英特尔今年会针对
部分客户提供离散加速器。但伴随着时间的推移，它将会成为 Xeon 处理器的最佳伙伴。
Khosrowshahi 解释：“这是一个张量（tensor）处理器，能够处理带矩阵运算的指令。
因此指令集是矩阵 1 和矩阵 2 的相乘，不仅透过查询表运行而且这些大型的指令都是高
级别的。”
“GPU 主要依靠一个个寄存器（Register），当访问（或者跳转到）某个寄存器，所执行
的是元素和元素之间的相乘，这个级别是相当的低了。”
Khosrowshahi 表示，最近几年 Nvidia 已经努力让他们的 GPU 对神经网络更加友善，但
是他们的 AI 芯片依然承担了大量图形功能。他表示：“如果只是依靠自己来推动芯片方
面的改进，我认为未来 Nvidia 的进化将会变得越来越困难。”
与之对应的，英特尔则通过收购的方式来推进人工智能。
Khosrowshahi 说：“芯片产业的挑战是即将迎来颠覆性的全新架构：而现在英特尔所做
的事情就是将其收入麾下。他们想要获得 FPGAs（现场可程式逻辑门阵列），所以他们收
购了 Altera。这真的是一个非常酷炫非常神经网络的架构。”
此外 Khosrowshahi 还纠正了很多人对神经网络的错误想法，他表示并不是将神经网络蚀
刻到半导体上，大部分的功能依然通过软件方面来形成。
他说道：“神经网络大部分都体现在软件方面。所以即使是 Lake Crest，指令并不是‘
神经网络，执行这项任务’，而是透过矩阵和矩阵的相乘。芯片外层部分就是一些我们所
熟知的神经网络，在经过培训之后能够根据用户需求来执行各种任务或者搜寻某种参数，
当你拥有神经网络之后你就能做任何可以完成的事情。”
英特尔的其中一个人工智能架构将会对抗 Google 的定制 TPU。在 4 月 5 日搜寻龙头
Google 表示， TPU 的平均运转速度要比标准的 GPU/CPU 组合（比如 Intel 的
Haswell 处理器和 Nvidia 的 K80 GPU）快 15~30 倍。在数据中心计算功耗时，TPU 还
提供 30-80 倍的 TeraOps/瓦特（如果未来使用更快的储存装置，这一数字可能还会提高
）。
同样在今年 4 月 5 日，IBM 和 Nvidia 还宣布 Big Blue 在今年 5 月开始向特斯拉
P100S 提供 IBM Cloud 服务。
http://technews.tw/2017/04/10/intel-nvidia-is-going-hard-in-future/

作者: pinkowa (pinkowa) 2017-04-10 11:42:00

要战了吗？

作者: XenaEvilCat (恶魔猫) 2017-04-10 11:47:00

怎么一直在放话呢厂厂

作者: wtl (比特) 2017-04-10 11:50:00

刚上任的技术长当然要放话说自己的东西很重要

作者: XristianBale (The Dark Knight ) 2017-04-10 12:21:00

外星科技要出动了，本来不想用这招的

作者: WenliYang (羊蹄嘟) 2017-04-10 12:49:00

这已经不是我们可以参与的东西了...

作者: sux0116 (鸡排店扫地工) 2017-04-10 12:49:00

快推不然别人以为我们看不懂

作者: chyn6391 (绿豆橘子) 2017-04-10 12:59:00

早知道好好修ML，我知道它但不懂它。

作者: kevin620 (step) 2017-04-10 13:16:00

Arm表示

作者: yaes111 (咩修杆谋) 2017-04-10 14:23:00

只会嘴那你赶快拿出来卖阿

作者: labbat (labbat) 2017-04-10 14:37:00

怎么不是用TFLOPS/Watt当比较单位啊

作者: aresa (秋凉) 2017-04-10 14:47:00

说什么干话，当年我跑实验两个矩阵乘了一个礼拜还乘不完，最后算特征把矩阵缩小才变快

作者: herrowui (帝虎改) 2017-04-10 15:29:00

2年前intel就呛NV要完了，结果uccu

作者: acgotaku (otaku) 2017-04-10 15:30:00

要执行cuda的架构是真的需要一定的硬件成本multi-thread 发展这么多年也不是新东西了

作者: bikigaya (秋哇悠) 2017-04-10 16:20:00

I皇要发威啦

作者: SMILE79 (å¾®ç¬‘) 2017-04-10 20:22:00

挖

作者: michelin4x4 (米其林滚来滚去) 2017-04-10 22:54:00

AI 用 ASIC+ FPGA才是未来吧

作者: youkiller (人生海海) 2017-04-10 23:12:00

但重点是最强的FPGA是赛林斯啊，i家的Atera都被木马屠城了然后赛林斯在干嘛？在跟GG爱爱啊，你知道吗？

作者: honafire (D调) 2017-04-11 22:23:00

N早就甩开I一大截了好吗

继续阅读

Re: [讨论] MTK的研发能力pponywong [请益] 展讯 Android Framework 工程师magic704226 [请益] 世界先进-厂务工程师hank5115 [请益] 关于进公司后的第一份薪水henry8168 [新闻] 五角大厦警告：阿里巴巴等中资6年砸近兆台币资助硅谷新秀AAAB [讨论] MTK的研发能力yohowo [请益] 台积RD工程师darkdanger [新闻] 台积电本月开始生产苹果A11处理器，第2季达到最高6万DickMartin [请益] 美商荞鑫品保工程师&RD制程/样品工程师iamholan [讨论] 特助这职位的功用？a78914124