[情报] 奠定 Intel Xeon Phi 技术基础的“x86 处 hn9480412 PTT批踢踢实业坊

[情报] 奠定 Intel Xeon Phi 技术基础的“x86 处

楼主: hn9480412 (ilinker) 2017-10-06 14:09:17

【x86 兴衰史】奠定 Intel Xeon Phi 技术基础的“x86 处理器显示卡”：Larrabee
作者台湾水电工协会－非在职工友 | 发布日期 2017 年 09 月 30 日 16:01
Intel 终于在今年 8 月处理器业界年度盛事之一的 IEEE HotChips 29，公布了针对深度
学习最佳化的新款 Xeon Phi“Knights Mill”，Intel 鸭子划水多年的 MIC（Many
Integrated Core，整合众核架构）总算又多了一点曝光度，但你知道 Intel 的超级多核
心产品线，是早在十年前，酝酿于极度疯狂的“x86 处理器架构显示卡”吗？
2006 年底至 2007 年中的显示卡市场，正处于 GPGPU 随着 DirectX 10 与统一着色器架
构的实用化，而开始萌芽的关键时刻，nVidia GeForce 8 系列成为初代 CUDA 的载具，
AMD Radeon HD 2900 则开双倍浮点精确度之先河，因此一谈到绘图芯片通用运算这档事
，完全不缺抬杠的话题。
但当时最欢乐异常的焦点，并非集中在显示芯片双雄的新产品，而是聚焦于 Intel，着手
超级多核心多执行绪 x86 处理器架构的“显示卡”，你可把它当成“Intel 的 GPGPU”
，虽然它从未在市场现身过。
https://img.technews.tw/wp-content/uploads/2017/09/28100633/54245125128.jpg
https://i.imgur.com/o182InQ.jpg
Intel 首度在 2007 年 4 月北京 IDF（Intel Developer Forum）公开 Larrabee 这个研
发代号，并公开呛声“Larrabee 出现后，会使显示核心在两到三年内消失”。但事实上
，早在 2006 年底某份未刻意保密的研讨会简报，详细描述了 Larrabee 规格概观，规格
比较表还不小心一并爆破了从希伯来文的“砂桥”（Gesher）正名而来的 Sandy Bridge
处理器。
像 Intel 这样的大公司，很难隐藏所有祕密，不提公开的专利，光历年 IDF 和各类学术
活动的议程简报，就多次无预警避开该公司法务和行销的耳目，让多年后才会开花结果的
机密计画，提前曝光在世人眼前。
https://img.technews.tw/wp-content/uploads/2017/09/28100537/568624574.jpg
加上该文件内，出现某张爆炸性的显示卡架构图，和大剌剌的“Discrete High End GPU
”字样，国内外无数知名网站的讨论区，就开始暴动了，还意外波及乏人问津到连蚊子都
不想骚扰的笔者部落格，甚至还有电脑杂志的编辑，高潮到写下“因为一切软件搞定，这
将是历史上首款往前相容未来 3D API 的显示卡架构”。
一图胜千言，你可清楚看到，这是 10 核心的 x86 处理器，实际上核心数绝不会这么少
。
https://img.technews.tw/wp-content/uploads/2017/09/28100612/697885888.jpg
接着你就了解，每个支援四条多执行绪的循序执行（In Order）核心，那显眼的 SIMD-16
，意谓整颗 10 核心处理器，每个时脉可进行 160 个 32 位元单倍浮点精确度 SIMD 运
算，帐面上优于 nVidia 最高阶显卡 GeForce 8800 GTX 的 128 个。
但你会不会隐约感觉到……有什么恐怖的祕密藏在这张简报里？似乎有什么不能告人的机
密，被前面的方块图挡住了？
https://i.imgur.com/pgDv7Ct.jpg
各位，欢声雷动吧，感谢原始文件是 PowerPoint 格式，移除挡在前面的动画图片，世界
奇观般的“x86 处理器架构显示卡”，包括 GDDR 内存、外接电源、视讯输出、音讯输
入等近代显示卡的必备特征，一丝不挂在读者眼前裸奔了。
https://img.technews.tw/wp-content/uploads/2017/09/28100533/463452452.jpg
接连几年的故事，就是 Intel 慢慢面对现实，被迫承认如此疯狂的构想，无力追赶急速
进步的 GPU，而“转进”高效能运算和人工智能的过程。
Larrabee 全貌如下：
“相对”于 8 核心而言的超级多核心架构，核心初步规划 16 至 24 个（直到加码至
48 核），时脉 1.7Ghz~2.5GHz，标准设计功耗约 150W，单芯片理论效能最高可达 1
Tera Flops，当 32 核、时脉 2GHz，更达 2 Tera Flops，为同时期 8 核心 x86 处理器
“Sandy Bridge”的 5 至 10 倍。
预定 2009 年问世，采用 45nm 或 32nm 制程，晶粒面积不明，但封装后的芯片面积高达
2450.25（49.5×49.5）平方公厘，果然颇具高阶显示芯片的威势。
核心复杂度约为 P54C（没有 MMX 指令集的 Pentium）等级，不具备非循序指令执行能力
（Out-Of-Order Execution，OOOE），支援 4 条同时多执行绪，以掩盖来自运算与记忆
体存取的延迟，24核心就是 96 条执行绪，48 核心则 192 执行绪，以此类推。但跟
GPU 相比，仍小巫见大巫。
https://i.imgur.com/n4YskKV.jpg
每个核心拥有 16 组 32 位元运算单元，总计 512 位元宽，可同时执行 16 个单倍精确
度浮点运算（SIMD-16），亦可处理 32 位元整数与 64 位元双倍精确度浮点。此外，每
个核心内建 32kB 第一阶资料与 32kB 指令快取，延迟仅有一时脉周期。
https://i.imgur.com/L5JnfI3.jpg
LNI（Larrabee New Instructions，或称 LRBni）SIMD 扩充，包含约 100 个新指令，定
义聚集（Gather）／分散（Scatter）指令、32 个 512 位元宽资料暂存器，与 8 个 16
位元遮罩暂存器，使 Larrabee 更接近向量电脑。
https://i.imgur.com/RSeg5bR.jpg
单一处理器核心 4 个执行绪，各自有独立的资料暂存器，共用 256kB 第二阶快取，透过
环状总线（Ring Bus）连接所有第二阶快取、内存控制器，及材质处理等固定功能单
元。该总线理论传输频宽介于 435.2GB/s 至 640GB/s，每时脉周期 256byte。
双通道内存控制器支援 DDR3、FB-DIMM 或 GDDR5，视不同的内存种类，单颗
Larrabee 最高记体容量介于 4GB 至 32GB，理论频宽 40GB 至 128GB。另外，
Larrabee 支援虚拟内存共享，与系统处理器之间可共用寻址空间，彼此互通有无。
内建 3 组双埠 CSI（日后改称 QPI），单向理论传输频宽 17GB/s，延迟 50ns，可建构
多处理器环境。是的，Larrabee 是可以做为执行作业系统的运算平台，并不限于“外挂
”的显示卡或运算卡。
https://i.imgur.com/iRyNDox.jpg
现在开始插播脑残问答时间。
Larrabee 是什么？
Larrabee 不是什么特殊品种的蜜蜂（不过谣传 Intel 内部相关团队的电子邮件签名档，
全员都会统一放一只蜜蜂的图示），而是 Intel 发神经搞出来的超级多核心／多执行绪
x86 处理器，号称“单芯片运算能量 1 Tera Flops”，沿用已成骨灰、设计图捐给美国
政府的 P54C 等级、连 MMX 都没有的 Pentium 核心，笔者还满担心大多数读者，早就遗
忘初代 Pentium 长得什么样子了。
兼具“CPU 的可编程性”与“GPU 的高平行度”，完美的交会点就是 Larrabee，充分彰
显了 Intel 内 x86 义和团的疯狂野心。
https://i.imgur.com/aLlaQ7m.jpg
为何 Intel 要开发 Larrabee？
看在 AMD 在 2006 年购并 ATI、摆明要整合处理器和显示芯片、与未来两者指令集架构
的份上，输人不输阵，Intel 势必有所回应，只是让人意想不到 Intel 所谓“重新启动
独立显示芯片计画”竟是让众人眼镜碎满一地的夸张设计，从 i740 到 Larrabee，根本
是时空跳跃等级的差距。
在高效能运算市场，nVidia 的 CUDA，是对 Intel 更明显的威胁，对 Intel，开发
Larrabee 是不得不为。
那 Intel 干么吃饱太闲，要用 x86 指令集，而不是 XScale（前 StrongARM）或 IA-64
（Itanium）？
看在既有 x86 庞大软件资源的份上，在编译器领域长期投入庞大投资的 Intel，可尽量
多卖出几套他们的软件开发工具。事实上，Intel 最热中谈论 Larrabee 的部门，就是急
速膨胀的软件事业群。
此外，太多显示芯片技术专利掌握在 nVidia 和 AMD 手上，假若 Intel 不希望被拿着
ATI 专利的 AMD 天天找上法院喝咖啡，这的确是避开专利麻烦的途径，还很可能是唯一
的手段。
像 Intel 的 GMA-X3000 的 Triangle Setup 竟然还是用统一着色器硬干出来的，“专利
地雷”的潜在威胁有多大，由此可见一斑，欢迎来到专利恐怖主义的时代。
Larrabee 是史上第一颗“单芯片 1 Tera Flops”的产品？
完完全全不可能，2008 年底 AMD Radeon HD 4800 就先声夺人了，而且 Larrabee 是起
码拖到 2009 年才会问市的产品，在这之前，IBM、Sony 也肯定推出理论运算效能到达
1 Tera Flops 的新版 Cell 处理器。2007 年宣布注定落后竞争对手、还呛可让竞争者
3 年内消失的高技术风险产品，想想也满屌的。
Larrabee 最疯狂的地方是？
几乎纯软件的可程式化绘图管线。请见 Intel 自己的呈堂证供，不要吓坏。
https://i.imgur.com/mUH4l4C.jpg
Intel 的思维不外乎“老子就是市场的领导者”，宁可发挥自己的影响力，逼迫其他人跟
进。更何况，Intel 并不希望 3D 绘图的基础架构诠释权，长期被微软等软件厂商把持。
从当初 Intel 蛮干 IA-64 一路到 Larrabee，思考逻辑一点都没改变。
nVidia 黄仁勋当时曾批评，未在可程式化与固定硬件功能取得平衡的 Larrabee，在老旧
x86 架构的拖累下，主要绘图运算都靠可程式化实作，表现势必糟糕，可惜最终我们也
无从得知，到底会惨烈到什么程度。
纯软件绘图管线有什么好处？
可充分发挥 x86 指令集号称易于开发的“潜力”，也可对运算资源做出最大限度的利用
。Intel 曾列举了 3 款知名游戏，做为其印证其理论基础所言不虚的令箭。
https://i.imgur.com/0kVSqLD.jpg
x86 指令集究竟适不适合显示系统？
为何 x86 处理器必须一路叠床架屋，延续指令集相容性，处理器微架构一用就好几年，
而显示芯片却相反，微软 DirectX 的 Shader Model 在短短几年就出好几版，显示芯片
架构却动辄大兴土木？你有听说过一台个人电脑，开机前要安装“处理器驱动程式”吗？
当然没有，但显示芯片却可透过驱动程式，与 I/O 装置的间接性，维持对过往老旧应用
程式接口的相容性。
既然如此，我们也可想见，以 nVidia 与 AMD 为首，内建巨大可程式化着色运算单元的
高效能显示芯片，其底层指令集架构与相对应的实作加速机制，不像 x86 之类的泛用指
令集，有着巨大的历史包袱，可随时针对绘图需求量身订做。
那么，Intel 选择 x86 指令集第一个问题点就浮现出来了，x86 处理器与绘图芯片双雄
的 GPU 相比，两边底层指令集架构的“血统纯正度”，根本天差地远，而我们也有充分
的理由相信，后者绝对远比前者更适合绘图系统的需要。
指令品质，以卵击石？
也许你会质疑，Intel 只要新增绘图专用指令，不就得了？事实上，Larrabee 并非
Intel 首度尝试将泛用处理器导入绘图应用，早在 1988 年号称“Cray on a chip”的
i860，就为此特别增加绘图相关指令与 3D 绘图功能单元。
但 x86 毕竟就是 x86，其先天不良加上后天失调的原罪，也限制了日后扩充的弹性。以
暂存器数目来说好了，在 AVX 和 LRBni 之前，受限于指令编码字段，导致历代 x86 指
令集扩充一次顶多增加 8 个暂存器，但微软 Shader Model 4.0 光是“暂存用的”暂存
器就高达“4,096”个。
x86 的双算子指令格式（像 a+b=b）则是另一个问题点，除了大幅降低暂存器的利用效
率（因会摧毁其中一个暂存器的资料，如需重复利用，就必须把资料搬移到其他的暂存器
），也难以实作图学常用的乘积和指令（Multiply-Add，如 a×b+c=d），必须使用记忆
体当其中一个来源算子（Source Operand），这也是到了 AVX 之后，才逐渐克服的瓶
颈，但仍远远不够。
种种不利因素累积下来，Intel 想拿残破不堪的 SIMD 指令集扩充，去对抗重武装的 GPU
，无异以卵击石。细心的读者也可以注意到，Larrabee 第一阶快取内存存取延迟只有
1 cycle，摆明用来弥补暂存器不足。但能否迎刃而解，笔者二话不说，打上大大的问号
。
其实很多重要观念，早已陈述于先前《一窝疯“人工智能芯片”前，你需要知道的几件关
于 GPGPU 的事》，请有兴趣的读者有空多看几次。
纯软件的 3D 绘图管线是否可行？
行文至此，读者心中会产生疑惑：我哪管 x86 指令集适不适合，只要 Intel 真的有本事
硬干出一颗真的拥有 1 Tera Flops 效能的 x86 处理器，光凭借著巨大的“赛猪公”数
字，就充满了无限的想像空间和璀璨光明的未来。
这让笔者想起，十几年前，某份描述 PS3 心脏 Cell 处理器的专利被曝光后，“单芯片
浮点 1 Tera Flops”成为看似伸手可及的愿景，就有不少人在猜测，PS3 会不会就此放
弃独立显示芯片，整个 3D 绘图管线统统透过软件手段实作。
https://i.imgur.com/iZByRmk.jpg
事后证明，还好 Sony 没有发疯，在 PS3 内，乖乖的摆了一颗 nVidia 从 G70 衍生而来
的 RSX 显示芯片，而 PS3 搭载的 Cell 处理器，也仅为“完全体”的四分之一规模。
https://i.imgur.com/AKXLaLr.jpg
“纯软件 3D 绘图管线可不可行”是非常复杂且需长篇大论解释的题目，唯一可以确定的
是，就算要纯软件实作，x86 指令集的适用性，也肯定远远不及 Cell 的设计（如果不嫌
弃 SPE 内存搬搬乐很麻烦）。Intel 公布的 Larrabee 架构图标明了“Fixed
Function”，Intel 看来也没有丧心病狂到把全部的希望，都寄托在一堆简单 x86 核心
身上。
用 x86 处理器硬干出显示芯片是一回事，Intel 总得提供驱动程式给用户下载吧？很不
幸的，那时候的 Intel 绘图驱动程式品质满糟糕，自己也承认这方面不如绘图芯片双雄
，连“正统”GPU 驱动程式都写不好，变态至极的 Larrabee 难道会比较简单？还可支援
“未来”的 3D API？无异缘木求鱼。
Larrabee 真正的杀手级应用是什么？
回归原点，Larrabee 真正的优势，在于结合 x86 指令集的巨大软件资源，与 Intel 的
高效率编译器，进军高效能运算应用。
姑且不论 Larrabee 能否实现单芯片 1 Tera Flops 的效能表现，Intel 的确颇有机会藉
Larrabee，大举入侵原本由特化 RISC 处理器独领风骚的超级电脑市场，如 IBM 的
BlueGene。
事后证明，Intel 误打误撞走上一条正确的道路，只不过到头来，不得不脱下裤子跟
nVidia 拼了。
国王的芯片
Intel 在 2008 年积极宣传 Larrabee，不仅与显示卡制造商洽谈产品案，同时也设法说
服 Sony、任天堂和微软，使用 Larrabee 打造新一代游戏机。江湖传言，时任 SCEI 代
表取缔役社长、现任 Sony 执行长的平井一夫，曾受邀至 Intel 总部整整被洗脑了一周
，差点决定采用 Larrabee 为 PS4 的心脏。
但时程一再延宕，才是 Larrabee 最大的罩门，原先预定 2008 年提供样品、2009 年上
市，却整整延后了一年，偏偏 2009 到 2010 年这段期间，又是 nVidia、AMD 开始
GPGPU 硬件规格熟成期“顶上决战”的起跑点，Intel 只能默默站在一旁看戏。
结果 2009 年 11 月 4 日，Intel 正式宣布 Larrabee 不会有消费性绘图产品问世，变
相判了“软件实现一切昔日硬件实作功能的梦幻个人电脑 x86 处理器架构显示卡”不可
重新上诉的唯一死刑。
2010 年 5 月 25 日，Intel 透过官方部落格，昭告天下，Larrabee 也不会做为图形处
理器，而是转进高效能运算市场，与 nVidia 的 Tesla 等专业运算卡正面较量。
同场加映：2008 年，已经和 AMD 长达 3 年合作关系的梦工厂（DreamWorks），转向与
Intel 合作，改用 Nehalem 微架构处理器，搭配 Larrabee 专业绘图卡，做为新世代的
动画绘制硬件平台，还由公司高层出面解释琵琶别抱的缘由。让人满好奇 Larrabee 转职
为“国王的芯片”后，这档惨剧最后如何收尾。
骑士行进曲：再次放弃独立显示卡市场，转战高效能运算最佳化的整合众核架构
后来就是我们熟知的 MIC 发展史，一连串悠扬的“骑士行进曲”，然后 Intel 其余的研
究案，像 48 个 x86 核心“单芯片云端电脑”和 80 个 96 位元宽度 VLIW 核心组成的
1 Tera Flops 单芯片，在此就先束之高阁了：
2010 年，连同 Larrabee 图形处理电路都一并继承，32 核、45nm 制程的“Knights
Ferry”为内部验证概念的研发案。
2012 年，第一世代，50 核、22nm 制程、只能当外接运算卡的“Knights Corner”则是
Xeon Phi x100 品牌的首发，也是 MIC 首度接受市场的考验。
2016 年，第二世代，72 个崭新 Silvermont 核心、14nm 制程、结合 AVX-512 指令集与
高效能嵌入式内存，并不再保留 Larrabee“绘图遗产”的 Xeon Phi x200 系列“
Knights Landing”，完备为可兼具独立运算平台与外接运算卡双重用途的产品，
Skylake-SP 引进的芯片内网状网络（Mesh Network），也是这时的成果。
2017 年，以 Knights Landing 为基础，针对人工智能深度学习最佳化的衍生品“
Knights Mill”，在 IEEE HotChips 29 正式发表。
10nm 制程的第三世代“Knights Hill”，Intel 的超级多核骑士越爬越高，希望不会不
小心摔下来。
https://technews.tw/2017/09/30/intel-xeon-phi-x86-graphics-card-larrabee/
要说这是不是Intel的黑历史，说是也不对。说不是也不对
毕竟在AMD的GCN和NV的废米多少也有参考Larrabee的设计
但对Intel来说可能是个不敢再去想的恶梦吧
Atom硬干ARM也惨输、Larrabee硬干AMD和NV也惨输

作者: c52chungyuny (PiPiDa) 2016-08-10 21:57:00

今天是电虾黑暗的一天

作者: cary4A240022 (关公面前耍大屌) 2017-10-06 17:45:00

Phi不是一直就有的东西吗之前玩过一下子倒是市场买不到罢了https://i.imgur.com/dNvyh6Z.jpg

继续阅读

[菜单] 30K游戏机potter1529 [菜单] 50K内绘图游戏机求菜单检查xdoraemon [请益] 主机板除错要去哪个版twin1949tw [菜单] 麻烦帮忙修改killwork [菜单] 半套升级aot41147 [菜单] 15k以内文书影音机两张单panni [菜单] 20k初升级8700kdumplingice Re: [请益] 除错只会丢google的人适合组吗?deepdish [请益] 组8代求推荐PSUFrostGZ [情报] 旋刚发布 AM5 Silent汽车金属烤漆静音机壳ultra120