[情报] AMD 与 HPE 联手打造效能达 2 exaFLOPS

楼主: hn9480412 (ilinker)   2020-03-05 20:35:11
比 Frontier 快了 10 倍,AMD 与 HPE 联手打造效能达 2 exaFLOPS 的全球最快超级电

作者 Evan | 发布日期 2020 年 03 月 05 日 12:45
AMD 与慧与科技(HPE;Hewlett Packard Enterprise)于周三表示将联手打造主要用来
测试核子武器的全球最快超级电脑。这台名为“El Capitan”的美国能源部(
Department of Energy,DOE)超级电脑将会安装在劳伦斯利佛摩国家实验室(Lawrence
Livermore National Laboratory,LLNL),运算速度可达每秒 2 百万兆次浮点运算(2
exaFLOPS),比当前效能最强大的超级电脑快了 10 倍,预计 2023 年正式上线服役。
早在去年 8 月,美国能源部和克雷公司(Cray,现属 HPE 的一部分)就宣布了名为 El
Capitan 的第三台美国百万兆级(Exascale)超级电脑计画。该系统预定于 2023 年初安
装在 LLNL 实验室中,主要供美国国家核子安全总署(National Nuclear Security
Administration,NNSA)使用,该单位将超级电脑用于核子武器建模。
DOE 和 HPE 周三下午宣布了这台超级电脑的架构细节,表明 AMD 将同时提供 CPU 和加
速器(GPU),并对这台超级电脑的效能估计进行修正。7 个月前,“El Capitan”原本
的效能估计为 1.5 exaFLOPS,如今因为一些配置变更,DOE 预估该系统在完全安装后将
能达到 2 exaFLOPS,成为美国当前最快的百万兆级系统。
El Capitan 是 Frontier 的衍生物,但青出于蓝胜于蓝
整体而言,El Capitan 是 DOE 旗下 CORAL-2 超级电脑计画的第二套系统。与类似的
Frontier 系统一样,El Capitan 价格也高达 6 亿美元,其目的是为了确保美国在百万
兆级时代之超级电脑的领先地位。LLNL 实验室将使用该系统来取代他们目前的 IBM
Power 9 + NVIDIA Volta 超级电脑 Sierra。在效能上,El Capitan 将比其所取代的系
统快 16 倍。LLNL 实验室将它主要用在核子武器建模上(以取代真枪实弹的实际测试)
,同时也会应用到其他领域研究系统之“再利用”(Secondary Use)上,特别是会应用
到机器学习的领域上。
El Capitan 是 AMD 成功拿下第二回百万兆级超级电脑大单的代表作,该公司还为橡树岭
国家实验室(Oak Ridge National Laboratory,ORNL)提供了 1.5 exaFLOPS “
Frontier”系统的 CPU 和 GPU。实际上,从硬件的角度来看,高水准的 El Capitan 看
起来与 Frontier 非常相似。Cray 是 El Capitan 和 Frontier 这两个系统的主要承包
商,两者皆属 Cray Shasta 系统,采用 AMD 处理器、Cray 机柜和 Slingshot 互连技术

在 CPU 方面,AMD 将提供标准版的 Zen 4 架构 Genoa EPYC 处理器,由于它是比当前
AMD 产品还要晚两代的最新处理器,所以目前相关技术细节仍然很少,但可以确定的是
,该处理器将支援 Infinity Fabric 3 次世代内存,并承诺能提供更前瞻的单执行绪
与多执行绪效能。
在 GPU 方面,AMD 和 Cray 仍在继续密切合作,虽然确定将支援采用新架构的次世代
AMD GPU,但目前仍然没有新 GPU 名称及其他技术细节的资讯。目前可以确定的是,该
GPU 将支援次世代高频宽内存(High Bandwidth Memory,HBM)技术,并支援混合式
精确运算(Mixed Precision Computing),以提高深度学习效能。
支援采用统一内存架构的 IF 3.0 及 Cray Slingshot 互连技术
在互连性上,和 Frontier 一样的,El Capitan 将以 4:1 的配置运行,每颗 CPU 连接
4 颗 GPU。透过 Infinity Fabric 3.0(IF 3.0)的支援,AMD 承诺将进一步改善芯片
间频宽与延迟。然而,最有趣的声明莫过于 IF 3.0 装置节点将支援跨 CPU 与 GPU 的统
一内存架构(Unified Memory),其不仅能促进系统程式设计效益,还能在运行异质工
作负载时提升系统效能。
如同前述的,Cray 自家的 Slingshot 互连技术能将节点串联在一起。不仅如此,
Slingshot 并支援自适性路由、拥塞管理和服务品质(QoS)功能。其互连速度可达每埠
200Gb / s 的效能表现,透过个别刀锋服务器为刀锋上每颗 GPU 提供合并的单一连接埠
,其他节点便能直接对 GPU 内存进行资料的读写。此外,在系统布局上,El Capitan
预计使用的电力不到 40 百万瓦(MW),DOE 透露届时的实际耗电量将会更低。
整体而言,El Capitan 标志着 AMD 在百万兆级超级电脑订单争夺战中的第二回重大胜利
,AMD 去年才刚刚凭借 Frontier 首次拿下超级电脑大单,而 Cray 则同时涉足美国 3
项百万兆级系统的建置作业。因此,这对两家供应商来说都是展现并宣传自己坚强实力与
品牌的巨大胜利。
https://technews.tw/2020/03/05/el-capitan/
HPE是哪间冷门公司?

Links booklink

Contact Us: admin [ a t ] ucptt.com