[新闻] 特斯拉设计自主芯片D1与超级电脑Dojo成为

楼主: zxcvxx (zxcvxx)   2021-08-23 13:13:40
特斯拉设计自主芯片D1与超级电脑Dojo成为未来利器 往高度整合的商业模式前进
https://bit.ly/2WelEaQ
特斯拉为了持续往垂直整合的商业模式前进,于特斯拉人工智能日(Tesla AI Day)发布了
一款客制化芯片D1,可用于数据中心训练人工智能网络。D1完全由特斯拉内部设计,该公
司正在使用该芯片来运行其超级电脑Dojo。
D1支持FP32、BFP16(又名bfloat16或大脑浮点)和一种称为CFP8(可配置FP8)的新格式
。针对机器学习工作负载进行了优化,且D1(由354个训练节点组成)采用7奈米制程制造
,在仅仅645平方毫米面积下,包含500亿颗电晶体,使其不但具有GPU等级运算能力,也
具备CPU级灵活性。
特斯拉非常重视整个硬件的模组化。所以D1的每个侧边都配备了4TBps的片外频宽(
off-chip bandwidth),允许它在不牺牲速度的情况下连接到其他D1芯片并与其他D1芯片
一起扩展。
下一步是特斯拉的“训练图块(training tile)”,这是一个小于1立方英呎的楔形块,
包含25颗D1芯片。训练图块的运行类似于芯片本身的模组化方式:电源和冷却通过图块的
顶部进行,允许其四个侧边配备专为最大频宽设计的高输出连接器。
超级电脑Dojo绝对是特斯拉人工智能日的最大看点,采用了创新的架构,将运算力分布在
复杂的网络结构中,实现了极高的运算力、高频宽、低延迟的网络吞吐量。其拥有120个
训练单元、3000颗D1芯片、超过100万个训练节点的机柜模型ExaPOD。
从内涵来看,每颗D1芯片提供22.6 teraflops的FP32性能,每个训练图块将提供 565
teraflops,每个机柜(包含12个图块)将提供6.78 petaflops。这意味着仅一个ExaPOD
将提供67.8 FP32 petaflops的最大理论性能,所以其BF16/CFP8运算力高达1.1 EFLOPS。
从以上来看,Dojo有望成为全球最强大的超级电脑之一。在相同功耗下,Dojo超级运算比
现有电脑性能提升4倍、效能提升1.3倍、碳足迹只有原来的1/5。未来特斯拉还计画将下
一代Dojo性能再提升10倍。
至于与硬件相匹配的,还有特斯拉针对性开发的分布式系统DPU(Dojo Processing Unit
)。DPU是一个视觉化交互软件,可以随时根据要求调整规模,高效地处理和运算,且进
行数据建模、储存分配、优化布局、分区拓展等任务。
总之,Dojo不仅是特斯拉全自动驾驶系统的一项技术,而且还是先进驾驶辅助系统。这台
功能强大的超级电脑不是特斯拉独享,将向其他汽车制造商和科技公司开放,将成为一项
新事业。马斯克(Elon Musk)说,“Dojo应该明年(2022)就可运作”,这似乎是向英特
尔、辉达等公司宣战。

Links booklink

Contact Us: admin [ a t ] ucptt.com