人工智能需要强大的运算能力。 基于光的芯片有帮助吗?
https://www.quantamagazine.org/ai-needs-enormous-computing-power-could-light-bas
Amos Zeeberg
光学神经网络使用光子而不是电子,比传统系统具有优势。 他们还面临重大障碍。
摩尔定律的速度已经相当快。该定律认为,电脑芯片中的晶体管数量每两年左右就会增加一
倍,从而产生巨大的速度和效率提升。但是,深度学习时代的计算需求增长速度甚至比这更
快——这种速度可能无法持续。国际能源署预测,到2026年,人工智能将消耗2023年的十倍
电力,并且当年的数据中心将使用与日本相同多的能源。“人工智能所需的计算能力每三个
月就会翻倍”,计算硬件公司Lightmatter的创办人兼CEO Nick Harris表示,“这将会压垮
公司和经济体。”
其中一个最有前景的解决方案是,不再使用在计算领域占据主导地位超过50年的电子来处理
信息,而是利用光子(微小的光包)的流动。最近的结果表明,对于某些现代人工智能基本
的计算任务,基于光的“光学计算机”可能具有优势。
“光学计算的发展正在为需要高速和高效率处理的领域(如人工智能)带来突破”,剑桥大
学物理学家Natalia Berloff表示。
理想的光学
理论上,光具有诱人的潜在优势。首先,光学信号能够携带比电信号更多的信息——它们拥
有更大的带宽。光学频率也比电频率高得多,因此光学系统能够在更短的时间内执行更多的
计算步骤,并且具有更低的延迟。
还有效率问题。除了相对浪费的电子芯片带来的环境和经济成本外,它们还会运行得很热,
以至于在任何时刻只有很小一部分晶体管——所有计算机核心的微小开关——可以启动。理
论上,光学计算机可以同时进行更多的操作,处理更多数据而使用更少的能量。“如果我们
能够利用这些优势”,斯坦福大学的电气工程师Gordon Wetzstein表示,“这将开启许多新
的可能性。”
看到光的潜在优势,研究人员长期以来一直试图将光应用于人工智能领域,这是一个具有庞
大计算需求的领域。例如,在1980年代和1990年代,研究人员使用光学系统构建了一些最早
期的神经网络。加州理工学院的Demetri Psaltis和其他两名同事创建了一个巧妙的人脸识
别系统,使用了其中一个早期的光学神经网络(ONNs)。他们将一个受试者的图像——实际
上是其中一位研究人员的图像——存储为全息图在一个光折射晶体中。研究人员使用全息图
来训练ONN,然后该系统可以识别出受试者的新图像并将其与同事区分开来。
但是光也有缺点。关键在于,光子通常不会彼此交互作用,因此一个输入信号很难控制另一
个信号,这正是普通晶体管所做的。晶体管的工作也非常出色。它们现在被布置在硬币大小
的芯片上,数量达到十亿,是几十年来持续改进的产物。
但是近年来,研究人员发现了光学计算的一个杀手级应用:矩阵乘法。
一些光学计算
矩阵乘法的过程支撑著许多重型计算。在神经网络中,具体来说,矩阵乘法既是网络在旧数
据上进行训练的基本步骤,也是在训练过的网络中处理新数据的方法。光可能比电力更适合
用于矩阵乘法。
这种对人工智能计算的方法在2017年爆发,当时麻省理工学院的Dirk Englund和Marin Solj
a i 领导的一个小组描述了如何在硅芯片上建立光学神经网络。研究人员将他们想要乘以的
各种数量编码到光束中,然后将光束通过一系列组件,这些组件改变了光束的相位——即其
光波的振幅——每个相位改变代表一个乘法步骤。通过反复分裂光束、改变其相位并重新组
合它们,他们可以使光有效地进行矩阵乘法。在芯片的末端,研究人员放置了光探测器,测
量光束并显示结果。
研究人员教导他们的实验设备识别口语元音,这是神经网络的常见基准任务。利用光的优势
,它可以比电子设备更快更高效地完成此任务。其他研究人员早就知道光有可能适合矩阵乘
法;这篇2017年的论文展示了如何将其付诸实践。
康奈尔大学光子学专家彼得·麦克马洪表示,这项研究“催化了对光学神经网络的大规模、
重新激发的兴趣。”他说:“它影响深远。”
自从2017年的那篇论文以来,这一领域已经稳步改进,各种研究人员提出了新型光学计算机
。Englund和几位合作者最近展示了一种他们称之为HITOP的新型光学网络,该网络结合了多
项先进技术。最重要的是,它旨在随时间、空间和波长扩大计算吞吐量。前麻省理工学院博
士后研究员、现任南加州大学的Zaijun Chen表示,这有助于HITOP克服光学神经网络的一个
缺点:从电子元件转换数据到光学元件,反之亦然,需要消耗大量能量。但是通过将信息打
包到光的三个维度中,Chen说,它可以更快地将更多数据通过ONN,并将能量成本分散到许
多计算中。这降低了每次计算的成本。研究人员报告称,HITOP可以运行比之前基于芯片的O
NN大25000倍的机器学习模型。
需要明确指出,该系统仍远远无法与其电子前辈匹敌;Chen表示,HITOP每秒执行约1万亿次
操作,而Sophisticated Nvidia芯片可以处理300倍的数据。他希望扩大技术规模以使其更
具竞争力。但是光学芯片的效率是令人信服的。“这里的竞争是我们将能量成本降低了1000
倍”,Chen表示。
其他团队创建了具有不同优势的光学计算机。去年,宾夕法尼亚大学的一个团队描述了一种
提供了不寻常灵活性的新型ONN。这种基于芯片的系统将激光照射到组成电子芯片的半导体
的一部分上,从而改变了半导体的光学特性。激光有效地映射了光信号要经过的路径,因此
也就是进行的计算。这让研究人员可以轻松地重新配置系统的功能。这与大多数其他基于芯
片的系统(光学和电气)形成了鲜明对比,在这些系统中,路径是在制造工厂中仔细设置的
,并且很难更改。
“我们这里有一个非常简单的东西”,这项研究的首席作者吴天为说道。“我们可以重新编
程它,即时改变激光图案。”研究人员使用该系统设计了一个成功区分元音音素的神经网络
。大多数光子系统在建立之前需要接受训练,因为训练必然涉及重新配置连接。但由于该系
统易于重新配置,研究人员在将其安装在半导体上后对模型进行了训练。他们现在计划增加
芯片的尺寸,并使用不同颜色的光编码更多信息,这应该可以增加其处理的数据量。
即使是在上世纪九十年代建造了脸部识别系统的Psaltis也对这一进展感到印象深刻。“40
年前我们的最疯狂的梦想与实际发生的事情相比非常逊色。”
光学计算在过去几年取得了快速进步,但仍远未能取代实验室外运行神经网络的电子芯片。
论文宣称光子系统比电子系统效果更好,但它们通常运行旧的网络设计和小的工作负载下的
小模型。安大略省女王大学的Bhavin Shastri表示,许多关于光子系统优越性的报告数据并
不能完整地反映情况。“很难与电子进行直接比较”,他说。“例如,当他们使用激光时,
他们并没有真正讨论激光的能量消耗。”
实验室系统需要扩大规模才能展现竞争优势。“你需要做多大才能赢?”McMahon问道。答
案是:需要非常大。这就是为什么没有人能够匹敌Nvidia生产的芯片,该公司的芯片驱动着
当今许多最先进的人工智能系统。在这一过程中还有一系列需要解决的工程难题——这些是
电子方面几十年来已经解决的问题。“这最终将成为一个极具挑战性的问题”,Harris表示
。
一些研究人员认为,基于ONN的人工智能系统将首先在提供独特优势的专业应用领域取得成
功。Shastri表示,其中一个有前景的应用是在对抗不同无线传输之间的干扰,例如5G蜂窝
塔和帮助飞机导航的雷达高度计之间的干扰。今年初,Shastri和几位同事创造了一个ONN,
可以即时分类不同的传输,并在处理延迟低于15皮秒(15兆分之一秒)的情况下选择出感兴
趣的信号——这比电子系统需要的时间少了一千分之一,而且功耗还不到电子系统的1/70。
但是McMahon表示,宏伟的愿景——一个可以超越电子系统在一般用途上的光学神经网络—
—仍然值得追求。去年,他的小组进行了模拟,显示在十年内,一个足够大的光学系统可以
使某些人工智能模型的效率超过未来电子系统的1000倍以上。“现在许多公司正在努力争取
1.5倍的好处。一千倍的好处,那将是令人惊叹的”,他说。“这可能是一个需要10年的项
目——如果成功的话。”