光计算原理介绍

一、背景介绍

  现如今,“大数据”(Big Data)时代提供了海量的数据,人工智能(artificial intelligence,AI)在自动驾驶,智能教育,语音识别等领域中的应用越来越广泛。人工神经网络(Artificial Neural Network,ANN)算法相关的机器学习(Machine Learning,ML)技术,作为AI领域中重要的计算模型,为AI的发展提供了动力,推动人类社会进入智能化时代。

图示

图1.人工智能应用


  但人工神经网络强烈依赖于矩阵乘法,其训练和推理过程本质上是对矩阵参数进行调制、优化后与外界传输的数据进行数学乘法。但在目前,随着神经网络的规模不断扩大(深度学习模型的规模每3.5个月就翻一番),训练量也不断增大,需要更密集的矩阵计算,因而对算力的需求正在以惊人的速度增长。光子数据处理以其低功耗,高带宽,低延迟特性非常适合人工智能和深度学习时代。

 

二、光计算发展历程

日程表 AI 生成的内容可能不正确。

图2. 光计算历程

 

  20世纪40年代,光计算开始启蒙,1946年杜费把傅立叶变换引入光学中开始发展出傅立叶光学。60年代激光问世,密西根大学利用光学傅立叶变换,借助于凸透镜完成雷达数据处理实验,奠定并行光学模拟信息处理基础。

 

  自从1980年以后,学术界对神经形态计算的研究就活跃起来。在早期的开创性工作之后,Rumelhart,Hinton和Williams于1986年发表了一篇论文,描述了用于训练多层网络的误差反向传播方法。80年代后期,若干种模拟超大规模集成电路相继实现,并同时进行了模拟光学演示。第一个实验实现的光学神经网络是32个具有反馈的神经元的完全连接网络,该进展激发了学术界关于光神经网络的研究。

 

  光学神经网络的下一个主要阶段是动态非线性晶体的引入,这样可以实现平面排列的光电神经元之间的自适应连接。除了其动态特性之外,非线性晶体因为其三维(3D)器件的属性,它们可以存储更多的权重信息。例如,在1993年发表的一项的演示中,研究人员训练了一个光学两层网络,通过在单个光折射晶体中存储约10亿个权重,可以非常准确地识别人脸。光电子学和硅光子学的重大改进,特别是伴随着超大型网络的出现,促使许多研究人员重新审视以光学方式实现神经网络的想法。

 

三、光计算器件

  常见有这些光器件

  光波导

  光波导是引导可见光段中的电磁波的物理结构。常见类型的光波导包括光纤和矩形波导。光波导可用作集成光路中的组件或用作本地和长途光通信系统中的传输介质。光波导可根据其几何形状(平面、条带或光纤波导)、模式结构(单模、多模)、折射率分布(阶梯或梯度折射率)和材料(玻璃 、 聚合物、半导体)进行分类。


光电耦合器

  光电耦合元件是以光(含可见光、红外线等)作为媒介来传输电信号的一组装置,其功能是平时让输入电路及输出电路之间隔离,在需要时可以使电信号通过隔离层的传送方式。光电耦合元件(optical coupler,或photo coupler),亦称光耦合器、光隔离器以及光电隔离器,简称光耦。光电耦合元件可以在二个不共地的电路之间传递信号,二电路之间即使有高压也不会影响。光电耦合元件广泛用于电气隔离、电平转换、驱动电路及工业通讯中,但因为寄生输入输出电容问题,其共模瞬变抑制(Common-Mode Transient Immunity)能力较弱,此外,其速度受限、光电耦合元件的功耗较高,以及元件容易老化都是其问题。


马赫曾德尔干涉仪

  马赫-曾德尔干涉仪(Mach-Zehnder Interferometer)是一种干涉仪,可以用来观测从单独光源发射的光束分裂成两道准直光束之后,经过不同路径与介质所产生的相对相移变化。这仪器是因德国物理学者路德维希·马赫(恩斯特·马赫之子)和路德维·曾德尔而命名。曾德尔首先于1891年提出这构想,后来马赫于1892年发表论文对这构想加以改良。硅光芯片里的MZI型调制器中,入射光首先通过50/50分光比的分束器分为两路进行传播,传播过程下上下两臂存在着一定的相位差,接着再通过合束器将两路光合并到一起进行干涉。相位差信息会体现输出光的强度上。相位差为0,发生相长干涉,光强输出为1。相位差为pi时,发生相消干涉,光强输出为0。


功率分配器

  通常是一种对称性器件,将来自于一个直波导的能量等分到两个输出波导中。


定向耦合器

  这种器件具有两个输入端口和两个输出端口,由两个空间上靠 近的波导组成. 其工作原理是,在两个接近的波导之间,由于导波模式中隐失波重叠,实现周期性光能量交换。


相位调制器

  相位调制器用于调整一个光束的相位,由通道波导组成,该通道波导制造在一个利用外场(热、声、电等)可以改变衬底折射率.最为普通的相位调制器的是基于电光效应:将电场应用到电光材料中,如铌酸锂,诱导了其折射率的变化。


四、光计算原理

  矩阵乘法是一种典型的线性运算,可使用光子线性计算单元来加速。可编程的光子矩阵计算(Optical Multiply Accumulate,oMAC)有望在摩尔定律失效后继续支持算力的不断提升,为数字经济时代提供强劲的硬件基础设施。


oMAC (Optical Multiply Accumulate)- 光学乘积累加运算

  对于每个光学乘积累加运算,输入向量值首先从片上存储中提取,由数模转换器转换为模拟值,通过电子芯片和光子芯片之间的微凸点应用于相应的光调制器,形成输入光矢量。接着,输入光矢量通过光矩阵传播,产生输出光矢量,并达到一组光电探测器阵列,从而将光强转换为电流信号。最后,电信号通过微凸点返回到电子芯片,通过跨阻放大器和模数转换器返回数字域。


图标 AI 生成的内容可能不正确。

图3. 光计算单元


  相比于传统的CMOS数字电路,光子矩阵计算最显著的优势在于低延迟。由于计算的 过程即为光信号阵列在芯片中传输的过程,计算本身的延迟即可看作光在芯片中传输的时间,一般在1ns以下。如图3所示,对于一个N×N 的脉动矩阵运算单元,其延迟正比于O(N)。一些专门优化延迟的架构,在矩阵规模较小的情况下,延迟可以接近O(logN) 。而光子矩阵计算消耗的时间主要来自于光电转换和数模转换,一般为数个时钟周期,和矩阵的尺寸几乎无关,相当于O(1)。单次光子矩阵计算的延迟可以做到 3ns以下。因此,在N较大的情况下,光子矩阵计算的延迟优势非常明显。除此之外,传统的数字计算,在28nm等相对成熟的制程下,较难实现全局1GHz以上的主频。而光子矩阵计算的控制电路达到数GHz的频率的难度较低,从而进一步提高了延迟优势。


图示 AI 生成的内容可能不正确。

图4. 光计算原理

 

  除了延迟优势以外,光子计算还拥有低能耗的特点。对于N×N 的数字矩阵运算单元,其能耗为k×N,其中k与单次乘加的功耗有关,正比于O(N)。而对于光学矩阵乘法器,它的功耗可用k1×N+k2×N2 ,k1 与向量输入和接收端的功耗关联,而 k2 与矩阵权 重部分的功耗关联。在矩阵本身刷新速度远低于信号输入的情况下,其能耗主要来自于前半部分,因此正比于O(N)。在光学器件和其控制电路被较好的优化前提下,基于相对传统制程的光子计算的能效比可媲美甚至凌驾先进制程的数字芯片。


五、光计算硬件

PACE

  PACE (Photonic Arithmetic Computing Engine) 是曦智科技于2021年发布的光子计算处理器。PACE的核心是64x64的光学矩阵乘法器,其由一块集成硅光芯片和一块CMOS微电子芯片以3D封装形式堆叠而成。光子计算具有高通量、低延时、低功耗等特点。


图片包含 监控, 桌子, 关, 游戏 AI 生成的内容可能不正确。

图5. PACE


  PACE的单个光子芯片中集成超过10000个光子器件,运行1GHz系统时钟,运行NP完全计算问题的速度可达目前高端GPU的数百倍。PACE成功验证了光子计算的优越性,是曦智科技在集成电路产业的又一重大突破。基于光执行矩阵向量乘法时延极低的基本原理,PACE通过重复矩阵乘法和巧妙利用受控噪声组成的紧密回环来实现低延迟,从而生成了伊辛问题(Ising)和最大割/最小割问题(Max-cut/Min-cut)的高质量解决方案。


图示 AI 生成的内容可能不正确。

图6. PACE计算过程

 

PACE特点

  • 采用与CMOS兼容的硅光工艺平台,光-电协同设计,结合先进封装技术

  • 高速可调、小尺寸电光调制器设计

  • 新颖的计算架构⸺基于MZI结构的相干/非相干方案

  • 硬件 - 算法的协同优化


PACE性能

  PACE主要利用了光计算的低延迟优势。其可在3纳秒内完成伊辛问题单次迭代计算,速度达到目前高端GPU的800倍以上。


图形用户界面, 应用程序 AI 生成的内容可能不正确。

 

图7. PACE计算速度

 

应用领域

  光计算可广泛应用于多个领域中。


生物信息

  为分子结构基因测序、分子序列分析、代谢途径等生物信息学研究问题提供高效的计算能力,进一步应用于更多医疗健康领域。 例如,对蛋白质由氨基酸按一定顺序结合形成的多肽链组成,它们以无数方式折叠成各种独特 的三维形状,蛋白质的三维形状决定其在人体内的功能。伊辛模型可以预测其中部分蛋白质结构。


路径规划

  加速不同路径规划的搜索算法,可用于车辆行驶规划、物流管理、配送服务,旅行商问题(TSP)。当旅 行者在多个城市之间旅行时,寻求连接这些城市的最短路径,这个问题最直接的解法是穷举所有可能情况,然后找出最短路径。但在实际计算中会发现,所需计算量会随着城市数量的增多呈指数式暴增,穷举法就变得不再适用。通过适当的映射,此类路径优化问题可以和伊辛模型对应起来,利用PACE计算出对应于伊辛模型基态的自旋构型。这一处理方法是目前优化问题中最高效、最可行的方案。


材料研发

  加速新材料研究中的仿真计算,适合于多种加工业与制造业在许多工业应用中,量身定制的材料是必需的,因为材料特性直接决定了组件的特性。但是,传统的尝试方法既昂贵又费时。可以应用伊辛模型解决离散组合的优化问题。


人工智能

  加速神经网络中的矩阵和线性计算,为诸多应用人工智能技术的行业提供算力提升。例如,图像分割主要是提取图像中的目标物体,进而进行图像的编辑,主要的目的是作为视觉处理的基础,以实现高层视觉中目标物体的识别。



参考文献

[1] [光子计算的70年进展](https://mp.weixin.qq.com/s/1Gs2o5BRS5o8uwh2NCQKzQ?)

[2] [西安交通大学-光电子学](http://gr.xjtu.edu.cn/c/document_library/get_file?folderId=2083123&name=DLFE-69802.pdf)

[3] [光电耦合器件](https://zh.wikipedia.org/wiki/光電耦合元件)