大规模智能视觉生成的全光芯片

  2025年12月19日上海交通大学陈一彤团队在Science上发表论文“All-optical synthesis chip for large-scale intelligent semantic vision generation”。这项研究中开发了一款用于大规模智能视觉生成的全光芯片,命名为”LightGen”。LightGen中集成了超过200万个光子神经元,通过提出的由单模光纤阵列构成的光学潜空间(Optical Latent Space, OLS)改变网络维度,配合无监督贝叶斯训练算法,实验上实现了高分辨率的语义图像生成、去噪、风格迁移、三维生成和操作。测得的端到端的能效比最先进的电芯片高出两个数量级以上。当在特定任务中达到与Stable Diffusion、StyleGAN、NeRF和VGG-19相当的性能时,LightGen的端到端计算速度、能效和计算密度分别达到了3.57×10 TOPS、6.64×10² TOPS/W和 2.62×10² TOPS/mm²。


图:LightGen可实现的生成任务


背景介绍:

  光计算(Photonic computing)被认为是重塑传统计算范式的最具有潜力的途径之一,已经在计算速度和能效方面相比最先进的GPU具有了数量级的优势。然而,目前大多数端到端的研究突破限制在判决任务,例如图像和元音分类。这一困境的主要成因有:

1.       规模限制:现有的集成光计算芯片集成的神经元数量有限,无法满足先进的生成模型的规模需求。

2.       维度限制:模拟光信号中不存在维度的变化,难以满足生成模型对于维度变化的需求。

3.       训练算法:生成式AI需要不依赖预定义真实标签的无监督算法。

  为了解决以上问题,陈一彤团队提出了名为LightGen的全光生成芯片。


图:LightGen的尺寸对比和显微照片;带有光子编码器、OLS、光子生成器的LightGen的示意图


LightGen的基本架构及原理:

  LightGen将 “编码-潜空间-生成”过程完全迁移到光学域。其中光子编码器(Encoder)由集成衍射超表面构成,面积小于35mm2,用于图像的特征提取。编码后的光场通过耦合进入单模光纤阵列进行特征子采样,同时利用光的幅度和相位进行编码。


图示 AI 生成的内容可能不正确。

图:LightGen的结构


  得益于单模光纤只允许基模传输的特性,OLS可以在全光条件下完成模拟光斑维度的转换。LightGen利用光斑所携带的复数信息来表征高维潜变量。光纤阵列中每一个单模光纤对应一个光斑内,形成具有不同幅度和相位的高斯光斑阵列。


图:LightGen中通过单模光纤阵列实现模态转换进而实现维度变化的过程


  通过实验,证明了OLS的功能与电子变分自编码器(VAE)及β-VAE相当。在对不同毛色的狗进行聚类的实验中,光子编码器将原始图像嵌入到100维光学潜空间中并通过t-SNE进行降维可视化。实验结果中不同毛色的狗被成功聚类,说明OLS可以有效嵌入图像中的细粒度特征。

  在训练方面,LightGen采用基于贝叶斯方法的无监督训练方法(BOGT),通过引入对语义数据概率分布的建模提升生成质量。


图:使用t-SLE进行子采样的OLS示意图。具有不同前景和背景特征的图像在所提出的OLS中以无监督方式聚类


语义图像生成、去噪、风格迁移结果:

LightGen能在高分辨率彩色图像上执行语义图像生成、去噪和风格迁移等多种任务。

1.     针对动物类别的生成



  LightGen可生成512×512分辨率的动物图像,涵盖不同类别、颜色、表情和背景。放大区域显示了丰富的细节,如毛发纹理和眼睛反射光。



  实验结果显示,生成图片在参与分类时的分类准确率与真实测试数据相当,表明生成的数据在整体和细节特征上接近自然数据。


2.     语义去噪



  LightGen得益于自由空间模式与单模光纤基模之间的信息容量差异,在坏匹配像素比例(PBMP)较高的前提下,仍能有效去噪。


3.     风格迁移任务



  LightGen实现了梵高风格、马列维奇风格和马赛克风格的多种转换,定性与定量性能均可与VGG-19、StyleGAN和StyleID等相媲美。


4.     连续性结构生成结果



  LightGen在处理全局结构和连续曲线方面具有显著优势,避免了块间不连续和结构破坏问题。


5.     3D生成与语义操控


日历 AI 生成的内容可能不正确。


  LightGen在室内场景中生成了包含多种家具的256×256分辨率图像。通过二维投影训练,无监督地学习了物体地三维结构及其在OLS中的表示,性能可与NeRF相当。通过操控OLS,可以生成不同风格和视角的三维家具,其定性和PSNR指标均与NeRF相当。

性能对比:



  在保守估计下,LightGen在实验中实现了3.57×10 TOPS的计算速度、6.64×10² TOPS/W的能效和2.62×10² TOPS/mm²的计算密度,均比NVIDIA A100高出两个数量级以上。若采用更高速的空间光调制器,其理论计算速度可达5.69×10 TOPS。


  原文链接:https://www.science.org/doi/10.1126/science.adv7434