【原创】曦智科技放大招!新一代光电混合计算卡让中国光子计算全球领先!

作者:电子创新网张国斌

1.png

曦智科技创始人兼CEO沈亦晨博士

“今天是光子计算的Roadster时刻!”3月25日,在曦智科技在上海办公室曦智科技光电混合计算卡“曦智天枢”发布现场,外表看起来像一个刚毕业本科大学生的曦智科技创始人兼CEO沈亦晨博士感慨道,“它的发布就如同当年特斯拉推出的第一代量产车型Roadster--它并不是要去替代燃油车,而是证明了电动汽车可以与传统燃油跑车相媲美,推动了整个电动汽车行业的发展,今天我们发布的新一代计算卡也证明了光电混合计算在商用计算领域大有可为,前景一片光明,在这个领域中国在全球领先!”

“但大家也不要过度去吹捧光子计算,它不为了去替代目前的GPU等计算卡,而是一种新的计算方式,我们的应用是去替代一些电芯片计算遇到挑战的领域。”他补充说,“曦智天枢首次实现了光电混合计算在复杂商业化模型中的应用,是曦智科技光电混合算力技术在产品化和商业化进程中的重要突破。我们坚信,光电混合将会为人工智能、大语言模型、智能制造等领域带来算力革新。”

2.png

曦智科技光电混合计算卡“曦智天枢”

相较于曦智科技 2021 年发布的光子计算处理器 PACE,天枢在光计算精度上实现了飞跃,优化了向量调制器的设计,支持 1GHz,向量提升至 uint4,权重精度支持 Int4,输出精度提升至 8bit。

3.png

曦智天枢主要参数

据介绍,天枢采用非相干架构,这种设计不仅易于系统扩展,还具备出色的抗干扰能力和更高的计算精度。天枢的核心处理器由光学处理单元(OPU)和电学专用集成电路(ASIC)组成,光芯片和电芯片通过3D先进封装技术协同工作,主频速率1GHz,输出精度8bit;其中光芯片面积达到600平方毫米,较上一代芯片提升3倍;光芯片上的器件数量超四万个,器件尺寸进一步缩小,集成度显著提升;天枢最大可支持128x128矩阵规模,是上一代芯片的4倍,运算能力和灵活性双重提升;用户通过API自由配置计算矩阵系数,使天枢拥有了更强的适应性和优化空间。

“近一两年,面对高级工艺被封锁,在突破算力方面,国内做了很多创新,如存算一体、流式计算等,但这些只解决了算力的带宽和效率问题,并不能提升晶体管密度也就是提升绝对算力,另外,随着高级工艺演进,数字芯片遇到了丹纳德微缩定律(Dennard Scaling)微缩问题,此外,随着晶体管尺寸不断缩小,接近原子级别的尺寸,量子隧穿效应等量子现象开始显现,导致漏电流增加、功耗增大、性能不稳定等问题。”沈亦晨博士指出,“而光子计算没有这个问题,当两个或多个光波在空间上重叠时,它们会互相干涉,产生强度增强或减弱的干涉图样,这种特性可以被用来模拟传统计算机的逻辑门操作如AND、OR和NOT门,多个光波可以同时进行干涉,因此可以同时执行多个逻辑运算,从而实现并行计算,此外光计算还有超低延迟以及通过波分复用实现算力叠加的特点。”

4.png

他表示如果光子计算要提高算力,可以通过增加光器件数量、通过提升矩阵规模、通过多载波复用、通过调制方式以及通过提升主频或者新材料来提升算力,所以光子计算未来在算力方面至少还有三个数量级的提升空间。

5 (1).png

6.jpg

曦智科技光电混合计算卡用户北京大学研究员常林现场分享了自己的使用体验。

7.jpg

8.jpg

“光子计算非常适合做线性计算!在人工智能计算中,线性计算用到很多,如线性回归中的模型表达、参数求解、线性分类中的感知机模型以及神经元的线性变换等等,在我们实际使用中,不管是雷达信号的处理还是医学影像图像的分割处理,它都显示出极大的优势,如对于雷达以及激光雷达的图像处理,实现了70% 计算加速!对于医学影像分割也实现了和高性能GPU一样的精度!”他指出。“极低的延迟也是它一个明显的优势!”

9.jpg

10.png

曦智科技首席技术官孟怀宇博士指出光子矩阵计算延迟可以低于5ns!

11.jpg

鉴于目前光子计算参数的上的不统一--如有的实验称光子计算效率是GPU的万倍等等,孟怀宇博士在发布会上首次对外提出了等效光算力(EOPP:Effective Optical Processing Power)标准。这是一个考虑了矩阵规模、输出精度、权重刷新速度等的综合算力评价方法,相比当前主流的电芯片指标计算方法,更符合光计算的原理和特点。“光电混合计算是未来的算力趋势,我们希望业界对于光子计算的算力能够拥有一个更客观的衡量标准”,孟怀宇博士表示。

今天发布另一个值得点赞的就是这个算力卡也是全球首个在600平方毫米基板上通过TSV实现3D堆叠封装的计算卡!

孟怀宇博士博士介绍,天枢采用光电混合3D TSV(Through Silicon Via,硅通孔)+ FlipChip(倒装芯片)封装技术。TSV的运用显著降低了光电芯片间的传输延迟,并提升了信号完整性和散热性能,同时能够节省芯片面积,为芯片设计提供更高的灵活性。孟怀宇博士表示:“曦智科技自创立之初就看到封装对于光电集成的重要性并不断努力攻克技术难关,TSV的成功落地解决了传统封装技术的瓶颈,其价值和意义是惠及整个光电混合产业的。”曦智科技首席运营官王泷表示这个3D堆叠封装的良率很高,足以支持大批量供货。

沈亦晨博士说今天发布的计算卡虽然不完全是100%国产化的产品,但不管是光芯片还是电芯片以及3D封装都可以是国产厂商完成!

他表示光电混合计算卡也支持目前流行的大模型,在软件开发方面,天枢搭载了曦智光电混合计算软件栈,其算子库包含RVV(RiscV Vector)算子,电矩阵(dMAC)加速算子,光矩阵(oMAC)加速算子, 支持CV类和LLM类模型,以及non-AI算子,如Ising,LineSolver等。用户借助曦智编译器,可以灵活地运用这些算子来构建高效的应用模型。此外,平台还支持用户自定义算子,通过OpenCL C/C++语言进行编译和优化,进一步扩展了算法开发的灵活性。

此外,他表示曦智科技的软件栈与主流框架如 Pytorch 和 ONNX 深度集成,客户可以通过软件栈直接使用天枢的光矩阵和电矩阵加速单元对模型和算法进行加速和验证,也可以将模型通过曦智编译框架编译部署在端侧进行推理。通过软件栈,天枢成功运行了深度卷积神经网络模型ResNet50及AI大语言模型LlaMA 2,首次实现了光电混合计算在商业化场景中的应用。

沈亦晨博士表示曦智科技的光电计算混合卡主要用场景是深度学习--用于推理深度神经网络,如卷积神经网络。 图像处理如图像识别、目标检测等任务以及科学计算如伊辛问题求解等。

王泷表示:“我们希望有更多的开发者和生态伙伴,通过天枢和我们一起探索光电混合算力更广阔的应用场景,向着光电混合算力商业化的方向共同前行。”

沈亦晨博士透露曦智科技已启动下一代光电混合计算产品的研发,“未来产品将会进一步提升计算能力,以支持更为复杂的商业化应用场景,为人工智能、算力中心提供新型算力支撑。”

这个更大的算力是多大?在参观曦智科技实验室时候,我看到一张产品roadmap写的是:

100000TPOS!(抱歉因现场不能拍照仅凭记忆复现)

对这个目标,老张一定要给大写的

12.png

注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利

最新文章