【原创】回应美国断供EDA和IP,中科院发布的“启蒙”系统让美国网友惊呼“又一个市场丢了!”

作者:电子创新网张国斌

5月30日,美国政府为了遏制中国半导体的发展,突然宣布对中国断供EDA和IP ,详见《这次美国EDA断供远比传闻严重!但危中有机!》,近日,中国科学院计算技术研究所处理器芯片全国重点实验室联合软件研究所,宣布推出全球首个基于人工智能技术的处理器芯片软硬件全自动设计系统——“启蒙”。


该系统可以实现从芯片硬件到基础软件的全流程自动化设计,在多项关键指标上达到人类专家手工设计水平,标志着我国在人工智能自动设计芯片方面迈出坚实一步。

该系统依托大模型等先进人工智能技术,可实现自动设计CPU,并能为芯片自动配置相应的操作系统、转译程序、高性能算子库等基础软件,性能可比肩人类专家手工设计水平。

其实,早在2023年,中国科学院计算所就宣布用AI技术设计出了世界上首个无人工干预、全自动生成的CPU芯片——启蒙1号。

1.png

该CPU基于RISC-V的32位架构,用5小时完成,比GPT-4能设计出的电路规模大4000倍,采用65nm工艺,频率达到300MHz,性能与英特尔486系列CPU相当,可运行Linux操作系统,相关成果于2023年6月27日发表在arXiv预印本平台上。

2.png

启蒙1号和启蒙2号的性能对比

现在,其升级版“启蒙2号”为国际首个全自动设计的超标量处理器核,达到ARM Cortex A53性能,规模扩大至1700万个逻辑门。

在基础软件方面,“启蒙”系统同样取得显著成果,可自动生成定制优化后的操作系统内核配置,性能相比专家手工优化提升25.6%;可实现不同芯片和不同编程模型之间的自动程序转译,性能最高达到厂商手工优化算子库的2倍;可自动生成矩阵乘等高性能算子,在RISC-V CPU和NVIDIA GPU上的性能分别提高110%和15%以上。

显然,“启蒙”的发布是回应美国断供中国EDA和IP,明明白白告诉美国:我不用EDA和你的IP一样可以设计出芯片,此新闻一发布,让美国网友惊呼“又一个市场让蠢货给搞丢了!”

外媒报道的题目是《中国人工智能芯片工具启蒙击败工程师,仅用几天时间就设计出处理器

3.png

而美国网友的评论更有意思:

4.png

这个大聪明网友说:“就在一两周前,我们开始“施压”各家公司不要出售芯片设计软件(EDA)给中国但现在……人家甚至不再需要它了。又一个市场被那些目光短浅、试图扮演“托尼亚·哈丁”的人搞丢了,仿佛这个角色值得追求。

(注:托尼娅·哈丁是一名已退休的美国女子花样滑冰运动员。她在1991年世界花样滑冰锦标赛得到女子单人花样滑冰的银牌,1992年和1994年得到美国花样滑冰锦标赛女子单人花样滑冰的金牌。她也是女子滑冰史上第二位,美国第一位在比赛中完成三周半跳的运动员。

5.png

另一位大聪明网友说:“上周我们试图切断他们与芯片设计软件的联系。这周我们彻底失去了这个市场。看来他们已经准备好应对我们的行动了。

6.png

还有一位网友说:“千万别低估了中国人的创新能力!”

7.png

在中科院正式公布的论文中详细介绍了启蒙系统的架构,QiMeng 包含三个层次。在底层,构建了一个面向特定领域的大型处理器芯片模型 (LPCM: Large Processor Chip Model),在架构、训练和推理方面引入了新颖的设计,以应对知识表示缺口、数据稀缺、正确性保证以及巨大的解空间等关键挑战。

在中间层,利用 LPCM 的知识表示和推理能力,开发了硬件设计代理和软件设计代理,以实现处理器芯片软硬件设计的自动化。顶层则是各种处理器芯片设计应用程序。

QiMeng 在AI应用于芯片设计上有很多创新,例如开发人员基于软件设计代理开创了一种名为 QiMeng-GEMM 的自动化方法,用于生成具有矩阵乘法(即 GEMM)的高性能库,QiMeng-GEMM 是第一个利用 LLM 自动生成高性能 GEMM 代码的方案。具体来说,我们抽象出了常见的 GEMM 优化方法和硬件架构特性,并为 LLM 创建了一组通用的元提示,用于生成高性能矩阵乘法运算符。这些元提示使 LLM 能够通过捕捉不同平台的架构特性来理解和实现优化目标。然后,开发人员将软件设计代理中的性能反馈回路与思维树(ToT:Tree of Thoughts)技术系统地探索优化原语组合。这能够探索由元提示生成的所有可能的优化序列,从而能够生成针对不同硬件架构特性定制的高性能矩阵乘法算子。

此外,开发人员还提出了 QiMeng-TensorOp,这是首个利用 LLM 自动生成具有硬件原语的高性能张量算子的方法。使 LLM 能够理解特定平台的架构和优化策略。

开发人员还提出了 QiMeng-Attention,这是第一个用于跨平台注意力算子生成的硬件感知自动化框架。中科院提出了一种 LLM 友好的思维语言 (LLM-TL),帮助 LLM 解耦高级优化逻辑的生成和 GPU 上的低级实现,并增强 LLM 对注意力算子的理解。结合两阶段推理工作流程、TL 代码生成和翻译,LLM 可以在不同的 GPU 上自动生成 FlashAttention 实现,从而为在以注意力为中心的算法中生成高性能注意力算子建立了一个自优化范式。

中科院称目前已经在玄铁C910开发板、MuseBook (K1) ,ARM A76 和 NVIDIA GPU(RTX 4070 、RTX 8000 ,T4 和A100等不同平台上验证了这些方法,见下表。

8.png

在RISC-V平台上,QiMeng-GEMM和QiMeng-TensorOp生成的高性能矩阵乘法算子分别可以达到OpenBLAS性能的211%和251%。在NVIDIA平台上,它们分别可以达到cuBLAS性能的115%和124%。

与传统的LLM快速方法相比,该方法显著提高了生成代码的性能,提高了开发效率。为了验证Qimeng-Attention的性能,我们在各种NVIDIA硬件架构上进行了实验。在NVIDIA T4平台和NVIDIA RTX8000平台上,Qimeng-Attention生成的高性能注意算子与所有四种实现相比始终具有优异的性能指标。

正如那位美国网友所言:“千万别低估了中国人的创新能力!”在美国政府试图通过EDA工具遏制中国半导体发展的时候,我们已经开始用AI设计芯片了,这是真正的与时俱进和另辟蹊径,目前,国际三大家EDA也很早就开始利用人工智能加速芯片设计,但是他们的思路还停留在让AI去优化目前工具效率,而中科院的启蒙系统则开启了一个新的思路,有些人大聪明会说那它会设计3nm的芯片吗? 我相信会的,随着系统不断迭代和升级,更复杂的芯片一定可以设计出来!

汽车刚设计出来的时候,不是有人嘲笑它还没有马车快吗?

注:本文为原创文章,未经作者授权严禁转载或部分摘录切割使用,否则我们将保留侵权追诉的权利