改变智能芯片版图的黑科技-GDDR6/6X Combo IP

(作者:芯动科技 伍江华)

前言

不久前,芯动科技Innosilicon推出的“风华1号”高性能GPU引起了市场高度关注,160-320G Pixel/s渲染、5-10T Flops浮点算力、AI算力最高50Tops。

对于一款高性能GPU而言,算力是最核心的指标,而实现算力最基础的技术就是高带宽数据交换。如果说把GPU比作智能芯片中的战斗机,那么GDDR内存交互访问技术,就是配套的高速跑道了。GDDR6/6X接口技术成为各个大厂旗舰机的标配,这也是“风华1号”GPU能够在市场上领先竞争对手的重要原因之一!

图片1.png

▲GDDR6/6X Combo IP是风华GPU高带宽的核心技术

今天,我们一起深入探讨一下GDDR内存技术在Soc中的重要性和发展历程,GDDR6/6X接口如何满足高算力GPU对高带宽数据交换的需求。

GDDR和GPU的关系

说起GDDR就必须要先讲GPU的发展历史,图形处理器GPU(Graphics processing unit),作为CPU的协处理器加速卡,早期主要对游戏、视频、图像等应用进行加速。

图像的计算包含了顶点着色、屏幕映射、片元着色、裁剪、三角形遍历等大量数学运算,GPU在大规模、并发计算上对比CPU有着先天的优势。

图片2.png

▲ GPU主要实现的算法结构

GPU基于图形处理的架构上,有成百上千个计算核心,在高性能计算、并行计算、矩阵运算上有巨大优势,所以在需求的推动下,GPU自然成为了当下人工智能、高性能计算的硬件核心平台。

图片3.png

与CPU相比,GPU的多核心计算架构有利于并行矩阵运算

由于GPU的架构有成百上千个运算核心,因此并行计算的流水线数据流,并不适用传统的CPU+DDR数据访问模型,相应的GDDR技术也就应运而生。

GDDR显存技术是主流先进GPU的标配

先进工艺半导体迅猛发展点亮了人工智能、自动驾驶、神经网络、高性能游戏等五光十色的海量新应用。而GPU作为高性能、高并发的基础算力平台,让黄教主和苏妈成为这个舞台最耀眼的双星!

图片4.png

英伟达的RTX、titan系列和AMD YES不断轰炸着大家的想象力天花板!

当所有的高性能GPU都在追求极致算力时,内存数据交换逐渐成了整个SoC的瓶颈,高带宽高速率的内存交换技术,成为提升GPU运算效率的关键要点。

图片5.png

图片6.png

▲ GDDR是GPU系统的核心数据交换技术

在需求的刺激和推动下,GDDR技术得到了飞速发展,DDR5 6.4Gbps/pin还没大规模铺开,GDDR早已经迭代到GDDR6X 21Gbps/pin速率了。一般DDR5的位宽为32~64bit,单Chip带宽为72Gbps,而GDDR6的带宽则达到叹为观止的512Gbps。

图片7.png

▲ GDDR的发展迅速超过了DDR

好马配好鞍,GDDR是GPU算力提升最重要的技术环节之一,为GPU高性能引擎铺平了高速赛道。

图片8.png

图片9.png

法拉利在泥巴里也跑不动!

GDDR主要优势

1、GDDR和传统的DDR做对比

§带宽优势

常规的DDR系列,是8、16位的预取,array 32~128bit,而GDDR5/6X是16n的预取,实现单个array 256~512bit的大块内容存取,单次Access granularity 32~64Byte,系统数据宽度能达到384bit,以满足GPU对高带宽的需求。

图片10.png

▲ GDDR5X/GDDR6的预取更大

图片11.png

▲ GDDR的结构和速率有利于更大的总线宽度

由于GDDR的颗粒array大,所以同等密度的情况下,列地址CA的宽度更小,如下图所示:

图片12.png

▲ LPDDR4的列地址为10bit,而GDDDR6X的列地址为6~7bit

以上技术特征表明GDDR的内存单元更大,读取长度大,数据总线宽,与传统DDR呈现出不一样的鲜明特征。

§管脚对比

GDDR5~GDDR6X使用管脚170~180 pin,而传统的LPDDR4需要200个pin,当然比起DDR3 80~90pin还是有显著增长,但是获得的带宽收益更大。

GDDR和DDR则各有千秋。

GDDR在带宽、核心速率、管脚少的特点在GPU、NPU、AI等高并发计算等应用上有极大优势。DDR在随机访问、突发读写延时较小、高密度内存颗粒应用上,搭配CPU仍然更有优势。

2、最新的现存颗粒指标性能

GPU发展一日千里,各种旗舰机层出不穷的同时,GDDR的进步也毫不逊色,甚至大有技高一筹势头。

图片13.png

▲ 美光的GDDR颗粒在GPU旗舰机的搭载对比

美光的主要显存颗粒在各个旗舰GPU上搭配应用,对于超大带宽的应用,美光在3个维度做出了对比。

图片14.png

▲ 主流GDDR性能比较

GDDR6X已经达到21Gbps/pin速率、1TB/S带宽,GPU大厂都表示“这么大的带宽,我要搞多高算力才配用这么大带宽的GDDR颗粒嘛?”真是GDDR有多大胆,GPU有就有多大产!

美光于2020年9月宣布推出基于GDDR6X内存颗粒的超带宽解决方案产品,英伟达在高性能旗舰卡GeForce RTX 3090和GeForce RTX 3080 GPU中首次搭载了该显存颗粒。

GDDR6X与英伟达GeForce RTX 系列GPU的搭配引领了最先进的图形处理设备,榨干了我们的想象力,也榨干了玩家们钱包!

图片15.png

▲ GeForce RTX 3080 Ti + GDDR6X 12GB显存颗粒

图片16.png

▲  醒目的32GB GDDR6X喊着玩家快点打钱!

芯动率先推出商用GDDR6/6X combo IP

为全球智能芯片提供加速服务

作为数据交换基础的GDDR技术对于智能芯片发展重要性不言而喻。自动驾驶、人工智能、游戏引擎等产品需求呈现井喷式增长,而与之配套的GDDR6/6X高带宽接口技术因为太过复杂、工艺先进,在商用IP市场上的选择并不多。

因此,GDDR6/6x显存技术的发展需要颗粒厂商,IP技术公司和智能芯片公司共同的推动。

2021年美光和芯动共同开发推出首个硅验证GDDR6/6X Combo IP,为更多的芯片公司提供了GDDR6/6X的高带宽核心技术!

美光甚至表示:这个 IP 改变了人工智能的版图!

芯动科技的GDDR6/6X PHY和Controller IP 基于14纳米工艺,应用PAM4信号技术,单pin速率高达 21 Gbps,256 位宽度,系统带宽超过5Tb/秒,满足了众多高带宽热门应用,如图像处理,游戏引擎、信号分析和人工智能等。

图片17.png

▲ 全球首个商用GDDR6/6X Combo IP量产

图片18.png

▲ 21Gbps GDDR6X PAM4 DQ眼图

图片19.png

▲ GDDR6 WCK眼图 15GHZ

图片20.png

▲ GDDR6 DQ眼图5Gbps

芯动科技也成为实现从GDDR5到GDDR6X全覆盖的IP厂商,GDDR6X这个节点更是成为第一款商用量产IP,为全球广泛高性能芯片公司提供了重要的接口技术!

GDDR6/6X Combo IP技术解读

·PAM4信号技术

图片21.png

▲ PAM4信号技术框架-有4个相位-单cycle发送2bit信息

图片22.png

▲ QDR技术实现了每个时钟采集4个信号,满足PAM4的信号速率要求

·GDDR6和GDDR6X架构图对比

图片23.png

▲ GDDR6和GDDR6X的结构对比(请注意时钟和数据采样的倍频关系)

GDDR6X和GDDR6最大不同的地方在于数据通道利用PAM4技术实现4倍的取样速率,实现21Gbps的单端速度。

图片24.png

▲ GDDR6X-时钟频率和PAM4的倍频关系

主要的技术难点

·PAM4的信号要求高速采样速率

图片25.png

▲ 低电压带来功耗优势,但是对信号提出苛刻的要求

为了满足高带宽要求,GDDR6X将核心频率设定为2.5GHZ,对比传统DDR5(400~800MHZ核心频率),为了实现预取的数据取样要求,换算2.5G x 16预取 ÷ 2 (PAM4) =20Gbps,于是I/O速率必须大于20Gbps才能完成采样。

GDDR6/6X的VDDQ电压1.25/1.35v、速率16~21Gbps高速信号,对内部高速缓存、IO(125~135pins)的设计、走线、封装都提出了极为挑剔的要求,任何微小的噪音在经过衰减路径之后,都将导致信号眼图无法张开。

图片26.png

▲ GDDR6(8Gbps)和GDDR6x PAM4(16Gbps)的DQ眼图对比

·超低电压对先进晶圆工艺的要求

图片27.png

▲ FinFet工艺对IP的设计有着极高的要求

GDDR6/6X IP速率高,电压幅值低,必须使用先进FinFet工艺,先进工艺的验证成本高,单次流片要200~300万美元,设计收敛规则复杂,测试设备和成本高昂,对研发团队的经验有极高要求。

芯动提供整套技术打包方案

除了GDDR6/6X Combo PHY+Controller本身,设计企业仍然面临着复杂的布线、封装等问题,在量产之前每一个技术点都有风险,对此,芯动提供打包的一站式方案。

芯动提供IP配套的IO走线、封装设计、PCB板级参考、信号完整性分析等,大大降低了用户的风险和集成时间,真正一站式将全球领先的GDDR6/6X技术部署到SoC中,实现超大带宽的内存访问。

图片28.png

图片29.png

▲ PCB走线参考方案

图片30.png

图片31.png

▲ 信号完整性分析-返回损耗和插入损耗

结语

芯动在先进工艺IP有着大量的量产和验证经验,从DDDR5/4/3/2到LPDDR5/4/3/2,以及领先的GDDR5/5X、GDDR6/6X、HBM3、Innolink Chiplet、32/56G Serders等等,芯动率先投入了巨大的研发力量进行量产验证,为广泛的高性能SoC提供了高速接口方案,为全球高性能芯片提供加速服务!

1.png

▲ HBM3 6.4Gbps高速眼图

2.png

▲ 全球首个GDDR6/6X Combo IP量产

3.png

4.png

▲32/56G SerDes眼图(支持PCIE5/SATA/USB3.0/SGMII/MIPI等高速协议)

5.png

▲ 风华1号应用Innolink Chiplet,GDDR6/6X 等先进接口IP

这些先进IP在技术层面互相依赖、相互关联,每一项单独拿出来在市场上都是独步领先的技术,更可贵的是以上的实物图可不是PPT产品,是16年来芯动团队在CEO敖海先生的带领下持续投入、专注研发、长期耕耘的收获,在当下浮躁的资本炒作造芯环境下显得尤为可贵。

6.png

▲ 芯动科技CEO敖海先生

芯动的先进IP技术,一方面引领行业技术创新,塑造半导体企业的全球化长远发展视野,另一方面满足高性能芯片的市场需求,助力高端芯片发展,脚踏实地发展创新技术!

7.png

▲ 丰富的应用场景

芯动16年来重兵投入全球先进工艺、专注高端IP研发,在高性能计算平台、多媒体终端&汽车电子平台、IoT物联网平台等应用领域打造了核心优势,超过200次的流片记录、逾60亿颗授权量产芯片、10亿颗以上高端定制SoC量产,默默耕耘、脚踏实地,为赋能高端芯片做出重要贡献!

最新文章