改变智能芯片版图的黑科技-GDDR6/6X Combo IP

winniewei -- 周三, 05/11/2022 - 16:23

（作者：芯动科技伍江华）

前言

不久前，芯动科技Innosilicon推出的“风华1号”高性能GPU引起了市场高度关注，160-320G Pixel/s渲染、5-10T Flops浮点算力、AI算力最高50Tops。

对于一款高性能GPU而言，算力是最核心的指标，而实现算力最基础的技术就是高带宽数据交换。如果说把GPU比作智能芯片中的战斗机，那么GDDR内存交互访问技术，就是配套的高速跑道了。GDDR6/6X接口技术成为各个大厂旗舰机的标配，这也是“风华1号”GPU能够在市场上领先竞争对手的重要原因之一！

图片1.png

▲GDDR6/6X Combo IP是风华GPU高带宽的核心技术

今天，我们一起深入探讨一下GDDR内存技术在Soc中的重要性和发展历程，GDDR6/6X接口如何满足高算力GPU对高带宽数据交换的需求。

GDDR和GPU的关系

说起GDDR就必须要先讲GPU的发展历史，图形处理器GPU（Graphics processing unit），作为CPU的协处理器加速卡，早期主要对游戏、视频、图像等应用进行加速。

图像的计算包含了顶点着色、屏幕映射、片元着色、裁剪、三角形遍历等大量数学运算，GPU在大规模、并发计算上对比CPU有着先天的优势。

图片2.png

▲ GPU主要实现的算法结构

GPU基于图形处理的架构上，有成百上千个计算核心，在高性能计算、并行计算、矩阵运算上有巨大优势，所以在需求的推动下，GPU自然成为了当下人工智能、高性能计算的硬件核心平台。

图片3.png

▲ 与CPU相比，GPU的多核心计算架构有利于并行矩阵运算

由于GPU的架构有成百上千个运算核心，因此并行计算的流水线数据流，并不适用传统的CPU+DDR数据访问模型，相应的GDDR技术也就应运而生。

GDDR显存技术是主流先进GPU的标配

先进工艺半导体迅猛发展点亮了人工智能、自动驾驶、神经网络、高性能游戏等五光十色的海量新应用。而GPU作为高性能、高并发的基础算力平台，让黄教主和苏妈成为这个舞台最耀眼的双星！

图片4.png

▲ 英伟达的RTX、titan系列和AMD YES不断轰炸着大家的想象力天花板！

当所有的高性能GPU都在追求极致算力时，内存数据交换逐渐成了整个SoC的瓶颈，高带宽高速率的内存交换技术，成为提升GPU运算效率的关键要点。

图片5.png

图片6.png

▲ GDDR是GPU系统的核心数据交换技术

在需求的刺激和推动下，GDDR技术得到了飞速发展，DDR5 6.4Gbps/pin还没大规模铺开，GDDR早已经迭代到GDDR6X 21Gbps/pin速率了。一般DDR5的位宽为32~64bit，单Chip带宽为72Gbps，而GDDR6的带宽则达到叹为观止的512Gbps。

图片7.png

▲ GDDR的发展迅速超过了DDR

好马配好鞍，GDDR是GPU算力提升最重要的技术环节之一，为GPU高性能引擎铺平了高速赛道。

图片8.png

图片9.png

▲ 法拉利在泥巴里也跑不动！

GDDR主要优势

1、GDDR和传统的DDR做对比

§带宽优势

常规的DDR系列，是8、16位的预取，array 32~128bit，而GDDR5/6X是16n的预取，实现单个array 256~512bit的大块内容存取，单次Access granularity 32~64Byte，系统数据宽度能达到384bit，以满足GPU对高带宽的需求。

图片10.png

▲ GDDR5X/GDDR6的预取更大

图片11.png

▲ GDDR的结构和速率有利于更大的总线宽度

由于GDDR的颗粒array大，所以同等密度的情况下，列地址CA的宽度更小，如下图所示：

图片12.png

▲ LPDDR4的列地址为10bit，而GDDDR6X的列地址为6~7bit

以上技术特征表明GDDR的内存单元更大，读取长度大，数据总线宽，与传统DDR呈现出不一样的鲜明特征。

§管脚对比

GDDR5~GDDR6X使用管脚170~180 pin，而传统的LPDDR4需要200个pin，当然比起DDR3 80~90pin还是有显著增长，但是获得的带宽收益更大。

GDDR和DDR则各有千秋。

GDDR在带宽、核心速率、管脚少的特点在GPU、NPU、AI等高并发计算等应用上有极大优势。DDR在随机访问、突发读写延时较小、高密度内存颗粒应用上，搭配CPU仍然更有优势。

2、最新的现存颗粒指标性能

GPU发展一日千里，各种旗舰机层出不穷的同时，GDDR的进步也毫不逊色，甚至大有技高一筹势头。

图片13.png

▲ 美光的GDDR颗粒在GPU旗舰机的搭载对比

美光的主要显存颗粒在各个旗舰GPU上搭配应用，对于超大带宽的应用，美光在3个维度做出了对比。

图片14.png

▲ 主流GDDR性能比较

GDDR6X已经达到21Gbps/pin速率、1TB/S带宽，GPU大厂都表示“这么大的带宽，我要搞多高算力才配用这么大带宽的GDDR颗粒嘛？”真是GDDR有多大胆，GPU有就有多大产！

美光于2020年9月宣布推出基于GDDR6X内存颗粒的超带宽解决方案产品，英伟达在高性能旗舰卡GeForce RTX 3090和GeForce RTX 3080 GPU中首次搭载了该显存颗粒。

GDDR6X与英伟达GeForce RTX 系列GPU的搭配引领了最先进的图形处理设备，榨干了我们的想象力，也榨干了玩家们钱包!

图片15.png

▲ GeForce RTX 3080 Ti + GDDR6X 12GB显存颗粒

图片16.png

▲ 醒目的32GB GDDR6X喊着玩家快点打钱！

芯动率先推出商用GDDR6/6X combo IP

为全球智能芯片提供加速服务

作为数据交换基础的GDDR技术对于智能芯片发展的重要性不言而喻。自动驾驶、人工智能、游戏引擎等产品需求呈现井喷式增长，而与之配套的GDDR6/6X高带宽接口技术因为太过复杂、工艺先进，在商用IP市场上的选择并不多。

因此，GDDR6/6x显存技术的发展需要颗粒厂商，IP技术公司和智能芯片公司共同的推动。

2021年美光和芯动共同开发推出首个硅验证GDDR6/6X Combo IP，为更多的芯片公司提供了GDDR6/6X的高带宽核心技术！

美光甚至表示：这个 IP 改变了人工智能的版图！

芯动科技的GDDR6/6X PHY和Controller IP 基于14纳米工艺，应用PAM4信号技术，单pin速率高达 21 Gbps，256 位宽度，系统带宽超过5Tb/秒，满足了众多高带宽热门应用，如图像处理，游戏引擎、信号分析和人工智能等。

图片17.png

▲ 全球首个商用GDDR6/6X Combo IP量产

图片18.png

▲ 21Gbps GDDR6X PAM4 DQ眼图

图片19.png

▲ GDDR6 WCK眼图 15GHZ

图片20.png

▲ GDDR6 DQ眼图5Gbps

芯动科技也成为实现从GDDR5到GDDR6X全覆盖的IP厂商，GDDR6X这个节点更是成为第一款商用量产IP，为全球广泛高性能芯片公司提供了重要的接口技术！

GDDR6/6X Combo IP技术解读

·PAM4信号技术

图片21.png

▲ PAM4信号技术框架-有4个相位-单cycle发送2bit信息

图片22.png

▲ QDR技术实现了每个时钟采集4个信号，满足PAM4的信号速率要求

·GDDR6和GDDR6X架构图对比

图片23.png

▲ GDDR6和GDDR6X的结构对比(请注意时钟和数据采样的倍频关系)

GDDR6X和GDDR6最大不同的地方在于数据通道利用PAM4技术实现4倍的取样速率，实现21Gbps的单端速度。

图片24.png

▲ GDDR6X-时钟频率和PAM4的倍频关系

主要的技术难点

·PAM4的信号要求高速采样速率

图片25.png

▲ 低电压带来功耗优势，但是对信号提出苛刻的要求

为了满足高带宽要求，GDDR6X将核心频率设定为2.5GHZ，对比传统DDR5(400~800MHZ核心频率)，为了实现预取的数据取样要求，换算2.5G x 16预取 ÷ 2 (PAM4) =20Gbps，于是I/O速率必须大于20Gbps才能完成采样。

GDDR6/6X的VDDQ电压1.25/1.35v、速率16~21Gbps高速信号，对内部高速缓存、IO(125~135pins)的设计、走线、封装都提出了极为挑剔的要求，任何微小的噪音在经过衰减路径之后，都将导致信号眼图无法张开。

图片26.png

▲ GDDR6(8Gbps)和GDDR6x PAM4(16Gbps)的DQ眼图对比

·超低电压对先进晶圆工艺的要求

图片27.png

▲ FinFet工艺对IP的设计有着极高的要求

GDDR6/6X IP速率高，电压幅值低，必须使用先进FinFet工艺，先进工艺的验证成本高，单次流片要200~300万美元，设计收敛规则复杂，测试设备和成本高昂，对研发团队的经验有极高要求。

芯动提供整套技术打包方案

除了GDDR6/6X Combo PHY+Controller本身，设计企业仍然面临着复杂的布线、封装等问题，在量产之前每一个技术点都有风险，对此，芯动提供打包的一站式方案。

芯动提供IP配套的IO走线、封装设计、PCB板级参考、信号完整性分析等，大大降低了用户的风险和集成时间，真正一站式将全球领先的GDDR6/6X技术部署到SoC中，实现超大带宽的内存访问。

图片28.png

图片29.png

▲ PCB走线参考方案

图片30.png

图片31.png

▲ 信号完整性分析-返回损耗和插入损耗

结语

芯动在先进工艺IP有着大量的量产和验证经验，从DDDR5/4/3/2到LPDDR5/4/3/2，以及领先的GDDR5/5X、GDDR6/6X、HBM3、Innolink Chiplet、32/56G Serders等等，芯动率先投入了巨大的研发力量进行量产验证，为广泛的高性能SoC提供了高速接口方案，为全球高性能芯片提供加速服务！

▲ HBM3 6.4Gbps高速眼图

▲ 全球首个GDDR6/6X Combo IP量产

▲32/56G SerDes眼图(支持PCIE5/SATA/USB3.0/SGMII/MIPI等高速协议)

▲ 风华1号应用Innolink Chiplet,GDDR6/6X 等先进接口IP

这些先进IP在技术层面互相依赖、相互关联，每一项单独拿出来在市场上都是独步领先的技术，更可贵的是以上的实物图可不是PPT产品，是16年来芯动团队在CEO敖海先生的带领下持续投入、专注研发、长期耕耘的收获，在当下浮躁的资本炒作造芯环境下显得尤为可贵。

▲ 芯动科技CEO敖海先生

芯动的先进IP技术，一方面引领行业技术创新，塑造半导体企业的全球化长远发展视野，另一方面满足高性能芯片的市场需求，助力高端芯片发展，脚踏实地发展创新技术！

▲ 丰富的应用场景

芯动16年来重兵投入全球先进工艺、专注高端IP研发，在高性能计算平台、多媒体终端&汽车电子平台、IoT物联网平台等应用领域打造了核心优势，超过200次的流片记录、逾60亿颗授权量产芯片、10亿颗以上高端定制SoC量产，默默耕耘、脚踏实地，为赋能高端芯片做出重要贡献！

登录或注册后发表评论