奇异摩尔祝俊东演讲精华摘录——构建超大规模异构计算平台,需攻克5大核心技术

来源:奇异摩尔 #奇异摩尔# #集微峰会# #Chiplet#
1.5w

2023年6月2日,以“聚焦应用,集智创芯”为主题的集微通用芯片行业应用峰会在厦门举行。会上,奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东发表了《大模型驱动的全新算力形态,基于Chiplet的超大规模异构计算平台》的主题演讲,本篇文章回顾撷取自以上活动。

奇异摩尔联合创始人兼产品及解决方案副总裁祝俊东

大模型的爆发,带来了巨量的算力需求,也给芯片带来了极大的挑战。因能有效提升算力和互联密度,异构计算和Chiplet两大技术成为备受关注的方向。那么,要如何利用Chiplet构建一个超大规模的异构计算平台?



PART 1:模型驱动高性能计算进化加速

挑战1:硬件和系统规模持续提升

随着算力需求的不断提升,摩尔定律逐渐无法满足芯片面积和芯片级联提升的需求,进而引发了硬件和系统的规模过载。业界迫切需要构建更大规模的整合计算系统,以应对持续增长的算力需求。

挑战2:算力应用场景多元化

随着芯片工艺技术的不断演进,算力场景应用也在不断增长,倘若针对不同应用场景升级迭代芯片,企业将面临巨大的资金挑战。同时,为了满足高性能计算对的效率需求,通用处理器(CPU)地位逐渐被GPU取代。异构计算和Chiplet技术,可以把CPU和GPU拼搭成一整个芯片,从而更好的实现通用性与性能的平衡。

挑战3:互联效率瓶颈

随着计算机系统的规模扩大,存储、计算规模也越发庞大,互联效率成为芯片设计的重大的瓶颈。行业急需基于分布式、以存储为中心的计算架构,以突破现有芯片互联效率。


芯片巨头比拼超大规模异构计算平台

如今,全球主要芯片巨头如AMD、Intel、Nvidia都在构建超大规模异构计算平台。以NVIDIA为例,其最新一代Hopper H100针对大型模型提供9倍AI训练速度。


DGX H100 (Image credit: Nvidia)

祝俊东指出,Nvidia能实现如此高幅度的性能提升,关键在于系统级的互联。从BlueField-3到Spectrum-4,Nvidia把构建了一个从底层到顶层的全链路互联网络架构体系,使互联性能提升了数十倍。在此基础上,Nvidia把GPGPU、异构计算、超高速互联网络组合在一起,创建了一个ETOPS级的超大规模计算集群:DGX GH200。

DGX GH200(Image credit: Nvidia)

AMD、英特尔等头部企业也在进行超大规模异构计算平台的研发。2022年,英特尔发布了3D GPGPU Intel Ponte Vecchio,通过Intel的X link网络把47个不同的芯粒组合在一起,构建了一个高性能的集群。

Intel Ponte Vecchio (Image credit: Intel)

AMD作为Chiplet路线的开拓者,一直将异构、Chiplet、互联网络作为其主要研发路线。AMD将6颗GPU和3颗CPU拼在一颗芯片上形成了其3D APU MI300,并将Infinity Fabric互联架构升级至第三代,以实现全方位的多处理器性能和可扩展性的优化。

AMD MI300 (Image credit: Intel)

汽车领域芯片架构变化

自动驾驶领域,芯片巨头也纷纷布局大算力计算平台。英伟达在年初发布了NVIDIA Thor超级芯片计划,作为一颗多域合一的芯片,它集合了多种功能,拥有最高达2000T算力。

Nvidia Drive Thor (Image credit: Nvidia )

最近,在Nvidia与MediaTek的车用芯片共同开发计划中,联发科将通过Chiplet设计方式将英伟达的GPU集成在下一代Snapdragon产品中,通过双SoC与双NPU的组合打造更强的大算力芯片,并通过不同产品组适配高中低端应用和不同场景。

 (Image credit: MediaTek)

PART 2:构建大规模异构计算平台需要五大关键技术

要构建超大规模异构计算平台,需要五大软硬件关键技术。

第一:适用于超大规模异构的计算架构,以实现软、硬件的结合,以及单个计算单元性能的最大化;

第二:统一的编程模型以及协议的库堆栈,以提高软件的应用性;

第三:从CPU到GPU、NPU等不同类型的计算单元的芯粒支持;

第四:超大规模的传输网络及互联网络,把不同的计算单元、存储、连接等单元高效地连接在一起;

第五:先进封装技术,让不同的芯粒用接近甚至超过SoC的互联密度连接,像一颗芯片一样工作。

其中,后三大技术都与Chiplet紧密相关。这也是Chiplet成其为构建大规模异构计算平台的关键因素的根本原因。


系统级视角看Chiplet:

从系统级的视角来看,Chiplet是一种新的系统级架构与dielet组合的方式。基于SoC 架构进行拆分重组,将主要功能单元 (IP) 转变成独立芯粒 (Dielet),并通过先进封装和 Die-to-Die接口,将其连接到 Chiplet 互联网络 (OCI) 中,组成系统级宏芯片 (MSoC)。这也是全链路的chiplet的重组以及拆分的过程。


Chiplet的核心挑战:高效互联

在芯片拆分后,需要高效的互联。Chiplet互联涉及多个层次

Physical:先进封装是Chiplet的物理支撑,包含substrate、2.5D、3D等不同形式,客户需根据产品选择适合的先进封装形式;

Electrical:为高效连接信号,需要Die-to-Die interface和高带宽、低延时、低功耗及统一的协议;

Interconnection:在die-to-die互联基础上,大量节点需要通过一套统一的连接网络以及对应的算法进行连接;

Network:把不同的芯粒通过更复杂的网络结构高速互联起来,实现不同节点间的全连通。

互联对于Chiplet至关重要,也是Chiplet所面临的核心挑战所在。奇异摩尔作为国内第一批专注于2.5D和3D Chiplet研发的企业,就此提出了一整套完整的解决方案,以解决超大规模互联问题。



PART 3:奇异摩尔: 推出基于Chiplet的大规模异构计算平台

奇异摩尔是一家基于Chiplet架构,为客户提供核心通用互联芯粒及系统级解决方案的服务商,以数据存储和传输为核心,通过自研的Kiwi Fabric互联体系高效连接不同类型的功能单元,目标是成为超大规模分布式异构计算平台的基石。


奇异摩尔互联核心Die2Die接口和互联芯粒

奇异摩尔的产品线分为两大部分,其一是2.5D、3D芯粒系列,其二是Die-to-Die IP系列。奇异摩尔基于UCIe标准,提供覆盖各种不同类型、综合能力强、具高带宽、低延时、低功耗的Die2Die IP,支持2.x/2.5/3D 等多种封装形态。

2.5D IO Die:在Die-to-Die的基础上,IO Die作为奇异摩尔的核心自研产品,是一个高速数据存储及调度核心,集成了Die-to-Die接口和其他多种高速接口,能把各个节点通过Kiwi Fabric网络互连起来,再通过一套自定义算法来实现数据流、信息流的分发调度。

3D Base Die:在IO Die的基础上,奇异摩尔研发了全球首款的通用的3D Base Die。通过芯粒3D堆叠,能进一步提升芯片算力密度。同时,通过集成die-to-die 3D接口,Cache等模块以实现更高效的垂直互联,最大程度的减少存储本身带来的延迟和功耗。

奇异摩尔为客户提供基于IO Die和Base Die的完整解决方案,基于核心互联芯粒,客户只需要设计少量功能单元,即可搭建产品系列平台,能极大地降低研发及量产的成本。奇异摩尔的解决方案覆盖数据中心、自动驾驶、边缘AI、5G、6G移动通信等需要大算力芯片的领域。客户可以最高提升芯片的系统性能至1.5倍,实现研发成本(80%)和量产时间(60%)的下降

演讲最后,祝俊东表示,奇异摩尔作为一家创新的Chiplet产品及解决方案公司,其愿景是“为了更简单的计算“贡献力量,并呼吁各位客户及合作伙伴共同发力,构建未来智能计算的新范式。



责编: 爱集微
来源:奇异摩尔 #奇异摩尔# #集微峰会# #Chiplet#
THE END
关闭
加载

PDF 加载中...