国产GPU：AIGC算力底座的新一极

作者：李映 2023-07-08

来源：爱集微 #壁仞# #世界人工智能大会# #WAIC# #AI# #GPU#

6.4w

ChatGPT的问世，掀起了一股生成式AI应用大潮。可以说，AI大模型成为AI迈向通用AI的里程碑技术。

而AI大模型的落地应用也使得AI的三要素由“数据、算法、算力”演变为“场景、产品、算力”。随着AIGC参数向千亿量级扩容，对AI算力的需求亦呈指数级增长。无数老将新兵，正蜂拥进入算力的军备大赛之中。

在近日以“智联世界生成未来”为主题举办的2023世界人工智能大会（WAIC）上，不仅商汤日日新、华为云盘古大模型、阿里云通义千问百度文心一言等10多个AI大模型集体亮相。更可喜的是，在国产通用GPU算力方面，燧原科技的邃思2.0和邃思2.5、壁仞壁砺系列产品、天数智芯智铠100、沐曦曦思N100、壁仞、珠海芯动力RPP-R8芯片等也争先亮相，全面展现出国产通用GPU的“芯”实力。

GPU需求绝不止“算力化”

ChatGPT横空出世，将大模型的涌现和爆发推向了一个新的高潮，也带动了大算力GPU的需求飙升。

但尽管GPU 的销量像火箭一样猛增，但供应链却难以满足对GPU的需求。现实的骨感还在于：目前已发布的国内外的大模型，绝大部分是基于英伟达的几代旗舰GPU 产品进行模型训练，英伟达产品的供应短缺和价格飞涨的消息也不绝于耳。据报道字节跳动今年向英伟达订购了超过10亿美元的GPU，这一订单可能已接近英伟达去年在中国销售的商用 GPU总和。

对于国内通用GPU厂商来说，要把握这一波通用AI时代的新机遇，考验的绝不止高算力那么简单。

壁仞科技合伙人梁刚博士在“生成式AI与大模型：变革与创新”论坛上指出，大模型时代，除要求通用GPU具备高算力、支持各种数据精度以及高带宽的互联能力之外，软件生态也至关重要，包括支持通用编程语言、支持各类大模型训练和推理框架，以及大模型算法适配等。

随着大模型参数量级的不断增长，致使算力需求也呈现量级增长，算力集群正变得愈发庞大。梁刚博士进一步指出，为支持更大的参数规模，必须通过单机多卡、多机多卡的分布式平台来支持大模型训练和推理，需要支持诸如Tensor并行TP、流水线并行PP、DeepSpeed ZeRo 数据并行参数切分策略等其他并行技术，另外还支持Recompute、Offload等技术，以进一步扩展参数规模，具备支持千亿参数的能力。

而且，为保证近千卡同步训练，一方面如何降低通信占比取得更高的可扩展性成为一大挑战，另一方面要着力保障大模型训练的稳定性，这就不仅需要增强硬件本身的可靠性测试验证，还需要与客户加强沟通，在资源管理调度和训练框架层面，设计容错能力。

最后作为大模型规模化落地时客户最关心的问题，还要着眼于落地的性能和成本。梁刚博士指出，在训练层面，除了分布式训练性能优化，也需要针对芯片的大算力、分布式共享缓存等特点进行针对性地优化，进一步提升性能、降低成本；对于推理来说，要优化延迟（Latency）提升用户体验，结合硬件特性进行软件的深度联合优化，以进一步降低推理延迟。

对此燧原科技创始人、董事长、CEO赵立东也指出，在通用AI时代，对通用GPU的全栈能力提出了全新要求，要做到高性能、高带宽、高存储、高通用性、高效分布式计算、高效集群互联，才能满足大模型的算力需求。

仍要着力算力普惠和落地

大模型的火热应用直接将英伟达带入万亿美元市值俱乐部，对于算力芯片厂商来说，也迎来了一个全新的蓝海市场。

基于近几年在市场上的深度锤炼以及对大模型时代算力需求的深刻洞察，国产通用GPU厂商也让WAIC成为展现“实力”的练兵场。

在WAIC展会上，不仅各大厂商展出了自己的扛鼎之作——性能强劲的GPU、加速卡等，在加速大模型方面，一些企业如瀚博半导体、燧原科技、登临科技等均利用自家GPU演示运行大语言模型、AI绘画、文生PPT等AIGC交互演示。而且，有的厂商还发布了平台服务产品以及落地案例，更直观地秀出了强劲的实力。

如燧原科技在此次展会上发布了文生图MaaS平台服务产品——燧原曜图，能够为用户提供大模型的微调和MaaS服务并提升大模型应用的上线速度和效率。壁仞自主研发的suCloud机器学习平台也吸引了观众驻足。据悉，这一平台可管理千卡规模的异构GPU资源，支持资源的弹性池化调度，对用户呈现简单易用的大模型训练平台，同时也能大幅提升资源利用效率。