国产GPU:AIGC算力底座的新一极

来源:爱集微 #壁仞# #世界人工智能大会# #WAIC# #AI# #GPU#
6.4w

ChatGPT的问世,掀起了一股生成式AI应用大潮。可以说,AI大模型成为AI迈向通用AI的里程碑技术。

而AI大模型的落地应用也使得AI的三要素由“数据、算法、算力”演变为“场景、产品、算力”。随着AIGC参数向千亿量级扩容,对AI算力的需求亦呈指数级增长。无数老将新兵,正蜂拥进入算力的军备大赛之中。

在近日以“智联世界 生成未来”为主题举办的2023世界人工智能大会(WAIC)上,不仅商汤日日新、华为云盘古大模型、阿里云通义千问百度文心一言等10多个AI大模型集体亮相。更可喜的是,在国产通用GPU算力方面,燧原科技的邃思2.0和邃思2.5、壁仞壁砺系列产品、天数智芯智铠100、沐曦曦思N100、壁仞、珠海芯动力RPP-R8芯片等也争先亮相,全面展现出国产通用GPU的“芯”实力。

GPU需求绝不止“算力化”

ChatGPT横空出世,将大模型的涌现和爆发推向了一个新的高潮,也带动了大算力GPU的需求飙升。

但尽管GPU 的销量像火箭一样猛增,但供应链却难以满足对GPU的需求。现实的骨感还在于:目前已发布的国内外的大模型,绝大部分是基于英伟达的几代旗舰GPU 产品进行模型训练,英伟达产品的供应短缺和价格飞涨的消息也不绝于耳。据报道字节跳动今年向英伟达订购了超过10亿美元的GPU,这一订单可能已接近英伟达去年在中国销售的商用 GPU总和。

对于国内通用GPU厂商来说,要把握这一波通用AI时代的新机遇,考验的绝不止高算力那么简单。

壁仞科技合伙人梁刚博士在“生成式AI与大模型:变革与创新论坛上指出,大模型时代,除要求通用GPU具备高算力、支持各种数据精度以及高带宽的互联能力之外,软件生态也至关重要,包括支持通用编程语言、支持各类大模型训练和推理框架,以及大模型算法适配等。

随着大模型参数量级的不断增长,致使算力需求也呈现量级增长,算力集群正变得愈发庞大。梁刚博士进一步指出,为支持更大的参数规模,必须通过单机多卡、多机多卡的分布式平台来支持大模型训练和推理,需要支持诸如Tensor并行TP、流水线并行PP、DeepSpeed ZeRo 数据并行参数切分策略等其他并行技术,另外还支持Recompute、Offload等技术,以进一步扩展参数规模,具备支持千亿参数的能力。

而且,为保证近千卡同步训练,一方面如何降低通信占比取得更高的可扩展性成为一大挑战,另一方面要着力保障大模型训练的稳定性,这就不仅需要增强硬件本身的可靠性测试验证,还需要与客户加强沟通,在资源管理调度和训练框架层面,设计容错能力。

最后作为大模型规模化落地时客户最关心的问题,还要着眼于落地的性能和成本。梁刚博士指出,在训练层面,除了分布式训练性能优化,也需要针对芯片的大算力、分布式共享缓存等特点进行针对性地优化,进一步提升性能、降低成本;对于推理来说,要优化延迟(Latency)提升用户体验,结合硬件特性进行软件的深度联合优化,以进一步降低推理延迟。

对此燧原科技创始人、董事长、CEO赵立东也指出,在通用AI时代,对通用GPU的全栈能力提出了全新要求,要做到高性能、高带宽、高存储、高通用性、高效分布式计算、高效集群互联,才能满足大模型的算力需求。

仍要着力算力普惠和落地

大模型的火热应用直接将英伟达带入万亿美元市值俱乐部,对于算力芯片厂商来说,也迎来了一个全新的蓝海市场

基于近几年在市场上的深度锤炼以及对大模型时代算力需求的深刻洞察,国产通用GPU厂商也让WAIC成为展现“实力”的练兵场。

在WAIC展会上,不仅各大厂商展出了自己的扛鼎之作——性能强劲的GPU、加速卡等,在加速大模型方面,一些企业如瀚博半导体、燧原科技、登临科技等均利用自家GPU演示运行大语言模型、AI绘画、文生PPT等AIGC交互演示。而且,有的厂商还发布了平台服务产品以及落地案例,更直观地秀出了强劲的实力。

如燧原科技在此次展会上发布了文生图MaaS平台服务产品——燧原曜图,能够为用户提供大模型的微调和MaaS服务并提升大模型应用的上线速度和效率。壁仞自主研发的suCloud机器学习平台也吸引了观众驻足。据悉,这一平台可管理千卡规模的异构GPU资源,支持资源的弹性池化调度,对用户呈现简单易用的大模型训练平台,同时也能大幅提升资源利用效率。

值得关注的是,大模型落地的投资巨大,如能结合垂直行业落地将化解这一难题。对此有专家表示,海外是主要是面向C端,比如亚马逊、谷歌、OpenAI等。但国内通用生成式AI更大的应用在于垂直领域,可与医疗、教育等各行各业有机结合,因而,更考量整体解决方案的性能、功能和性价比

此外,再狂热的大模型训练和推理,终要回归商业逻辑,实现经济效益是根本,而非“不计代价”,这就涉及算力能否如水电般普惠。

“在AI大模型等驱动下,算力需求呈指数级增长,算力普惠问题亟待解决。”赵立东表示,“必须在架构、能耗以及集群方面下功夫芯片的架构革新、3D堆叠等封装新形式等入手,而集群是未来整个智算中心建设重要单元。

改写格局没有捷径可走

尽管国内算力芯片厂商集体走出了“加速度”,但客观来看,国内大算力芯片的产品竞争力特别是软件生态方面,与国际先进水平存在一定的差距。

围绕这一话题,梁刚博士中肯表示,国内必须先追随,然后再实现追赶。在目前的市场格局之中,国内仍将处于一个追随的过程,这没有捷径可走、没有弯道可绕,需要踏踏实实地打磨产品、构建生态。

其中,与客户的紧密合作十分重要。梁刚博士分析,只有与最终客户共同探索大模型在各个行业的落地,持续获得用户反馈,才能使产品不断地迭代和优化。

对于壁仞来说,首代产品“点亮”证明了团队的产品研发能力,后续壁仞将与合作伙伴和客户密切配合,继续专注于对产品的优化和迭代,在单卡算力、显存容量和带宽、多卡集群互联、安全等层面持续精进。

在软件层面,梁刚博士强调,将采取开放的态度,与大模型产业生态的合作伙伴和客户保持密切合作,形成“应用—优化—反馈—迭代”的正循环,加速软件生态的更新和提升。

尽管目前主流的算力方案仍是英伟达一骑绝尘,但从长远计,国产芯片必须建立第二解决方案,为客户提供第二选择。这对于国产芯努力构建自主创新架构、满足市场对性价比和能效比的多元需求,无疑是一个极佳的时间窗口。

芯片是用进废退,越用才能越好用。在渐进式过程中培育算力生态、迭代算力产品,这个过程是我们必须经历的。赵立东直言。

或许,这一追随和追赶的过程要以数年计。“算力芯片发展要遵循产业规律,硬件迭代周期需要一到两年,打造软件生态也要久久为功,未来打造算力芯片新一极仍将需要长久的耐心和持续的修炼。”尽管谨慎,但梁刚博士的话语中藏着对国产通用GPU大发展的殷切期盼。

责编: 张轶群
来源:爱集微 #壁仞# #世界人工智能大会# #WAIC# #AI# #GPU#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...