壁仞科技联合中国电信等合作伙伴共同发布智算异构四芯混训解决方案

作者：集小微 2024-12-09

来源：壁仞科技Birentech #壁仞科技# #中国电信# #异构算力#

1.7w

12月3日-5日，中国电信在广州举办“2024数字科技生态大会”，本届大会以“AI赋能共筑数字新生态”为主题，在“科技创新合作论坛”上，壁仞科技联合中国电信研究院、江苏电信、中兴通讯、上海人工智能实验室等发布了“智算异构四芯混训解决方案”，打造算力、网络、平台、通信库、框架全栈异构方案，实现异构算力的互联互通、互调互算，基于壁仞科技、英伟达等GPU完成四款异构芯片混合训练同一个大模型的测试验证，突破大模型算力孤岛难题，引领业界异构混训技术发展趋势。

发布仪式现场

面对高端算力供应紧张、国产芯片百花齐放、智算中心扩容混建等导致的异构算力孤岛问题，壁仞科技联合中国电信等共同打造异构多芯混池训练解决方案，开创算力使用新模式，缓解因不同芯片体系架构及软件生态存在较大差异性，导致异构算力聚合困难，无法实现“超大算力”统一供给的挑战。异构多芯混合训练主要面临异构网络易拥塞、异构芯片互联互通难、异构芯片混训木桶效应等三大挑战。

异构多芯混训解决方案，实现了统一RDMA网络拥塞控制、统一异构集合通信库、统一异构训练框架。针对异构网络易拥塞问题，构建统一RDMA网络拥塞控制机制，支持RDMA多链路异构端网协同拥塞控制，跨异构芯片并行通信性能相比通用流量调度提升30%；针对异构芯片互联互通难问题，构建统一异构集合通信库，屏蔽底层异构芯片差异，业界首次通过GDR（GPUDirect RDMA)实现高速低延时异构通信，异构通信效率大于98%；针对异构芯片混训木桶效应问题，构建统一异构混合训练框架，通过异构芯片算力感知进行非均匀拆分优化，支持国际主流模型LLaMA-2、中国电信自研TeleChat等大模型，四芯混训效率可达同构训练效率的95%，实现异构算力芯片高效互联互通及算力聚合。

此前壁仞科技的壁砺™系列通用GPU算力产品已经在中国电信落地千卡集群并开展商业化落地应用，另外在中国电信集团新一轮国产化GPU集采项目中，壁仞科技的主流GPU产品已经纳入中国电信的集采名录，成为中国电信的主要GPU供应商。国产GPU加快落地的过程中正在在逐步扩大算力规模，为破解这一过程中的“大模型算力孤岛”难题，壁仞科技一直在积极开展异构GPU协同训练技术攻关，在2024年9月发布的自主原创异构GPU协同训练方案HGCT中，已率先支持3种及以上异构GPU混合训练同一个大模型，用一套统一方案支持多种不同厂商、不同型号的GPU，而且一行代码适配多种框架。

此次，壁仞科技携手中国电信等合作伙伴取得新的突破，完成异构四芯混训测试验证，共同打造异构算力生态，借助中国电信“大息壤”平台算网一体化调度核心能力及中国电信智算拉远方案，突破单集群异构限制，整合国产芯片扩大单一算力池规模，形成更大规模算力能力，提升大模型能力上限，推动国产GPU产业和大模型产业发展与繁荣。