寒武纪完成DeepSeek-V4“Day 0”适配

来源:爱集微 #寒武纪#
1102

4月24日,寒武纪宣布,基于自研NeuWare软件生态与vLLM推理框架,已完成对深度求索公司最新开源大模型DeepSeek-V4的“Day 0”适配,适配代码已同步开源至GitHub社区。这是寒武纪连续第二次在DeepSeek新模型发布首日便推出国产芯片适配方案。

此次适配针对DeepSeek-V4的全新模型结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等模块进行了专项加速;并运用BangC编程语言编写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,以充分释放其MLU系列芯片的硬件底层潜力。此前,双方通过持续的软硬件协同优化,已在DeepSeek系列模型的部署中实现了业界领先的算力利用率水平。

深度求索于同日正式发布并开源了DeepSeek-V4预览版。该模型拥有百万字(约100万Token)的超长上下文处理能力,在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先。模型按规模分为两个版本:面向高性能的DeepSeek-V4-Pro(总参数1.6T)和主打高性价比的DeepSeek-V4-Flash(总参数284B)。

寒武纪表示,DeepSeek-V4能够原生运行于寒武纪芯片,对中国AI产业具有里程碑意义。这一成就得益于其长期构建的NeuWare软件栈,该平台全面拥抱开源生态,原生支持PyTorch、vLLM、Diffusers等主流AI框架,并与众智FlagOS生态深度合作,旨在降低模型在不同架构芯片间的迁移成本。(校对/邓秋贤)

责编: 秋贤
来源:爱集微 #寒武纪#
THE END

*此内容为集微网原创,著作权归集微网所有,爱集微,爱原创

关闭
加载

PDF 加载中...