寒武纪完成DeepSeek-V4“Day 0”适配

作者：日新 04-24 16:03

来源：爱集微 #寒武纪#

9906

4月24日，寒武纪宣布，基于自研NeuWare软件生态与vLLM推理框架，已完成对深度求索公司最新开源大模型DeepSeek-V4的“Day 0”适配，适配代码已同步开源至GitHub社区。这是寒武纪连续第二次在DeepSeek新模型发布首日便推出国产芯片适配方案。

此次适配针对DeepSeek-V4的全新模型结构，寒武纪通过自研高性能融合算子库Torch-MLU-Ops，对模型中的Compressor、mHC等模块进行了专项加速；并运用BangC编程语言编写了稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，以充分释放其MLU系列芯片的硬件底层潜力。此前，双方通过持续的软硬件协同优化，已在DeepSeek系列模型的部署中实现了业界领先的算力利用率水平。

深度求索于同日正式发布并开源了DeepSeek-V4预览版。该模型拥有百万字（约100万Token）的超长上下文处理能力，在Agent能力、世界知识和推理性能上均实现了国内与开源领域的领先。模型按规模分为两个版本：面向高性能的DeepSeek-V4-Pro（总参数1.6T）和主打高性价比的DeepSeek-V4-Flash（总参数284B）。

寒武纪表示，DeepSeek-V4能够原生运行于寒武纪芯片，对中国AI产业具有里程碑意义。这一成就得益于其长期构建的NeuWare软件栈，该平台全面拥抱开源生态，原生支持PyTorch、vLLM、Diffusers等主流AI框架，并与众智FlagOS生态深度合作，旨在降低模型在不同架构芯片间的迁移成本。（校对/邓秋贤）