摩尔线程开源TileLang-MUSA，大幅降低国产GPU开发门槛

作者：集小微 02-10 21:40

来源：爱集微 #摩尔线程# #gpu# #AI#

2.1w

2 月 10 日，摩尔线程宣布开源 TileLang-MUSA 项目，实现对 TileLang 编程语言的完整支持。该项目已在摩尔线程多代全功能 GPU 上完成功能验证与特性开发，旨在充分释放全功能 GPU 的性能潜力，大幅降低国产 GPU 开发门槛。

此前，DeepSeek-V3 大模型的研发已采用 TileLang 进行算子快速原型设计与性能验证。TileLang 是一款基于张量分块抽象的高性能 AI 算子编程语言，采用声明式语法与类 Python 前端，使开发者能以接近数学公式的形式描述计算意图，并由编译器自动完成循环优化、内存调度与代码生成，在保持底层性能的同时，大幅降低 GPU 及异构计算平台的编程复杂度。

在实际应用中，TileLang 通过高级抽象降低开发门槛，具备跨平台能力，实现“一次编写、多架构运行”，编译器自动执行 Layout 推导、线程映射、Warp 特化、流水线排布、内存优化等复杂优化，在保障性能的同时提升 GPU 计算的开发效率，已广泛应用于 AI 与机器学习、科学计算等领域。

TileLang-MUSA 项目提供了一种介于底层汇编与高层 DSL 之间的“中间层”抽象，在保留硬件控制力的同时，显著降低编程复杂度。该项目硬件兼容性良好，已在摩尔线程多代全功能 GPU 上完成功能验证与打通，包括训推一体全功能智算卡 MTT S5000 和 MTT S4000。团队还实现了 TileLang 高层语义到摩尔线程 GPU 底层 MUSA 架构的精准映射。

在实际算子开发实践中，TileLang-MUSA 实现了让开发者“写得快”且“跑得快”。以大语言模型中重要的 FlashAttention-3 和 GEMM（通用矩阵乘）算子为例，在摩尔线程 MTT S5000 上的测试结果显示：相较手写 MUSA C++代码，使用 TileLang-MUSA 的代码量减少了约 90%，且代码逻辑更加清晰，极大降低了开发与维护成本；得益于编译器优化，生成的算子性能在典型配置下，Gemm 最高可达手写优化版本的 95%，FlashAttention-3 可达手写优化版本的 85%；借助 TileLang-MUSA 的 Auto-tuning 机制，开发者可在 MUSA 架构的全功能 GPU 上快速搜索最优的分块策略（Tile Size）和流水线级数，轻松超越未经深度优化的基准实现。

TileLang-MUSA 的推出，使 TileLang 用户能近乎零成本地将算子逻辑迁移至摩尔线程 GPU，还为不熟悉 MUSA 指令集的 AI 工程师提供了高层次的开发入口，并通过支持 FlashAttention 等关键算子的高效开发，加速大语言模型等前沿 AI 应用在国产算力平台上的部署与落地。

摩尔线程计划持续推进平台与生态建设，致力于打造一个覆盖从单算子到完整大模型的国产算力统一加速平台。其计划包括深度集成 SGLang 等主流 AI 框架，实现 Transformer、MoE 等复杂模型架构的跨算子调度与全局优化，完善调试和性能分析工具链，以及通过性能优化，开发更多 MUSA 架构定制扩展，使生成代码性能稳定达到手写优化版本的 90%以上。这将为构建一个开放、易用的国产算力开发生态提供工具支撑。