具身智能、万卡集群、开发者入口：摩尔线程MUSA卡位下一个算力十年

谁能把云、边、端打通，把训练、推理、仿真打通，把开发者、企业、硬件伙伴团结在一起，谁就能握住下一代算力的主动权。只有打通云边端，提供从硬件到软件、从训练到部署的一站式解决方案，才能在未来的竞争中占据主动。，正是贯穿三大场景的统一底层——一套架构、全域覆盖，既解决了产业碎片化的问题，也让算力的调度与协同有了统一的语言。这种转型背后，是摩尔线程对行业趋势的深刻判断：未来的算力竞争，不再是单一芯片的竞争

CSDN资讯

344人浏览 · 2026-05-21 13:16:42

CSDN资讯 · 2026-05-21 13:16:42 发布

5月18日，摩尔线程在北京举办主题为“词元时代，万物智能”的年度产品发布会。摩尔线程创始人、董事长兼 CEO 张建中在发布会上开门见山的表示：“我们已真正进入词元时代。Token 不仅代表经济，更让整个世界焕新，带来万物智能。过去 IoT 是 Internet of Things，今天，它应该叫 Intelligence of Things。”

单应用日均 Token 消耗突破 140 万亿，智能体应用已撑起算力需求的半壁江山，国内头部大模型的迭代周期压缩至1——2个月——"算力荒"不再是预警，而是正在兑现的现实。但焦虑的另一面，是一个更深层的老问题：对于国产GPU而言，兼容 CUDA 几乎是一个“老生常谈”的问题，却鲜有成熟替代路径。

发布会上，摩尔线程全面展示了“云-边-端”全栈智算矩阵。从万卡级规模的夸娥智算集群，到自研“长江” SoC 驱动的智能终端 MTT AICUBE 和MTT AIBOOK；从数字世界智能体“小麦”，到加速物理AI落地的首个全栈具身智能仿真平台 MT Lambda，再到持续进化的 MUSA 生态。

这一次，它没有停留在硬件参数的比拼上。从对标 CUDA 12.8 的全栈兼容，到用 AI 驱动生态的自我进化，再到打通数字与物理世界的具身智能，摩尔线程正在证明一件事：国产 GPU 的下半场，芯片只是入场券，生态才是终局。

MUSA 5.1.0：用三年时间补上国产 GPU 的生态短板

长期以来，“兼容 CUDA” 更像国产 GPU 的宣传话术。开发者真正痛点不是算力差几个百分点，而是代码跑不通、算子对不上、迁移成本高到不可接受。多数厂商只做到局部 API 适配，远未达到工程可用的全链路兼容。

这正是 MUSA 5.1.0 试图打破的僵局。张建中在现场说得很直白：" MUSA 的目标从来不是做一个 CUDA 的替代品，而是要让 CUDA 开发者无缝迁移到国产平台，真正实现即插即用。"

从"部分可用"到"全面对齐"

从技术参数看，MUSA 5.1.0 对标 CUDA12.8，交出的答卷是国产 GPU 迄今最完整的一份：

驱动与运行时新增 248 个 API，累计兼容 761 个核心接口，这意味着绝大多数 CUDA 程序可无需修改，在 MUSA 架构上高效运行。；
BLAS、SPARSE、RAND、FFT 等核心数学库实现 100% 对齐，确保科学计算与AI训练的精度与效率；
支持 55 类核心 AI 算子，muDNN 算子库功能全面覆盖 cuDNN，并额外扩展 230+API，满足主流模型训推需求。；
最关键的突破：PyTorch 全部 3194 个算子实现 100% 兼容。这意味着全球数百万 PyTorch 开发者几乎无需修改代码，就能把模型搬到 MUSA 上。

全栈软件栈：不止兼容，更要自成体系

兼容只是起点。MUSA 同时构建了从底层驱动到上层应用的全栈软件架构：包括驱动、运行时、编程模型与工具链、加速库与框架、开发者套件等基础软件，也包含了集群的 AI 训推套件与系统管理软件。这种全栈设计避免了"头痛医头"的碎片化补丁，实现了系统级的性能提升。

在编译器层面，两个突破值得关注：一是正式支持 Fortran 编译器，直接解决了航空航天、气象预报、石油勘探等传统 HPC 领域的代码迁移难题——这些领域的存量代码以 Fortran 为主，此前几乎是国产 GPU 的盲区；二是深度融合开源编译生态，TileLang-MUSA 成功合入开源主线，升级支持 Triton 3.6 最新版本。

在大模型训练与推理的热点算子上，MUSA也拿出了实际的性能数据：FlashAttention3 等 Transformer 核心算子在 MUSA 上达到 95% 的极致效率，基于 TileLang 自动调优的 Group GEMM 算子实现了 60% 的性能提升。

上周摩尔线程也公布正式合入 SGLang，这意味着" MUSA 的代码开始合入vLLM、SGLang 这些主流开源框架的主线，它就不再是一个被动的兼容者，而是开始成为生态的共建者。

云边端全域统一：一套架构，吃满词元时代的全部算力场景

与多数国产 GPU 厂商 All-in 云端训练不同，摩尔线程从成立之日起就押注"云-边-端"全栈布局，本次发布会将这一战略推到了极致。而 MUSA，正是贯穿三大场景的统一底层——一套架构、全域覆盖，既解决了产业碎片化的问题，也让算力的调度与协同有了统一的语言。

云端：万卡集群的训推一体化底座

云端是智算的主战场。MUSA 架构支撑的夸娥（KUAE）智算集群已实现万卡级规模的稳定运行，多项关键指标进入国际主流水平：Dense 大模型训练MFU达60%，MoE 大模型 MFU 达40%，有效训练时长达 90%，训练线性扩展效率达95%。

围绕大模型全生命周期，摩尔线程基于 MUSA 推出了夸娥训练套件，覆盖预训练、持续预训练、长文本训练、微调及强化学习全流程。值得特别关注的是对强化学习的专门优化——套件兼容业界主流的 VeRL 训推一体与Slime训推分离框架，精准卡位大模型后训练阶段的算力需求。

推理端则展现了"发布即适配"的响应速度：DeepSeek、GLM、MiniMax、Kimi、Qwen 等国内主流大模型已全面适配，语音、视觉理解及多模态模型同样覆盖。更具标志性的是，MUSA 正式成为 vLLM 官方后端，并合入 SGLang官方主线获得原生支持——开发者无需额外适配，开箱即用。

边端与终端：智能的"神经末梢"，也是生态的入口

如果云端是大脑，边端与终端就是神经末梢。摩尔线程基于 MUSA 自研的"长江"智能 SoC 芯片，集成 CPU、GPU、NPU、VPU 等多个异构计算单元，算力达 50 TOPS，为端侧 AI 应用提供独立的算力底座。

在家庭场景，搭载"长江" SoC 的 MTT AICUBE 智能家庭 AI 中枢整合了"智能体+AI PC+AI NAS "三大能力。内置的"小麦"智能体预装 60 余项技能，支持超 36 款 APP 的跨应用控制；全闪存 AI NAS 模块提供本地安全存储；同时具备完整的桌面 AI PC 能力，可流畅运行本地大模型。

在个人开发场景，升级后的 MTT AIBOOK 专为智能体开发者打造：搭载原生MTT AIOS 系统，支持 12 个以上智能体同时运行，提供 90+工具调用接口，并创新支持原生 Linux、虚拟化 Windows 及容器化 Android 多系统。一台AIBOOK，即可覆盖智能体的开发、调试与部署全流程。

面向工业边缘，MTT E300 AI 模组支持混合精度计算，可在严苛环境下稳定运行，瞄准工业质检、能源巡检、智能汽车、低空经济等低延迟场景。

有人质疑摩尔线程做 To C 产品是否分散精力。但换个角度看，AICUBE 和AIBOOK 不只是消费品，更是 MUSA 生态的"开发者入口"。用一台价格亲民的设备让普通用户和开发者接触到 MUSA 架构、养成使用习惯，这种渗透方式远比纯技术推广高效——当年 CUDA 生态的起点，不也是从一块游戏显卡开始的吗？

用 AI 建生态，摩尔线程开辟GPU发展新路径

全栈兼容是 MUSA 的基础。但真正让摩尔线程拉开身位的，是它对生态建设方式本身的重新定义。

传统 GPU 生态建设是一个"人力密集型"工程：厂商雇大量工程师，逐个迁移代码、逐个开发算子、逐个适配框架，效率低、周期长。英伟达用了二十多年才建起 CUDA 的壁垒，国产厂商沿用同样的路径追赶，永远只能跟在后面。

摩尔线程的解法是：让 AI 来建设 AI 的生态。

本次发布会推出的两个 AI 工具，正在改变生态建设的速度公式：

Automusify 智能迁移工具——基于大模型技术，实现了对 Top 100 人工智能与 Top 100 科学计算加速仓库的 100% 零干预自动迁移。开发者上传CUDA 代码，Automusify 自动完成代码分析、语法转换、性能调优与验证，全程无需人工参与。迁移后的精度与性能，与原代码保持一致。
MUSACODE AI 编程助手——通过大模型智能体协同，已成功开发并交付超10000 个 Kernel 算子，覆盖绝大多数通用计算与 AI 计算场景。开发者无需学习 MUSA 语法，用自然语言描述需求，MUSACODE 自动生成高质量Kernel 代码并完成调优。目前已原生集成在 VSCode 中，即装即用。

张建中的判断是："过去我们说'软件定义硬件'，现在我们要说' AI 定义软件'。MUSA 生态不是靠摩尔线程一家来建，而是靠所有开发者，加上 AI 的力量，共建一个自进化的生态。"

这句话的潜台词是：生态建设的游戏规则正在被改写。当 AI 能自动迁移代码、自动生成算子、自动完成性能调优时，"谁先积累了二十多年开发者"这个护城河，也许没有想象中那么不可逾越。

在开源与开放上，摩尔线程在 GitHub 上开放了所有加速库与工具链的源代码，并发起了 PES 开发者联盟，联合中国移动、智源研究院、智谱 AI 等上下游伙伴，共同推进产业落地。

押注具身智能：摩尔线程提前卡位下一个算力主航道

大模型技术逐渐成熟之后，具身智能被公认为 AI 产业的下一个风口。但这条路有三道几乎绕不过去的坎：数据稀缺、真机训练成本高、场景难以泛化。

摩尔线程基于 MUSA 架构打造的 MT Lambda 全栈具身智能仿真平台，试图一站式解决这些问题。

MT Lambda 构建了从底层算力、核心引擎到上层框架的完整技术栈：底层基于 MUSA 全功能 GPU，渲染、物理、AI 计算在同一芯片完成，数据"零拷贝"，仿真效率大幅提升；中间层融合了自研的 AlphaCore 物理引擎、渲染引擎与 AI 引擎；上层则提供 MT Lambda-Lab 策略开发与训练平台，以及 MT Lambda-Sim 高保真仿真平台。

发布会现场，摩尔线程现场演示了其机器狗，直观展示了平台在策略开发与动作训练上的效果。同时，摩尔线程宣布了一系列生态合作落地：

与光轮智能联合打造国产合成数据解决方案，依托千卡夸娥集群每天可生成10万帧高保真合成数据；与智源研究院合作，基于千卡夸娥集群完整训练出RoboBrain 具身大脑模型；与光线云联合打造 RaysTwins 具身仿真平台，实现任务资产一键导入、智能体算力调度、训练推理加速的全链路闭环。

上市后的摩尔线程，到底想成为什么？

2025 年成功登陆科创板之后，摩尔线程的战略节奏明显加快。从官宣 AI 训推一体智算卡 MTT S5000，到本次推出全栈智算矩阵，摩尔线程正在从一家 “GPU 芯片公司” 快速转型为一家 “全栈智算解决方案提供商”。

这种转型背后，是摩尔线程对行业趋势的深刻判断：未来的算力竞争，不再是单一芯片的竞争，而是全栈能力的竞争。随着 Agentic AI 和具身智能的兴起，算力需求正在从云端向边端和终端扩散，单一的云端 GPU 厂商无法满足全场景的算力需求。只有打通云边端，提供从硬件到软件、从训练到部署的一站式解决方案，才能在未来的竞争中占据主动。

同时，摩尔线程也在刻意与“英伟达替代者” 的标签划清界限。张建中在发布会上多次强调，MUSA 的目标不是复制 CUDA，而是打造一个更适合 AI 时代的开放生态。与英伟达封闭的生态模式不同，MUSA 坚持开源与开放的原则，在 GitHub 上开放了所有加速库与工具链的源代码，并发起了 PES 开发者联盟，联合上下游伙伴共同建设生态。