具身智能、万卡集群、开发者入口:摩尔线程MUSA卡位下一个算力十年
谁能把云、边、端打通,把训练、推理、仿真打通,把开发者、企业、硬件伙伴团结在一起,谁就能握住下一代算力的主动权。只有打通云边端,提供从硬件到软件、从训练到部署的一站式解决方案,才能在未来的竞争中占据主动。,正是贯穿三大场景的统一底层——一套架构、全域覆盖,既解决了产业碎片化的问题,也让算力的调度与协同有了统一的语言。这种转型背后,是摩尔线程对行业趋势的深刻判断:未来的算力竞争,不再是单一芯片的竞争
5月18日,摩尔线程在北京举办主题为“词元时代,万物智能”的年度产品发布会。摩尔线程创始人、董事长兼 CEO 张建中在发布会上开门见山的表示:“我们已真正进入词元时代。Token 不仅代表经济,更让整个世界焕新,带来万物智能。过去 IoT 是 Internet of Things,今天,它应该叫 Intelligence of Things。”

单应用日均 Token 消耗突破 140 万亿,智能体应用已撑起算力需求的半壁江山,国内头部大模型的迭代周期压缩至1——2个月——"算力荒"不再是预警,而是正在兑现的现实。但焦虑的另一面,是一个更深层的老问题:对于国产GPU而言,兼容 CUDA 几乎是一个“老生常谈”的问题,却鲜有成熟替代路径。
发布会上,摩尔线程全面展示了“云-边-端”全栈智算矩阵。从万卡级规模的夸娥智算集群,到自研“长江” SoC 驱动的智能终端 MTT AICUBE 和MTT AIBOOK;从数字世界智能体“小麦”,到加速物理AI落地的首个全栈具身智能仿真平台 MT Lambda,再到持续进化的 MUSA 生态。
这一次,它没有停留在硬件参数的比拼上。从对标 CUDA 12.8 的全栈兼容,到用 AI 驱动生态的自我进化,再到打通数字与物理世界的具身智能,摩尔线程正在证明一件事:国产 GPU 的下半场,芯片只是入场券,生态才是终局。

MUSA 5.1.0:用三年时间补上国产 GPU 的生态短板
长期以来,“兼容 CUDA” 更像国产 GPU 的宣传话术。开发者真正痛点不是算力差几个百分点,而是代码跑不通、算子对不上、迁移成本高到不可接受。多数厂商只做到局部 API 适配,远未达到工程可用的全链路兼容。
这正是 MUSA 5.1.0 试图打破的僵局。张建中在现场说得很直白:" MUSA 的目标从来不是做一个 CUDA 的替代品,而是要让 CUDA 开发者无缝迁移到国产平台,真正实现即插即用。"

从"部分可用"到"全面对齐"
从技术参数看,MUSA 5.1.0 对标 CUDA12.8,交出的答卷是国产 GPU 迄今最完整的一份:
-
驱动与运行时新增 248 个 API,累计兼容 761 个核心接口,这意味着绝大多数 CUDA 程序可无需修改,在 MUSA 架构上高效运行。;
-
BLAS、SPARSE、RAND、FFT 等核心数学库实现 100% 对齐,确保科学计算与AI训练的精度与效率;
-
支持 55 类核心 AI 算子,muDNN 算子库功能全面覆盖 cuDNN,并额外扩展 230+API,满足主流模型训推需求。;
-
最关键的突破:PyTorch 全部 3194 个算子实现 100% 兼容。 这意味着全球数百万 PyTorch 开发者几乎无需修改代码,就能把模型搬到 MUSA 上。
全栈软件栈:不止兼容,更要自成体系
兼容只是起点。MUSA 同时构建了从底层驱动到上层应用的全栈软件架构:包括驱动、运行时、编程模型与工具链、加速库与框架、开发者套件等基础软件,也包含了集群的 AI 训推套件与系统管理软件。这种全栈设计避免了"头痛医头"的碎片化补丁,实现了系统级的性能提升。
在编译器层面,两个突破值得关注:一是正式支持 Fortran 编译器,直接解决了航空航天、气象预报、石油勘探等传统 HPC 领域的代码迁移难题——这些领域的存量代码以 Fortran 为主,此前几乎是国产 GPU 的盲区;二是深度融合开源编译生态,TileLang-MUSA 成功合入开源主线,升级支持 Triton 3.6 最新版本。
在大模型训练与推理的热点算子上,MUSA也拿出了实际的性能数据:FlashAttention3 等 Transformer 核心算子在 MUSA 上达到 95% 的极致效率,基于 TileLang 自动调优的 Group GEMM 算子实现了 60% 的性能提升。
上周摩尔线程也公布正式合入 SGLang,这意味着" MUSA 的代码开始合入vLLM、SGLang 这些主流开源框架的主线,它就不再是一个被动的兼容者,而是开始成为生态的共建者。
云边端全域统一:一套架构,吃满词元时代的全部算力场景
与多数国产 GPU 厂商 All-in 云端训练不同,摩尔线程从成立之日起就押注"云-边-端"全栈布局,本次发布会将这一战略推到了极致。而 MUSA,正是贯穿三大场景的统一底层——一套架构、全域覆盖,既解决了产业碎片化的问题,也让算力的调度与协同有了统一的语言。
云端:万卡集群的训推一体化底座
云端是智算的主战场。MUSA 架构支撑的夸娥(KUAE)智算集群已实现万卡级规模的稳定运行,多项关键指标进入国际主流水平:Dense 大模型训练MFU达60%,MoE 大模型 MFU 达40%,有效训练时长达 90%,训练线性扩展效率达95%。
围绕大模型全生命周期,摩尔线程基于 MUSA 推出了夸娥训练套件,覆盖预训练、持续预训练、长文本训练、微调及强化学习全流程。值得特别关注的是对强化学习的专门优化——套件兼容业界主流的 VeRL 训推一体与Slime训推分离框架,精准卡位大模型后训练阶段的算力需求。
推理端则展现了"发布即适配"的响应速度:DeepSeek、GLM、MiniMax、Kimi、Qwen 等国内主流大模型已全面适配,语音、视觉理解及多模态模型同样覆盖。更具标志性的是,MUSA 正式成为 vLLM 官方后端,并合入 SGLang官方主线获得原生支持——开发者无需额外适配,开箱即用。
边端与终端:智能的"神经末梢",也是生态的入口
如果云端是大脑,边端与终端就是神经末梢。摩尔线程基于 MUSA 自研的"长江"智能 SoC 芯片,集成 CPU、GPU、NPU、VPU 等多个异构计算单元,算力达 50 TOPS,为端侧 AI 应用提供独立的算力底座。

在家庭场景,搭载"长江" SoC 的 MTT AICUBE 智能家庭 AI 中枢整合了"智能体+AI PC+AI NAS "三大能力。内置的"小麦"智能体预装 60 余项技能,支持超 36 款 APP 的跨应用控制;全闪存 AI NAS 模块提供本地安全存储;同时具备完整的桌面 AI PC 能力,可流畅运行本地大模型。
在个人开发场景,升级后的 MTT AIBOOK 专为智能体开发者打造:搭载原生MTT AIOS 系统,支持 12 个以上智能体同时运行,提供 90+工具调用接口,并创新支持原生 Linux、虚拟化 Windows 及容器化 Android 多系统。一台AIBOOK,即可覆盖智能体的开发、调试与部署全流程。
面向工业边缘,MTT E300 AI 模组支持混合精度计算,可在严苛环境下稳定运行,瞄准工业质检、能源巡检、智能汽车、低空经济等低延迟场景。
有人质疑摩尔线程做 To C 产品是否分散精力。但换个角度看,AICUBE 和AIBOOK 不只是消费品,更是 MUSA 生态的"开发者入口"。用一台价格亲民的设备让普通用户和开发者接触到 MUSA 架构、养成使用习惯,这种渗透方式远比纯技术推广高效——当年 CUDA 生态的起点,不也是从一块游戏显卡开始的吗?


用 AI 建生态,摩尔线程开辟GPU发展新路径
全栈兼容是 MUSA 的基础。但真正让摩尔线程拉开身位的,是它对生态建设方式本身的重新定义。
传统 GPU 生态建设是一个"人力密集型"工程:厂商雇大量工程师,逐个迁移代码、逐个开发算子、逐个适配框架,效率低、周期长。英伟达用了二十多年才建起 CUDA 的壁垒,国产厂商沿用同样的路径追赶,永远只能跟在后面。
摩尔线程的解法是:让 AI 来建设 AI 的生态。
本次发布会推出的两个 AI 工具,正在改变生态建设的速度公式:
-
Automusify 智能迁移工具——基于大模型技术,实现了对 Top 100 人工智能与 Top 100 科学计算加速仓库的 100% 零干预自动迁移。开发者上传CUDA 代码,Automusify 自动完成代码分析、语法转换、性能调优与验证,全程无需人工参与。迁移后的精度与性能,与原代码保持一致。

-
MUSACODE AI 编程助手——通过大模型智能体协同,已成功开发并交付超10000 个 Kernel 算子,覆盖绝大多数通用计算与 AI 计算场景。开发者无需学习 MUSA 语法,用自然语言描述需求,MUSACODE 自动生成高质量Kernel 代码并完成调优。目前已原生集成在 VSCode 中,即装即用。
张建中的判断是:"过去我们说'软件定义硬件',现在我们要说' AI 定义软件'。MUSA 生态不是靠摩尔线程一家来建,而是靠所有开发者,加上 AI 的力量,共建一个自进化的生态。"
这句话的潜台词是:生态建设的游戏规则正在被改写。当 AI 能自动迁移代码、自动生成算子、自动完成性能调优时,"谁先积累了二十多年开发者"这个护城河,也许没有想象中那么不可逾越。
在开源与开放上,摩尔线程在 GitHub 上开放了所有加速库与工具链的源代码,并发起了 PES 开发者联盟,联合中国移动、智源研究院、智谱 AI 等上下游伙伴,共同推进产业落地。

押注具身智能:摩尔线程提前卡位下一个算力主航道
大模型技术逐渐成熟之后,具身智能被公认为 AI 产业的下一个风口。但这条路有三道几乎绕不过去的坎:数据稀缺、真机训练成本高、场景难以泛化。
摩尔线程基于 MUSA 架构打造的 MT Lambda 全栈具身智能仿真平台,试图一站式解决这些问题。

MT Lambda 构建了从底层算力、核心引擎到上层框架的完整技术栈:底层基于 MUSA 全功能 GPU,渲染、物理、AI 计算在同一芯片完成,数据"零拷贝",仿真效率大幅提升;中间层融合了自研的 AlphaCore 物理引擎、渲染引擎与 AI 引擎;上层则提供 MT Lambda-Lab 策略开发与训练平台,以及 MT Lambda-Sim 高保真仿真平台。
发布会现场,摩尔线程现场演示了其机器狗,直观展示了平台在策略开发与动作训练上的效果。同时,摩尔线程宣布了一系列生态合作落地:
与光轮智能联合打造国产合成数据解决方案,依托千卡夸娥集群每天可生成10万帧高保真合成数据;与智源研究院合作,基于千卡夸娥集群完整训练出RoboBrain 具身大脑模型;与光线云联合打造 RaysTwins 具身仿真平台,实现任务资产一键导入、智能体算力调度、训练推理加速的全链路闭环。

上市后的摩尔线程,到底想成为什么?
2025 年成功登陆科创板之后,摩尔线程的战略节奏明显加快。从官宣 AI 训推一体智算卡 MTT S5000,到本次推出全栈智算矩阵,摩尔线程正在从一家 “GPU 芯片公司” 快速转型为一家 “全栈智算解决方案提供商”。

这种转型背后,是摩尔线程对行业趋势的深刻判断:未来的算力竞争,不再是单一芯片的竞争,而是全栈能力的竞争。随着 Agentic AI 和具身智能的兴起,算力需求正在从云端向边端和终端扩散,单一的云端 GPU 厂商无法满足全场景的算力需求。只有打通云边端,提供从硬件到软件、从训练到部署的一站式解决方案,才能在未来的竞争中占据主动。
同时,摩尔线程也在刻意与“英伟达替代者” 的标签划清界限。张建中在发布会上多次强调,MUSA 的目标不是复制 CUDA,而是打造一个更适合 AI 时代的开放生态。与英伟达封闭的生态模式不同,MUSA 坚持开源与开放的原则,在 GitHub 上开放了所有加速库与工具链的源代码,并发起了 PES 开发者联盟,联合上下游伙伴共同建设生态。
当然,我们也要清醒地看到,MUSA 生态与 CUDA 之间仍然存在不小的差距。虽然在核心 API 和算子层面已经实现了全面兼容,但在行业应用的深度和广度上,还有很长的路要走。同时,高端 GPU 的硬件性能与英伟达的最新产品相比,仍然存在一定的差距。
但不可否认的是,摩尔线程已经找到了一条适合国产 GPU 的发展道路:用全栈布局覆盖所有算力场景,用 AI 加速生态建设,用开放吸引开发者。这种 “全栈 + 自进化 + 开放” 的模式,为国产 GPU 的突围提供了一个全新的思路。
发布会尾声,张建中说:“词元时代的到来,为国产算力提供了前所未有的历史机遇。过去我们是追赶者,现在我们有机会成为并行者,甚至在某些领域成为引领者。”
言外之意是:AI 算力的格局正在改写。芯片之争只是上半场,生态之争才是终局。谁能把云、边、端打通,把训练、推理、仿真打通,把开发者、企业、硬件伙伴团结在一起,谁就能握住下一代算力的主动权。

MUSA 的故事刚刚开始。但对国产算力而言,一个更自主、更开放、更面向未来的选项,已经站在了舞台中央。
更多推荐




所有评论(0)