【具身智能】GR00T N1：通用人形机器人开放基础模型

核心贡献公开了 GR00T-N1-2B 模型权重、训练数据、仿真环境（GitHub+HuggingFace），降低通用机器人研究门槛；技术突破：双系统 VLA 架构解决 “推理慢 + 动作笨” 的矛盾，数据金字塔解决 “数据稀缺”，为后续通用机器人模型提供范式；落地验证：在真实 GR-1 人形机器人上实现 “语言指令控制双手操作”，证明基础模型在人形机器人上的可行性。局限性任务范围：目前仅支持 “

yubinCloud

1033人浏览 · 2025-11-02 22:34:19

yubinCloud · 2025-11-02 22:34:19 发布

GR00T N1：通用人形机器人开放基础模型

关键词：#具身智能 #VLA #双系统 #人形机器人

论文题目：GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

arXiv:2503.14734

单位：NVIDIA

https://developer.nvidia.com/isaac/gr00t

更多论文每日解读关注 v 公众号：https://mp.weixin.qq.com/s/vw4NXRffLgg0WvaprdzWJQ

论文速读

GR00T N1 是 NVIDIA 推出的一个用于通用人形机器人的开放基础模型，其研究目标：

构建一个通用的机器人基础模型，让人形机器人能在复杂、多变的人类环境中理解语言指令、感知环境并执行动作。
解决机器人数据稀缺的问题，提出异构数据训练策略（包括真实机器人数据、人类视频、合成数据等）。

GR00T N1 希望让不同形态的机器人（从单臂到人形）都能复用同一套 “智能大脑”，且用少量数据就能快速适应新任务。

GR00T N1 模型架构

双系统架构

GR00T N1 的核心是双系统架构（灵感来自于“快慢思考”理论），两个系统端到端联合训练，兼顾 “理解任务” 和 “流畅动作”。

图像观察与语言指令转换为一个 token 序列，供 VLM 主干处理，VLM 的输出与机器人状态和动作编码一起传递给 Diffusion Transformer 模块来生成电机动作。

系统	核心功能	技术方案	运行频率	作用
System 2（慢思考）	理解环境与任务	预训练视觉语言模型（Eagle-2 VLM）	10Hz	处理 “图像 + 语言指令”，比如从 “拿起红色苹果放进篮子” 的指令和摄像头图像中，定位苹果 / 篮子位置，明确 “要做什么”
System 1（快动作）	生成流畅电机动作	扩散 Transformer（DiT）+ 动作流匹配	120Hz	接收 System 2 的推理结果，生成机器人关节 / 手部的实时动作，比如 “左手移动到苹果上方→握爪→抬起→递给右手→右手放进篮子”

关键技术细节

跨形态适配（支持不同机器人）

不同机器人的 “状态 / 动作维度” 不同（比如单臂有 6 个自由度，人形有 50 + 个关节），GR00T 用专属 MLP 编码器将不同机器人的状态（关节角度、手部位置）和动作（电机指令）映射到统一特征空间，实现 “一套模型通用于所有机器人”。

通过特定投影层适配不同机器人

动作生成：用 “流匹配” 替代传统扩散

传统扩散模型生成动作慢，GR00T 用 “动作流匹配”：先给随机噪声加 “动作趋势”，再通过 4 步去噪（K=4）生成连续动作序列（每次生成 16 步动作，对应 16/120≈0.13 秒的动作规划），既保证动作流畅，又提升推理速度。

VLM 的优化

用 Eagle-2 VLM（基于 SmolLM2 语言模型 + SigLIP-2 图像编码器预训练），且特意用中间层特征（而非最后一层），既提升推理速度，又让下游动作生成更精准（实验证明成功率更高）。

数据策略

为了解决“机器人数据不够用”的问题，GR00T 提出数据金字塔策略，用 “低成本数据补高成本数据”，三层数据总时长超 8300 小时：

这些数据具体信息如下：

核心创新：把 “非机器人数据” 变成 “机器人可用数据”

使用潜动作学习（Latent Actions）和逆动力学模型（IDM），从无动作视频中推断伪动作标签。

人类视频→潜在动作：用 VQ-VAE 编码器，输入 “当前帧 + 未来帧”，输出 “潜在动作向量”，模型能从人类开冰箱的视频中，学到 “机器人开冰箱的动作逻辑”；
神经轨迹→伪动作：用 IDM 模型（基于 GR00T 的 DiT 架构），从生成的视频帧反推机器人动作，让 “纯合成视频” 能直接用于训练。

具体的数据合成方法可以参考原论文。

一些 Tips：

由于同时控制双臂和灵巧手具有挑战性，因此为类人机器人扩展真实世界的数据采集非常昂贵。最近的一些研究表明，在仿真中生成训练数据是一种实用的替代方案。我们使用 DexMimicGen 来合成大规模机器人操作轨迹。使用 DexMimicGen，我们将有限的人类演示扩展为大规模的人形机器人操作数据集。
训练也是分成了“预训练”和“后训练”。

实验

仿真基准：跨机器人形态表现

在三个仿真任务集上，GR00T-N1-2B（22 亿参数）全方面领先基线：

真实世界：GR-1 机器人测试

在 4 类真实任务中，GR00T 展现极强的数据效率（用 10% 数据就能打平基线全数据）：

关键结论：

数据效率：GR00T 用 10% 真实数据（如某任务仅采集 15 分钟），成功率（42.6%）接近基线用 100% 数据（46.4%）；
动作质量：GR00T 生成的动作更流畅（无卡顿），抓取准确率比基线高 30%+（比如 “拿柠檬” 任务，基线常抓空，GR00T 几乎不失误）；
预训练泛化：预训练模型无需微调，就能完成 “双手交接物体”（成功率 76.6%）和 “新物体放进新容器”（73.3%），说明基础常识扎实。

总结

核心贡献：

公开了 GR00T-N1-2B 模型权重、训练数据、仿真环境（GitHub+HuggingFace），降低通用机器人研究门槛；
技术突破：双系统 VLA 架构解决 “推理慢 + 动作笨” 的矛盾，数据金字塔解决 “数据稀缺”，为后续通用机器人模型提供范式；
落地验证：在真实 GR-1 人形机器人上实现 “语言指令控制双手操作”，证明基础模型在人形机器人上的可行性。

局限性：

任务范围：目前仅支持 “短时长桌面任务”（如 30 秒内拾取），无法处理 “长时任务”（如做饭：切菜→炒菜→装盘）；
合成数据质量：神经轨迹偶尔违反物理规律（如物体穿墙），仿真数据与真实物理环境仍有差距；
硬件依赖：推理需 NVIDIA L40/H100 GPU，难以部署到低算力机器人（未来需轻量化）。

一句话总结：

GR00T N1 是 NVIDIA 为通用人形机器人打造的 “开源智能大脑”—— 通过 “双系统 VLA 架构” 实现 “理解指令 + 流畅动作”，用 “数据金字塔” 解决数据稀缺，在仿真和真实 GR-1 机器人上证明：一套模型能适配不同机器人，且用少量数据就能快速学会新任务，为通用机器人的普及迈出关键一步。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

2026 年 5 月 16 日 AI 行业大事件：编程智能体爆发、巨头生态博弈、具身智能落地提速

今日，在武汉举办的世界电信和信息社会日大会上，中国信通院联合三大运营商、AIIA 等机构，正式发起智能 IP 广域网（AI WAN）应用推进行动。企业入算：低成本高效调用远程算力；边缘入算：赋能智慧家庭算力服务；城域网络：支撑 AI 分布式训练 / 推理；数据流通：保障数据要素安全高速流转。此举标志着国内 AI 算力基建从 “单点建设” 转向全网协同，为大模型、具身智能等产业落地提供关键网络支撑。

魔珐星云开发社区

天津机器人，藏不住了

这里拥有全国门类最齐全的工业体系，有着最扎实的重工底子，更构建起一条从核心零部件研发、本体制造到场景集成应用的完整闭环产业链——这种深厚的产业土壤、这份产业链闭环生态，是天津在具身智能机器人领域独有的生态位，是其他城市难以复制、无法照搬的核心壁垒，更是中国机器人产业突围的重要支撑。幽蓝的海水包裹着机身，亮黄色的外壳在深海里格外醒目，如同真正的 “水下大黄蜂”一样，在暗流中稳稳悬停，灵活转向、进退自

魔珐星云开发社区

985硕只为了就业，纯语言大模型LLM、多模态大模型、生成式模型AIGC选那条路好？

未来AI就业，拼的其实不是谁技术懂得多，是谁的技术更稀缺。你的PINN背景根本不是包袱，那是通往‘物理AI’的独家入场券。纯LLM再卷，具身智能永远需要懂物理的人才。别焦虑，把精力放在‘物理+多模态’这个差异化赛道上。毕业前补齐技能，手里捏个好项目，拿个中意的Offer，其实没那么难。起点很重要。不循规蹈矩，以小博大，这完全可能。