机器人 VLA/VA/WMA 算法评测框架深度调研
本文系统梳理了当前具身智能领域的评测体系,涵盖五大类平台:1)统一评测框架(如vla-eval、Embodied Arena)解决跨基准评测问题;2)仿真操作评测(如LIBERO、CALVIN等20+平台)覆盖不同动作空间和任务复杂度;3)真实世界评测(如GM-100、RoboChallenge)提供物理环境验证;4)世界模型评测(如RoboWM-Bench、WorldArena)专注物理可执行性
一、概述
随着 VLA 模型(如 OpenVLA、π₀、GR00T N1、CogACT 等)和世界模型(如 Cosmos、Wan、Genie 等)的蓬勃发展,如何系统、公平、可复现地评测这些模型的能力成为关键挑战。传统单个 benchmark 各自为战,存在依赖冲突、评测协议不统一、参数未文档化等问题。更严重的是,当前行业深陷"Demo 驱动"的叙事——精心布置的环境里完成一次抓取、一段行走,效果惊艳,但换一个光照条件、换一个物体材质,系统是否还能稳定工作,外界往往无从得知。
本文档系统性地梳理了当前主流的 仿真评测平台、统一评测框架、真实世界评测方案、世界模型评测基准 和 具身大脑评测平台,覆盖从操控(manipulation)到导航(navigation)、从低层控制到高层规划、从策略生成到视频预测的完整维度。
二、评测框架/平台分类总览
2.1 统一评测框架
| 名称 | 核心定位 | 仿真器 | 动作空间 | 论文/链接 |
|---|---|---|---|---|
| vla-eval | VLA 跨 benchmark 统一评测工具 | 多仿真器 | 6D-14D | arXiv:2603.13966 |
| Embodied Arena | 具身 AI 统一评测平台+排行榜 | 多环境 | — | arXiv:2509.15273 |
| RoboVerse | 统一仿真平台+数据集+评测基准 | 多仿真器 | 多种 | arXiv:2504.18904 (RSS 2025) |
2.2 仿真操作 Benchmark
| 名称 | 核心定位 | 仿真器 | 动作空间 | 论文/链接 |
|---|---|---|---|---|
| LIBERO | 知识迁移 / 长程操作 | robosuite | 7D | NeurIPS 2023 / GitHub |
| CALVIN | 长程语言条件操作 | PyBullet | 7D | RA-L 2022 / GitHub |
| RLBench | 多任务强化学习 | CoppeliaSim/PyRep | 8D | RA-L 2020 / GitHub |
| ManiSkill2/3 | 通用操控技能 (GPU 并行) | SAPIEN | 7D | ICLR 2023 / GitHub |
| SimplerEnv | 真实→仿真策略评估 | robosuite | 7D | CoRL 2024 / GitHub |
| MetaWorld | 多任务/元 RL | MuJoCo | 多种 | GitHub |
| RoboCasa | 家庭场景大规模仿真 | MuJoCo/robosuite | 7D | RSS 2024 |
| VLABench | 长程推理操控 | MuJoCo | 7D | ICCV 2025 / GitHub |
| RoboTwin 2.0 | 双臂操控 + 域随机化 | MuJoCo | 14D | CVPR 2025 Highlight |
| COLOSSEUM | 操作鲁棒性/泛化 | PyRep | 8D | arXiv:2402.08591 |
| RoboCerebra | 长程操控评测 | MuJoCo | 7D | NeurIPS 2024 |
| RoboMME | 记忆驱动机器人评测 | MuJoCo | 8D | arXiv:2603.04639 |
| MIKASA-Robo | RL + 记忆评测 | MuJoCo | 8D | arXiv:2502.10550 |
| Kinetix | 物理控制开放任务 | JAX | 6D | ICLR 2025 |
| LIBERO-Pro | 鲁棒/反记忆评测 | robosuite | 7D | arXiv:2510.03827 |
| LIBERO-Mem | 对象中心记忆评测 | robosuite | 7D | arXiv:2511.11478 |
| VLMbench | 视觉-语言组合操作 | SAPIEN | 7D | GitHub |
| AnyBody | 跨本体操控泛化 | MuJoCo | 多种 | arXiv:2505.14986 |
| GenSim/GenSim2 | LLM 生成仿真任务 | PyBullet | 7D | GitHub / arXiv:2410.03645 |
2.3 真实世界评测平台
| 名称 | 核心定位 | 机器人 | 论文/链接 |
|---|---|---|---|
| GM-100 | 100 个细节导向真实任务评测 | 多平台 | arXiv:2601.11421 |
| RoboChallenge | 全球首个大规模真实机器人在线评测 | Franka/多平台 | arXiv:2510.17950 / GitHub / 官网 |
| Dobb·E | 家庭环境真实机器人学习 | Hello Robot Stretch | arXiv:2311.16098 / GitHub |
| Open X-Embodiment | 跨本体真实机器人数据集 | 22 种机器人 | ICRA 2024 / GitHub |
2.4 世界模型/WMA 评测基准
| 名称 | 核心定位 | 评测重点 | 论文/链接 |
|---|---|---|---|
| RoboWM-Bench | 机器人世界模型物理可执行性评测 | 视觉→动作闭环 | arXiv:2604.19092 / GitHub |
| WorldArena | 具身世界模型统一评测 (感知+功能) | 16 大指标+3 大应用 | GitHub / WorldArena 2.0 |
| WBench | 多轮交互视频世界模型评测 | 5 维度 22 指标 | arXiv:2605.25874 |
| RBench | 具身视频生成评测+数据基础设施 | 任务正确性+视觉保真 | arXiv:2601.15282 / GitHub |
| EVA-Bench | 长时程预判+反射能力评测 | 开环+闭环预判 | arXiv:2410.15461 |
| EWMBench | 具身世界模型评测 (智元) | Action-conditioned 视频预测 | 智元机器人 (AGIBOT) |
| PAI-Bench | 物理 AI 综合评测 | 视频生成 8 维质量指标 | Semantic Scholar |
| WoW-World-Eval | 具身图灵测试 | IDM 逆动力学执行准确性 | BAAI |
2.5 具身大脑/MLLM 评测
| 名称 | 核心定位 | 任务数/规模 | 论文/链接 |
|---|---|---|---|
| EmbodiedBench | MLLM 具身智能综合评测 | 1,128 任务 / 4 环境 | ICLR 2025 / GitHub |
| RoboBench | MLLM 具身大脑综合评估 | 5 核心能力维度 | arXiv:2510.17801 / 官网 |
| MV-RoboBench | 多视角空间推理评测 | 1.7K QA 对 | arXiv:2510.19400 |
| RoboMemArena | 机器人记忆系统全面评测 | — | 网易 |
| EmbodiedBrain | 任务规划评测 | 仿真+真实 | arXiv:2510.20578 |
三、重点评测框架深度解析
3.1 vla-eval: VLA 统一评测框架 ⭐⭐⭐
| 属性 | 详情 |
|---|---|
| 论文 | vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models |
| 作者 | Suhwan Choi, Yunsung Lee, Yubeen Park et al. |
| GitHub | 即将发布 |
| 核心动机 | 消除 per-benchmark 集成成本,将 O(N×M) 降至 O(N+M) |
架构: 客户端-服务器 (WebSocket + msgpack) + Docker 隔离 + batch inference
支持 14 个仿真 Benchmark: SimplerEnv, LIBERO, CALVIN, RLBench, LIBERO-Pro, RoboCerebra, ManiSkill2, Kinetix, MIKASA-Robo, LIBERO-Mem, RoboMME, VLABench, RoboTwin 2.0, RoboCasa
支持 6 个模型: CogACT, OpenVLA, OpenVLA-OFT, π₀/π₀-FAST, GR00T N1, X-VLA
关键发现: 单个未文档化参数可导致 55pp 偏移 (X-VLA 用错 proprio: 97.8%→42%)
VLA Leaderboard: 657 个结果, 17 benchmark, 1704 篇论文
3.2 GM-100: 真实世界细节导向评测 ⭐⭐⭐
| 属性 | 详情 |
|---|---|
| 全称 | The Great March 100 |
| 论文 | arXiv:2601.11421 |
| 发布方 | 上海交通大学 + RHOS.ai + 蚂蚁灵波 + 蚂蚁集团 |
| 发布时间 | 2026 年 1 月 26 日开源 |
| 核心定位 | 真实机器人环境的细节导向、长尾任务评测,“具身智能统考卷” |
设计理念: 不只"能不能完成",更关注"完成得有多细"。聚焦长尾行为和精细化交互。任务设计先分析人类与物体交互的基本原语,再用 LLM 生成候选任务,最终经专家筛选优化。
评测规模: 100 个任务, 13,000 条操作轨迹
三大评测指标:
- 任务成功率 — 传统指标
- 部分成功率 — 评估完成的精确程度
- 动作预测误差 — 评估模型预测精度
核心特点: 跨平台可执行、硬件泛化性稳定、全开源低门槛
3.3 RoboChallenge: 全球首个大规模真实机器人在线评测 ⭐⭐⭐
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2510.17950 |
| 发布方 | Dexmal 原力灵机 + Hugging Face |
| 官网 | https://robochallenge.ai |
| GitHub | RoboChallenge/RoboChallengeInference |
| 核心定位 | 全球首个大规模真实物理环境机器人基准测试 |
核心突破: 真实物理环境评测(非仿真)、在线评测系统(提交 Docker→真实机器人执行→自动测量→排行榜更新)、标准化测试条件
组委会 (2025.11): Dexmal + HuggingFace + 智源 + 智元 + Qwen + 清华 + 西安交大 + GOSIM
解决问题: 克服 Sim-to-Real Gap、解决 Demo 驱动虚假繁荣
3.4 WorldArena: 具身世界模型统一评测 ⭐⭐⭐
| 属性 | 详情 |
|---|---|
| GitHub | tsinghua-fib-lab/WorldArena |
| WorldArena 2.0 | arXiv:2605.17912 |
| 官网 | https://world-arena.ai/ |
| 发布方 | 清华 FIB Lab + 高德 + 流形空间 + 普林斯顿 + NUS + 港大 |
| CVPR 2026 挑战赛 | Video World Model Workshop |
核心理念: “真能干活” — 不只看视频好不好看,更看是否遵循物理规律、能否支撑机器人实际操作
评测体系: 16 大核心指标 + 3 大真实应用任务 + 两个赛道 (感知质量 / 功能可用性)
业界影响: Cosmos 3, 智元, 跨维智能, WoW, BLM 等同台竞技
3.5 WBench: 多轮交互视频世界模型评测 ⭐⭐⭐
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2605.25874 |
| 发布方 | 复旦大学 + 美团 LongCat |
核心突破: 从单次生成到多轮交互。模型需同时充当渲染器、导演、控制器、记忆体、物理引擎。
规模: 289 测试用例, 1,058 轮交互, 第一+第三人称双视角
四大交互: 导航控制 / 主体动作 / 事件编辑 / 视角切换
5 维度 × 22 指标: 场景理解 / 交互控制 / 物理一致性 / 时序连贯 / 视觉保真
关键发现: 不存在全能模型;连续交互后导航能力平均下降 33 点
3.6 RBench: 具身视频生成评测+数据基础设施
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2601.15282 (ICML 2026) |
| 发布方 | 北京大学 + 字节跳动 Seed |
| GitHub | DAGroup-PKU/ReVidgen |
评测覆盖: 5 类任务 × 4 种机器人形态。双维度: 任务正确性(结构一致性/物理合理性/动作完整性) + 视觉保真度
配套 RoVid-X: 百万级机器人视频数据集, 3M 子集已开源
业界影响: Cosmos 3 在 RBench 开源 Top-1
3.7 RoboWM-Bench: 机器人世界模型物理可执行性评测
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2604.19092 |
| GitHub | fffstrong/RoboWM-Bench |
| 仿真器 | Isaac Lab (NVIDIA) |
评测流程: 初始观察+动作序列 → 世界模型生成视频 → IDM 逆动力学转动作 → 模拟器执行 → 测成功率
评测: Task-Level 成功率 + Step-Level 成功率
关键发现: PAI-Bench 视觉分数在 ~0.78 聚集,RoboWM-Bench 执行准确率变化显著 — 视觉合理 ≠ 物理正确
3.8 EVA-Bench: 长时程预判+反射能力评测
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2410.15461 |
评测维度: 开环预判(给定动作→预判未来视觉) + 闭环反射(根据反馈修正) + 分布外鲁棒性(视角/布局/运动变化)
与 RoboWM-Bench 互补: EVA-Bench 强调长时程预判和分布外鲁棒性
3.9 EWMBench: 智元具身世界模型评测
| 属性 | 详情 |
|---|---|
| 发布方 | 智元机器人 (AGIBOT) |
| 核心定位 | Action-conditioned 视频预测评测 |
| 评测维度 | 视觉场景一致性 / 运动质量 / 动作条件遵循 |
3.10 PAI-Bench: 物理 AI 综合评测
| 属性 | 详情 |
|---|---|
| 论文 | Semantic Scholar |
| 评测维度 | SC(主体一致性) / BC(背景一致性) / MS(运动平滑) / AQ(美学质量) / IQ(成像质量) / OC(整体一致性) / IS(I2V 主体) / IB(I2V 背景) |
3.11 WoW-World-Eval: 具身图灵测试
| 属性 | 详情 |
|---|---|
| 来源 | BAAI |
| 核心创新 | 首次采用 IDM (逆动力学模型) 评估视频基础模型在真实世界中的执行准确性 |
| 定位 | “具身图灵测试” — 生成的视频是否对应真实可执行的动作序列 |
3.12 Embodied Arena: 统一具身大脑评测平台
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2509.15273 |
| 发布方 | 上海交通大学等 10 余家院校 |
| 规模 | 22+ 基准 / 30+ 模型 |
三大任务: Embodied Q&A / Navigation / Task Planning
实时排行榜: benchmark view + capability view 双视角
七大洞察: 基础感知制约高阶推理 / 物体空间感知是短板 / 长程规划严重不足 / 多步推理衰减 / 跨模态对齐不精
3.13 RoboBench / MV-RoboBench: MLLM 具身大脑评测
RoboBench (arXiv:2510.17801, 北大&BAAI):
- 五核心能力: 空间感知 / 属性识别 / 操控规划 / 安全意识 / 常识推理
MV-RoboBench (arXiv:2510.19400):
- 首个多视角空间推理评测, 基于真实机器人演示数据
- 1.7K 高质量人工标注 QA 对
- 同步多摄像头视角, 覆盖空间理解与机器人执行
3.14 EmbodiedBench: MLLM 具身智能综合评测
| 属性 | 详情 |
|---|---|
| 论文 | ICLR 2025 |
| GitHub | EmbodiedBench |
| 规模 | 1,128 任务 / 4 环境 / 24 个 MLLM |
6 个评测子集: 常识推理 / 复杂指令 / 空间感知 / 视觉感知 / 长期规划 / 低层操控
关键发现: GPT-4o 在低层操控仅 28.9% 成功率
3.15 LIBERO: 知识迁移与长程操作评测
| 属性 | 详情 |
|---|---|
| 论文 | NeurIPS 2023 |
| GitHub | Lifelong-Robot-Learning/LIBERO |
| 仿真器 | robosuite / Franka Panda (7-DOF) |
| 任务数 | 130 个任务, 5 个 suite |
5 个 Suite: Spatial / Object / Goal / Long / Goal+Spatial
典型 SOTA (部分):
| 方法 | Spatial | Object | Goal | Long | Avg |
|---|---|---|---|---|---|
| OpenVLA-OFT | 96.9 | 98.1 | 95.5 | 91.1 | 95.4 |
| UniVLA | 96.5 | 96.8 | 95.6 | 92.0 | 95.2 |
| π₀ | 90 | 86 | 95 | 73 | 86.0 |
| OpenVLA | 84.7 | 88.4 | 79.2 | 53.7 | 76.5 |
| Octo | 78.9 | 85.7 | 84.6 | 51.1 | 75.1 |
3.16 CALVIN: 长程语言条件操作
| 属性 | 详情 |
|---|---|
| 论文 | RA-L 2022 |
| GitHub | mees/calvin |
| 仿真器 | PyBullet |
| 任务数 | 34 个任务, 4 环境 (A/B/C/D) |
| 评测协议 | ABC→D (零样本泛化) |
| 核心指标 | 连续任务链成功率 (1-5 步) |
3.17 RoboVerse: 统一仿真平台+数据集+评测基准
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2504.18904 (RSS 2025) |
| 发布方 | UC Berkeley + 北大 + USC + UMich + UIUC + Stanford + CMU + BIGAI |
| 核心定位 | 统一仿真平台 + 合成数据集 + 标准化评测基准三合一 |
三大组件:
- 仿真平台: 支持多种仿真器后端的统一接口
- 合成数据集: 大规模机器人操作数据
- 统一基准: 标准化评测协议
3.18 VLABench: 长程推理操控
| 属性 | 详情 |
|---|---|
| 论文 | ICCV 2025 |
| GitHub | OpenMOSS/VLABench |
| 核心特色 | 首个综合评测 VLA 和 VLM 在操控任务中能力的 benchmark |
四大优势: 需要世界知识和常识迁移的任务 / 自然非模板语言指令 / 多步推理长时程任务 / 行动策略+语言模型双重评估
3.19 Dobb·E: 家庭环境真实机器人学习
| 属性 | 详情 |
|---|---|
| 论文 | arXiv:2311.16098 |
| GitHub | notmahi/dobb-e |
| 发布方 | NYU + Meta |
| 机器人 | Hello Robot Stretch |
| 核心创新 | 用 iPhone 收集家庭演示数据,20 分钟教会机器人一项家务 |
四、评测维度综合对比矩阵
| 评测维度 | vla-eval | LIBERO | CALVIN | RLBench | SimplerEnv | GM-100 | RoboChallenge | RoboWM-Bench | WorldArena | WBench | RBench |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 任务成功率 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | — | — | — |
| 部分成功率 | — | — | — | — | — | ✅ | — | — | — | — | — |
| 动作预测误差 | — | — | — | — | — | ✅ | — | — | — | — | — |
| 长程规划 | ✅(Long) | ✅(Long) | ✅(chain) | — | — | — | — | — | — | — | — |
| 空间泛化 | ✅(Spatial) | ✅ | — | — | — | — | — | — | — | — | — |
| 物体泛化 | ✅(Object) | ✅ | — | — | — | — | — | — | — | — | — |
| 鲁棒性/扰动 | ✅(COLOSSEUM) | — | — | ✅(COLOSSEUM) | ✅ | ✅(长尾) | ✅(真实) | — | — | — | — |
| 跨本体 | ✅ | — | — | — | ✅ | ✅ | — | — | — | — | — |
| 真实环境 | — | — | — | — | — | ✅ | ✅ | — | — | — | — |
| 视频生成质量 | — | — | — | — | — | — | — | — | ✅ | ✅ | ✅ |
| 物理可执行性 | — | — | — | — | — | — | — | ✅ | ✅ | — | — |
| 多轮交互 | — | — | — | — | — | — | — | — | — | ✅ | — |
| 物理一致性 | — | — | — | — | — | — | — | — | ✅ | ✅ | ✅ |
| 视角/分布外 | — | — | — | — | — | — | — | — | — | ✅ | — |
| 双臂协作 | — | — | — | — | — | — | — | — | — | — | — |
五、各评测框架的差异与适用场景
5.1 仿真 vs. 真实
| 类别 | 代表框架 | 优势 | 不足 |
|---|---|---|---|
| 纯仿真 | LIBERO, CALVIN, RLBench, ManiSkill, MetaWorld | 可复现、低成本、大规模 | Sim-to-Real Gap |
| 仿真近似真实 | SimplerEnv, RoboTwin 2.0 (域随机化) | 更接近真实场景 | 仍有 gap |
| 真实评测平台 | GM-100, RoboChallenge | 最真实、克服 Demo 驱动问题 | 成本高、标准化难 |
| 家庭真实部署 | Dobb·E | 真实家庭场景 | 单一机器人、规模有限 |
5.2 操作模型 vs. 世界模型 vs. 大脑评测
| 评测目标 | 代表框架 | 评测方式 | 核心指标 |
|---|---|---|---|
| VLA/策略模型 | vla-eval, LIBERO, CALVIN, RLBench, GM-100, RoboChallenge | 给定观测→预测动作→执行→测成功率 | Task Success Rate / Partial Success |
| 世界模型 (WMA) | RoboWM-Bench, WorldArena, WBench, RBench, EVA-Bench, EWMBench | 给定初始帧+动作→生成视频→测视觉+物理可执行性 | Quality Score + Execution Accuracy + 多轮一致性 |
| 物理 AI 视频 | PAI-Bench, WoW-World-Eval | 视频生成质量+IDM 可执行性 | PAI 分数 / 图灵测试通过率 |
| MLLM 规划 | EmbodiedBench, RoboBench, Embodied Arena | 给定视觉+语言→输出行动计划→测规划正确性 | Plan Correctness / Success Rate / 多视角推理 |
| 统一横评 | vla-eval, Embodied Arena | 跨 benchmark/跨能力评测 | 聚合排行榜 |
5.3 世界模型评测的层次体系
世界模型评测
├── 视觉质量层 (PAI-Bench)
│ └── 传统视频生成指标:SC, BC, MS, AQ, IQ, OC
├── 具身功能层 (RoboWM-Bench, WorldArena Track 2)
│ └── 视频预测→IDM 逆动力学→模拟器执行→测成功率
├── 多轮交互层 (WBench)
│ └── 导航/动作/事件编辑/视角切换的连续交互一致性
├── 任务正确性层 (RBench)
│ └── 结构一致性 + 物理合理性 + 动作完整性
├── 长时程预判层 (EVA-Bench)
│ └── 开环预判 + 闭环反射 + 分布外鲁棒性
└── 图灵测试层 (WoW-World-Eval)
└── IDM 判别生成视频是否对应真实可执行动作
六、评测中的关键陷阱与最佳实践
6.1 评测协议不统一的问题 (vla-eval 发现)
- 未文档化的预处理: OpenVLA 评估时的 center crop (scale=0.9) 未论文说明,省略后 ↓3pp
- 本体感知混淆: X-VLA 用错 proprio → 97.8% 变 42%(55pp 偏移)
- 动作模式混淆: 绝对 vs 增量 → 生成 0% 成功率
- 四元数归一化: OpenVLA-OFT 缺少对极归一化 → LIBERO-Goal 97%→83%
- 仿真器内部差异: GR00T 缺少内部 simulator proprio → 30-55%→0%
- 评估协议不一致: SimplerEnv 3 种不兼容机器人配置;CALVIN ABC→D 与 ABCD→D 不可比
6.2 最佳实践建议
- 使用统一评测框架 (vla-eval),避免自行搭建评测管线引入偏差
- 完整记录评测配置: seeds, episode counts, preprocessing, action mode, proprio source
- 做多 benchmark 交叉验证: 81% 的模型仅在单个 benchmark 上评测
- 真实+仿真双验证: 参考 GM-100 + RoboChallenge 的真实环境基准
- 区分评测协议: 不同 split、不同任务子集的结果不可直接比较
- 世界模型评测需超越视觉质量: RoboWM-Bench 证明视觉合理 ≠ 物理正确
- 关注评测效率: vla-eval 的 episode sharding + batch inference 可天→分钟级
七、总结与推荐
7.1 当前格局
| 需求 | 推荐评测方案 |
|---|---|
| VLA 模型通用能力评测 | vla-eval + LIBERO + CALVIN + SimplerEnv |
| 长程规划能力 | CALVIN (ABC→D 5-step chain) |
| 空间/物体/目标泛化 | LIBERO (4 个 suite) |
| 真实机器人策略评估 | SimplerEnv (Google Robot 设定) |
| 真实世界大规模评测 | GM-100 (细节导向) + RoboChallenge (在线提交) |
| 鲁棒性与扰动泛化 | COLOSSEUM (RLBench 扩展) / RoboTwin 2.0 (域随机化) |
| 双臂操控 | RoboTwin 2.0 |
| 世界模型物理可执行性 | RoboWM-Bench (执行准确性) + WorldArena (感知+功能) |
| 世界模型多轮交互 | WBench (5维度22指标) |
| 世界模型视频生成质量 | RBench (任务正确性+视觉保真) + PAI-Bench (8维视觉指标) |
| 世界模型长时程预判 | EVA-Bench (开环+闭环) |
| MLLM 高层规划能力 | EmbodiedBench + RoboBench |
| MLLM 统一横评 | Embodied Arena (22+基准 / 30+模型) |
| 跨本体数据训练 | Open X-Embodiment |
| 跨本体操控泛化 | AnyBody |
| 家庭场景 | RoboCasa / Dobb·E |
| 统一仿真+数据+评测 | RoboVerse |
7.2 关键趋势
- 从仿真走向真实: GM-100、RoboChallenge 标志着评测从仿真走向真实物理环境
- 从单一走向统一: vla-eval、Embodied Arena 将分散的 benchmark 统一化
- 世界模型评测从视觉走向物理: RoboWM-Bench、WorldArena 证明视觉逼真 ≠ 功能可用
- 从单轮走向多轮: WBench 首次系统评测多轮交互下的世界模型表现
- 从"能否完成"到"完成多细": GM-100 引入部分成功率和动作预测误差
- 真实环境在线评测兴起: RoboChallenge 建立"提交 Docker→真实机器人→排行榜"闭环
- 跨 benchmark 评测仍然稀少: 仅 6% 的模型在 3+ benchmark 上评测
- 评测协议标准化迫在眉睫: 一个未文档化参数可导致 55pp 偏移
八、参考资源汇总
论文
- vla-eval — arXiv:2603.13966
- GM-100 — arXiv:2601.11421
- RoboChallenge — arXiv:2510.17950
- WorldArena / 2.0 — GitHub / arXiv:2605.17912
- WBench — arXiv:2605.25874
- RBench — arXiv:2601.15282 (ICML 2026)
- RoboWM-Bench — arXiv:2604.19092
- EVA-Bench — arXiv:2410.15461
- PAI-Bench — Semantic Scholar
- WoW-World-Eval — BAAI
- LIBERO — arXiv:2306.03110 (NeurIPS 2023)
- CALVIN — arXiv:2112.03282 (RA-L 2022)
- RLBench — arXiv:1909.12271 (RA-L 2020)
- ManiSkill2/3 — arXiv:2302.09538 (ICLR 2023)
- SimplerEnv — arXiv:2406.10759 (CoRL 2024)
- RoboCasa — arXiv:2406.02523 (RSS 2024)
- VLABench — arXiv:2412.18194 (ICCV 2025)
- RoboTwin 2.0 — arXiv:2506.18088 (CVPR 2025 Highlight)
- COLOSSEUM — arXiv:2402.08591
- Open X-Embodiment — arXiv:2310.08864 (ICRA 2024)
- EmbodiedBench — ICLR 2025
- RoboBench — arXiv:2510.17801
- MV-RoboBench — arXiv:2510.19400
- Embodied Arena — arXiv:2509.15273
- RoboVerse — arXiv:2504.18904 (RSS 2025)
- AnyBody — arXiv:2505.14986
- Dobb·E — arXiv:2311.16098
- GenSim2 — arXiv:2410.03645
- EmbodiedBrain — arXiv:2510.20578
- RoboCerebra — arXiv:2406.03664
- EWMBench — 智元机器人 (AGIBOT)
- EmbodiedBench — ICLR 2025
- OpenVLA — arXiv:2406.09246 (CoRL 2024)
- π₀ — arXiv:2410.24164
- GR00T N1 — arXiv:2503.14734
GitHub 项目
| 项目 | 链接 |
|---|---|
| vla-eval | 即将发布 |
| LIBERO | https://github.com/Lifelong-Robot-Learning/LIBERO |
| CALVIN | https://github.com/mees/calvin |
| RLBench | https://github.com/stepjam/RLBench |
| ManiSkill | https://github.com/haosulab/ManiSkill |
| SimplerEnv | https://github.com/simpler-env/SimplerEnv |
| MetaWorld | https://github.com/Farama-Foundation/Metaworld |
| VLABench | https://github.com/OpenMOSS/VLABench |
| RoboTwin | https://github.com/Tong-Zhu/RoboTwin |
| RoboWM-Bench | https://github.com/fffstrong/RoboWM-Bench |
| WorldArena | https://github.com/tsinghua-fib-lab/WorldArena |
| RBench/ReVidgen | https://github.com/DAGroup-PKU/ReVidgen |
| EmbodiedBench | https://github.com/EmbodiedBench/EmbodiedBench |
| RoboChallenge | https://github.com/RoboChallenge/RoboChallengeInference |
| Dobb·E | https://github.com/notmahi/dobb-e |
| GenSim | https://github.com/liruiw/GenSim |
| VLMbench | https://github.com/eric-ai-lab/VLMbench |
| Awesome-World-Models | https://github.com/leofan90/awesome-world-models |
| Open X-Embodiment | https://github.com/google-deepmind/open_x_embodiment |
更多推荐



所有评论(0)