机器人 VLA/VA/WMA 算法评测框架深度调研

本文系统梳理了当前具身智能领域的评测体系，涵盖五大类平台：1）统一评测框架（如vla-eval、Embodied Arena）解决跨基准评测问题；2）仿真操作评测（如LIBERO、CALVIN等20+平台）覆盖不同动作空间和任务复杂度；3）真实世界评测（如GM-100、RoboChallenge）提供物理环境验证；4）世界模型评测（如RoboWM-Bench、WorldArena）专注物理可执行性

周熙钦（Alpha）

88人浏览 · 2026-06-05 19:36:43

周熙钦（Alpha） · 2026-06-05 19:36:43 发布

一、概述

随着 VLA 模型（如 OpenVLA、π₀、GR00T N1、CogACT 等）和世界模型（如 Cosmos、Wan、Genie 等）的蓬勃发展，如何系统、公平、可复现地评测这些模型的能力成为关键挑战。传统单个 benchmark 各自为战，存在依赖冲突、评测协议不统一、参数未文档化等问题。更严重的是，当前行业深陷"Demo 驱动"的叙事——精心布置的环境里完成一次抓取、一段行走，效果惊艳，但换一个光照条件、换一个物体材质，系统是否还能稳定工作，外界往往无从得知。

本文档系统性地梳理了当前主流的 仿真评测平台、统一评测框架、真实世界评测方案、世界模型评测基准 和 具身大脑评测平台，覆盖从操控（manipulation）到导航（navigation）、从低层控制到高层规划、从策略生成到视频预测的完整维度。

二、评测框架/平台分类总览

2.1 统一评测框架

名称	核心定位	仿真器	动作空间	论文/链接
vla-eval	VLA 跨 benchmark 统一评测工具	多仿真器	6D-14D	arXiv:2603.13966
Embodied Arena	具身 AI 统一评测平台+排行榜	多环境	—	arXiv:2509.15273
RoboVerse	统一仿真平台+数据集+评测基准	多仿真器	多种	arXiv:2504.18904 (RSS 2025)

2.2 仿真操作 Benchmark

名称	核心定位	仿真器	动作空间	论文/链接
LIBERO	知识迁移 / 长程操作	robosuite	7D	NeurIPS 2023 / GitHub
CALVIN	长程语言条件操作	PyBullet	7D	RA-L 2022 / GitHub
RLBench	多任务强化学习	CoppeliaSim/PyRep	8D	RA-L 2020 / GitHub
ManiSkill2/3	通用操控技能 (GPU 并行)	SAPIEN	7D	ICLR 2023 / GitHub
SimplerEnv	真实→仿真策略评估	robosuite	7D	CoRL 2024 / GitHub
MetaWorld	多任务/元 RL	MuJoCo	多种	GitHub
RoboCasa	家庭场景大规模仿真	MuJoCo/robosuite	7D	RSS 2024
VLABench	长程推理操控	MuJoCo	7D	ICCV 2025 / GitHub
RoboTwin 2.0	双臂操控 + 域随机化	MuJoCo	14D	CVPR 2025 Highlight
COLOSSEUM	操作鲁棒性/泛化	PyRep	8D	arXiv:2402.08591
RoboCerebra	长程操控评测	MuJoCo	7D	NeurIPS 2024
RoboMME	记忆驱动机器人评测	MuJoCo	8D	arXiv:2603.04639
MIKASA-Robo	RL + 记忆评测	MuJoCo	8D	arXiv:2502.10550
Kinetix	物理控制开放任务	JAX	6D	ICLR 2025
LIBERO-Pro	鲁棒/反记忆评测	robosuite	7D	arXiv:2510.03827
LIBERO-Mem	对象中心记忆评测	robosuite	7D	arXiv:2511.11478
VLMbench	视觉-语言组合操作	SAPIEN	7D	GitHub
AnyBody	跨本体操控泛化	MuJoCo	多种	arXiv:2505.14986
GenSim/GenSim2	LLM 生成仿真任务	PyBullet	7D	GitHub / arXiv:2410.03645

2.3 真实世界评测平台

名称	核心定位	机器人	论文/链接
GM-100	100 个细节导向真实任务评测	多平台	arXiv:2601.11421
RoboChallenge	全球首个大规模真实机器人在线评测	Franka/多平台	arXiv:2510.17950 / GitHub / 官网
Dobb·E	家庭环境真实机器人学习	Hello Robot Stretch	arXiv:2311.16098 / GitHub
Open X-Embodiment	跨本体真实机器人数据集	22 种机器人	ICRA 2024 / GitHub

2.4 世界模型/WMA 评测基准

名称	核心定位	评测重点	论文/链接
RoboWM-Bench	机器人世界模型物理可执行性评测	视觉→动作闭环	arXiv:2604.19092 / GitHub
WorldArena	具身世界模型统一评测 (感知+功能)	16 大指标+3 大应用	GitHub / WorldArena 2.0
WBench	多轮交互视频世界模型评测	5 维度 22 指标	arXiv:2605.25874
RBench	具身视频生成评测+数据基础设施	任务正确性+视觉保真	arXiv:2601.15282 / GitHub
EVA-Bench	长时程预判+反射能力评测	开环+闭环预判	arXiv:2410.15461
EWMBench	具身世界模型评测 (智元)	Action-conditioned 视频预测	智元机器人 (AGIBOT)
PAI-Bench	物理 AI 综合评测	视频生成 8 维质量指标	Semantic Scholar
WoW-World-Eval	具身图灵测试	IDM 逆动力学执行准确性	BAAI

2.5 具身大脑/MLLM 评测

名称	核心定位	任务数/规模	论文/链接
EmbodiedBench	MLLM 具身智能综合评测	1,128 任务 / 4 环境	ICLR 2025 / GitHub
RoboBench	MLLM 具身大脑综合评估	5 核心能力维度	arXiv:2510.17801 / 官网
MV-RoboBench	多视角空间推理评测	1.7K QA 对	arXiv:2510.19400
RoboMemArena	机器人记忆系统全面评测	—	网易
EmbodiedBrain	任务规划评测	仿真+真实	arXiv:2510.20578

三、重点评测框架深度解析

3.1 vla-eval: VLA 统一评测框架 ⭐⭐⭐

属性	详情
论文	vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
作者	Suhwan Choi, Yunsung Lee, Yubeen Park et al.
GitHub	即将发布
核心动机	消除 per-benchmark 集成成本，将 O(N×M) 降至 O(N+M)

架构: 客户端-服务器 (WebSocket + msgpack) + Docker 隔离 + batch inference

支持 14 个仿真 Benchmark: SimplerEnv, LIBERO, CALVIN, RLBench, LIBERO-Pro, RoboCerebra, ManiSkill2, Kinetix, MIKASA-Robo, LIBERO-Mem, RoboMME, VLABench, RoboTwin 2.0, RoboCasa

支持 6 个模型: CogACT, OpenVLA, OpenVLA-OFT, π₀/π₀-FAST, GR00T N1, X-VLA

关键发现: 单个未文档化参数可导致 55pp 偏移 (X-VLA 用错 proprio: 97.8%→42%)

VLA Leaderboard: 657 个结果, 17 benchmark, 1704 篇论文

3.2 GM-100: 真实世界细节导向评测 ⭐⭐⭐

属性	详情
全称	The Great March 100
论文	arXiv:2601.11421
发布方	上海交通大学 + RHOS.ai + 蚂蚁灵波 + 蚂蚁集团
发布时间	2026 年 1 月 26 日开源
核心定位	真实机器人环境的细节导向、长尾任务评测，“具身智能统考卷”

设计理念: 不只"能不能完成"，更关注"完成得有多细"。聚焦长尾行为和精细化交互。任务设计先分析人类与物体交互的基本原语，再用 LLM 生成候选任务，最终经专家筛选优化。

评测规模: 100 个任务, 13,000 条操作轨迹

三大评测指标:

任务成功率 — 传统指标
部分成功率 — 评估完成的精确程度
动作预测误差 — 评估模型预测精度

核心特点: 跨平台可执行、硬件泛化性稳定、全开源低门槛

3.3 RoboChallenge: 全球首个大规模真实机器人在线评测 ⭐⭐⭐

属性	详情
论文	arXiv:2510.17950
发布方	Dexmal 原力灵机 + Hugging Face
官网	https://robochallenge.ai
GitHub	RoboChallenge/RoboChallengeInference
核心定位	全球首个大规模真实物理环境机器人基准测试

核心突破: 真实物理环境评测（非仿真）、在线评测系统（提交 Docker→真实机器人执行→自动测量→排行榜更新）、标准化测试条件

组委会 (2025.11): Dexmal + HuggingFace + 智源 + 智元 + Qwen + 清华 + 西安交大 + GOSIM

解决问题: 克服 Sim-to-Real Gap、解决 Demo 驱动虚假繁荣

3.4 WorldArena: 具身世界模型统一评测 ⭐⭐⭐

属性	详情
GitHub	tsinghua-fib-lab/WorldArena
WorldArena 2.0	arXiv:2605.17912
官网	https://world-arena.ai/
发布方	清华 FIB Lab + 高德 + 流形空间 + 普林斯顿 + NUS + 港大
CVPR 2026 挑战赛	Video World Model Workshop

核心理念: “真能干活” — 不只看视频好不好看，更看是否遵循物理规律、能否支撑机器人实际操作

评测体系: 16 大核心指标 + 3 大真实应用任务 + 两个赛道 (感知质量 / 功能可用性)

业界影响: Cosmos 3, 智元, 跨维智能, WoW, BLM 等同台竞技

3.5 WBench: 多轮交互视频世界模型评测 ⭐⭐⭐

属性	详情
论文	arXiv:2605.25874
发布方	复旦大学 + 美团 LongCat

核心突破: 从单次生成到多轮交互。模型需同时充当渲染器、导演、控制器、记忆体、物理引擎。

规模: 289 测试用例, 1,058 轮交互, 第一+第三人称双视角

四大交互: 导航控制 / 主体动作 / 事件编辑 / 视角切换

5 维度 × 22 指标: 场景理解 / 交互控制 / 物理一致性 / 时序连贯 / 视觉保真

关键发现: 不存在全能模型；连续交互后导航能力平均下降 33 点

3.6 RBench: 具身视频生成评测+数据基础设施

属性	详情
论文	arXiv:2601.15282 (ICML 2026)
发布方	北京大学 + 字节跳动 Seed
GitHub	DAGroup-PKU/ReVidgen

评测覆盖: 5 类任务 × 4 种机器人形态。双维度: 任务正确性(结构一致性/物理合理性/动作完整性) + 视觉保真度

配套 RoVid-X: 百万级机器人视频数据集, 3M 子集已开源

业界影响: Cosmos 3 在 RBench 开源 Top-1

3.7 RoboWM-Bench: 机器人世界模型物理可执行性评测

属性	详情
论文	arXiv:2604.19092
GitHub	fffstrong/RoboWM-Bench
仿真器	Isaac Lab (NVIDIA)

评测流程: 初始观察+动作序列 → 世界模型生成视频 → IDM 逆动力学转动作 → 模拟器执行 → 测成功率

评测: Task-Level 成功率 + Step-Level 成功率

关键发现: PAI-Bench 视觉分数在 ~0.78 聚集，RoboWM-Bench 执行准确率变化显著 — 视觉合理 ≠ 物理正确

3.8 EVA-Bench: 长时程预判+反射能力评测

属性	详情
论文	arXiv:2410.15461

评测维度: 开环预判(给定动作→预判未来视觉) + 闭环反射(根据反馈修正) + 分布外鲁棒性(视角/布局/运动变化)

与 RoboWM-Bench 互补: EVA-Bench 强调长时程预判和分布外鲁棒性

3.9 EWMBench: 智元具身世界模型评测

属性	详情
发布方	智元机器人 (AGIBOT)
核心定位	Action-conditioned 视频预测评测
评测维度	视觉场景一致性 / 运动质量 / 动作条件遵循

3.10 PAI-Bench: 物理 AI 综合评测

属性	详情
论文	Semantic Scholar
评测维度	SC(主体一致性) / BC(背景一致性) / MS(运动平滑) / AQ(美学质量) / IQ(成像质量) / OC(整体一致性) / IS(I2V 主体) / IB(I2V 背景)

3.11 WoW-World-Eval: 具身图灵测试

属性	详情
来源	BAAI
核心创新	首次采用 IDM (逆动力学模型) 评估视频基础模型在真实世界中的执行准确性
定位	“具身图灵测试” — 生成的视频是否对应真实可执行的动作序列

3.12 Embodied Arena: 统一具身大脑评测平台

属性	详情
论文	arXiv:2509.15273
发布方	上海交通大学等 10 余家院校
规模	22+ 基准 / 30+ 模型

三大任务: Embodied Q&A / Navigation / Task Planning

实时排行榜: benchmark view + capability view 双视角

七大洞察: 基础感知制约高阶推理 / 物体空间感知是短板 / 长程规划严重不足 / 多步推理衰减 / 跨模态对齐不精

3.13 RoboBench / MV-RoboBench: MLLM 具身大脑评测

RoboBench (arXiv:2510.17801, 北大&BAAI):

五核心能力: 空间感知 / 属性识别 / 操控规划 / 安全意识 / 常识推理

MV-RoboBench (arXiv:2510.19400):

首个多视角空间推理评测, 基于真实机器人演示数据
1.7K 高质量人工标注 QA 对
同步多摄像头视角, 覆盖空间理解与机器人执行

3.14 EmbodiedBench: MLLM 具身智能综合评测

属性	详情
论文	ICLR 2025
GitHub	EmbodiedBench
规模	1,128 任务 / 4 环境 / 24 个 MLLM

6 个评测子集: 常识推理 / 复杂指令 / 空间感知 / 视觉感知 / 长期规划 / 低层操控

关键发现: GPT-4o 在低层操控仅 28.9% 成功率

3.15 LIBERO: 知识迁移与长程操作评测

属性	详情
论文	NeurIPS 2023
GitHub	Lifelong-Robot-Learning/LIBERO
仿真器	robosuite / Franka Panda (7-DOF)
任务数	130 个任务, 5 个 suite

5 个 Suite: Spatial / Object / Goal / Long / Goal+Spatial

典型 SOTA (部分):

方法	Spatial	Object	Goal	Long	Avg
OpenVLA-OFT	96.9	98.1	95.5	91.1	95.4
UniVLA	96.5	96.8	95.6	92.0	95.2
π₀	90	86	95	73	86.0
OpenVLA	84.7	88.4	79.2	53.7	76.5
Octo	78.9	85.7	84.6	51.1	75.1

3.16 CALVIN: 长程语言条件操作

属性	详情
论文	RA-L 2022
GitHub	mees/calvin
仿真器	PyBullet
任务数	34 个任务, 4 环境 (A/B/C/D)
评测协议	ABC→D (零样本泛化)
核心指标	连续任务链成功率 (1-5 步)

3.17 RoboVerse: 统一仿真平台+数据集+评测基准

属性	详情
论文	arXiv:2504.18904 (RSS 2025)
发布方	UC Berkeley + 北大 + USC + UMich + UIUC + Stanford + CMU + BIGAI
核心定位	统一仿真平台 + 合成数据集 + 标准化评测基准三合一

三大组件:

仿真平台: 支持多种仿真器后端的统一接口
合成数据集: 大规模机器人操作数据
统一基准: 标准化评测协议

3.18 VLABench: 长程推理操控

属性	详情
论文	ICCV 2025
GitHub	OpenMOSS/VLABench
核心特色	首个综合评测 VLA 和 VLM 在操控任务中能力的 benchmark

四大优势: 需要世界知识和常识迁移的任务 / 自然非模板语言指令 / 多步推理长时程任务 / 行动策略+语言模型双重评估

3.19 Dobb·E: 家庭环境真实机器人学习

属性	详情
论文	arXiv:2311.16098
GitHub	notmahi/dobb-e
发布方	NYU + Meta
机器人	Hello Robot Stretch
核心创新	用 iPhone 收集家庭演示数据，20 分钟教会机器人一项家务

四、评测维度综合对比矩阵

评测维度	vla-eval	LIBERO	CALVIN	RLBench	SimplerEnv	GM-100	RoboChallenge	RoboWM-Bench	WorldArena	WBench	RBench
任务成功率	✅	✅	✅	✅	✅	✅	✅	✅	—	—	—
部分成功率	—	—	—	—	—	✅	—	—	—	—	—
动作预测误差	—	—	—	—	—	✅	—	—	—	—	—
长程规划	✅(Long)	✅(Long)	✅(chain)	—	—	—	—	—	—	—	—
空间泛化	✅(Spatial)	✅	—	—	—	—	—	—	—	—	—
物体泛化	✅(Object)	✅	—	—	—	—	—	—	—	—	—
鲁棒性/扰动	✅(COLOSSEUM)	—	—	✅(COLOSSEUM)	✅	✅(长尾)	✅(真实)	—	—	—	—
跨本体	✅	—	—	—	✅	✅	—	—	—	—	—
真实环境	—	—	—	—	—	✅	✅	—	—	—	—
视频生成质量	—	—	—	—	—	—	—	—	✅	✅	✅
物理可执行性	—	—	—	—	—	—	—	✅	✅	—	—
多轮交互	—	—	—	—	—	—	—	—	—	✅	—
物理一致性	—	—	—	—	—	—	—	—	✅	✅	✅
视角/分布外	—	—	—	—	—	—	—	—	—	✅	—
双臂协作	—	—	—	—	—	—	—	—	—	—	—

五、各评测框架的差异与适用场景

5.1 仿真 vs. 真实

类别	代表框架	优势	不足
纯仿真	LIBERO, CALVIN, RLBench, ManiSkill, MetaWorld	可复现、低成本、大规模	Sim-to-Real Gap
仿真近似真实	SimplerEnv, RoboTwin 2.0 (域随机化)	更接近真实场景	仍有 gap
真实评测平台	GM-100, RoboChallenge	最真实、克服 Demo 驱动问题	成本高、标准化难
家庭真实部署	Dobb·E	真实家庭场景	单一机器人、规模有限

5.2 操作模型 vs. 世界模型 vs. 大脑评测

评测目标	代表框架	评测方式	核心指标
VLA/策略模型	vla-eval, LIBERO, CALVIN, RLBench, GM-100, RoboChallenge	给定观测→预测动作→执行→测成功率	Task Success Rate / Partial Success
世界模型 (WMA)	RoboWM-Bench, WorldArena, WBench, RBench, EVA-Bench, EWMBench	给定初始帧+动作→生成视频→测视觉+物理可执行性	Quality Score + Execution Accuracy + 多轮一致性
物理 AI 视频	PAI-Bench, WoW-World-Eval	视频生成质量+IDM 可执行性	PAI 分数 / 图灵测试通过率
MLLM 规划	EmbodiedBench, RoboBench, Embodied Arena	给定视觉+语言→输出行动计划→测规划正确性	Plan Correctness / Success Rate / 多视角推理
统一横评	vla-eval, Embodied Arena	跨 benchmark/跨能力评测	聚合排行榜

5.3 世界模型评测的层次体系

世界模型评测
├── 视觉质量层 (PAI-Bench)
│   └── 传统视频生成指标：SC, BC, MS, AQ, IQ, OC
├── 具身功能层 (RoboWM-Bench, WorldArena Track 2)
│   └── 视频预测→IDM 逆动力学→模拟器执行→测成功率
├── 多轮交互层 (WBench)
│   └── 导航/动作/事件编辑/视角切换的连续交互一致性
├── 任务正确性层 (RBench)
│   └── 结构一致性 + 物理合理性 + 动作完整性
├── 长时程预判层 (EVA-Bench)
│   └── 开环预判 + 闭环反射 + 分布外鲁棒性
└── 图灵测试层 (WoW-World-Eval)
    └── IDM 判别生成视频是否对应真实可执行动作

六、评测中的关键陷阱与最佳实践

6.1 评测协议不统一的问题 (vla-eval 发现)

未文档化的预处理: OpenVLA 评估时的 center crop (scale=0.9) 未论文说明，省略后 ↓3pp
本体感知混淆: X-VLA 用错 proprio → 97.8% 变 42%（55pp 偏移）
动作模式混淆: 绝对 vs 增量 → 生成 0% 成功率
四元数归一化: OpenVLA-OFT 缺少对极归一化 → LIBERO-Goal 97%→83%
仿真器内部差异: GR00T 缺少内部 simulator proprio → 30-55%→0%
评估协议不一致: SimplerEnv 3 种不兼容机器人配置；CALVIN ABC→D 与 ABCD→D 不可比

6.2 最佳实践建议

使用统一评测框架 (vla-eval)，避免自行搭建评测管线引入偏差
完整记录评测配置: seeds, episode counts, preprocessing, action mode, proprio source
做多 benchmark 交叉验证: 81% 的模型仅在单个 benchmark 上评测
真实+仿真双验证: 参考 GM-100 + RoboChallenge 的真实环境基准
区分评测协议: 不同 split、不同任务子集的结果不可直接比较
世界模型评测需超越视觉质量: RoboWM-Bench 证明视觉合理 ≠ 物理正确
关注评测效率: vla-eval 的 episode sharding + batch inference 可天→分钟级

七、总结与推荐

7.1 当前格局

需求	推荐评测方案
VLA 模型通用能力评测	vla-eval + LIBERO + CALVIN + SimplerEnv
长程规划能力	CALVIN (ABC→D 5-step chain)
空间/物体/目标泛化	LIBERO (4 个 suite)
真实机器人策略评估	SimplerEnv (Google Robot 设定)
真实世界大规模评测	GM-100 (细节导向) + RoboChallenge (在线提交)
鲁棒性与扰动泛化	COLOSSEUM (RLBench 扩展) / RoboTwin 2.0 (域随机化)
双臂操控	RoboTwin 2.0
世界模型物理可执行性	RoboWM-Bench (执行准确性) + WorldArena (感知+功能)
世界模型多轮交互	WBench (5维度22指标)
世界模型视频生成质量	RBench (任务正确性+视觉保真) + PAI-Bench (8维视觉指标)
世界模型长时程预判	EVA-Bench (开环+闭环)
MLLM 高层规划能力	EmbodiedBench + RoboBench
MLLM 统一横评	Embodied Arena (22+基准 / 30+模型)
跨本体数据训练	Open X-Embodiment
跨本体操控泛化	AnyBody
家庭场景	RoboCasa / Dobb·E
统一仿真+数据+评测	RoboVerse

7.2 关键趋势

从仿真走向真实: GM-100、RoboChallenge 标志着评测从仿真走向真实物理环境
从单一走向统一: vla-eval、Embodied Arena 将分散的 benchmark 统一化
世界模型评测从视觉走向物理: RoboWM-Bench、WorldArena 证明视觉逼真 ≠ 功能可用
从单轮走向多轮: WBench 首次系统评测多轮交互下的世界模型表现
从"能否完成"到"完成多细": GM-100 引入部分成功率和动作预测误差
真实环境在线评测兴起: RoboChallenge 建立"提交 Docker→真实机器人→排行榜"闭环
跨 benchmark 评测仍然稀少: 仅 6% 的模型在 3+ benchmark 上评测
评测协议标准化迫在眉睫: 一个未文档化参数可导致 55pp 偏移

八、参考资源汇总

论文

vla-eval — arXiv:2603.13966
GM-100 — arXiv:2601.11421
RoboChallenge — arXiv:2510.17950
WorldArena / 2.0 — GitHub / arXiv:2605.17912
WBench — arXiv:2605.25874
RBench — arXiv:2601.15282 (ICML 2026)
RoboWM-Bench — arXiv:2604.19092
EVA-Bench — arXiv:2410.15461
PAI-Bench — Semantic Scholar
WoW-World-Eval — BAAI
LIBERO — arXiv:2306.03110 (NeurIPS 2023)
CALVIN — arXiv:2112.03282 (RA-L 2022)
RLBench — arXiv:1909.12271 (RA-L 2020)
ManiSkill2/3 — arXiv:2302.09538 (ICLR 2023)
SimplerEnv — arXiv:2406.10759 (CoRL 2024)
RoboCasa — arXiv:2406.02523 (RSS 2024)
VLABench — arXiv:2412.18194 (ICCV 2025)
RoboTwin 2.0 — arXiv:2506.18088 (CVPR 2025 Highlight)
COLOSSEUM — arXiv:2402.08591
Open X-Embodiment — arXiv:2310.08864 (ICRA 2024)
EmbodiedBench — ICLR 2025
RoboBench — arXiv:2510.17801
MV-RoboBench — arXiv:2510.19400
Embodied Arena — arXiv:2509.15273
RoboVerse — arXiv:2504.18904 (RSS 2025)
AnyBody — arXiv:2505.14986
Dobb·E — arXiv:2311.16098
GenSim2 — arXiv:2410.03645
EmbodiedBrain — arXiv:2510.20578
RoboCerebra — arXiv:2406.03664
EWMBench — 智元机器人 (AGIBOT)
EmbodiedBench — ICLR 2025
OpenVLA — arXiv:2406.09246 (CoRL 2024)
π₀ — arXiv:2410.24164
GR00T N1 — arXiv:2503.14734

GitHub 项目

项目	链接
vla-eval	即将发布
LIBERO	https://github.com/Lifelong-Robot-Learning/LIBERO
CALVIN	https://github.com/mees/calvin
RLBench	https://github.com/stepjam/RLBench
ManiSkill	https://github.com/haosulab/ManiSkill
SimplerEnv	https://github.com/simpler-env/SimplerEnv
MetaWorld	https://github.com/Farama-Foundation/Metaworld
VLABench	https://github.com/OpenMOSS/VLABench
RoboTwin	https://github.com/Tong-Zhu/RoboTwin
RoboWM-Bench	https://github.com/fffstrong/RoboWM-Bench
WorldArena	https://github.com/tsinghua-fib-lab/WorldArena
RBench/ReVidgen	https://github.com/DAGroup-PKU/ReVidgen
EmbodiedBench	https://github.com/EmbodiedBench/EmbodiedBench
RoboChallenge	https://github.com/RoboChallenge/RoboChallengeInference
Dobb·E	https://github.com/notmahi/dobb-e
GenSim	https://github.com/liruiw/GenSim
VLMbench	https://github.com/eric-ai-lab/VLMbench
Awesome-World-Models	https://github.com/leofan90/awesome-world-models
Open X-Embodiment	https://github.com/google-deepmind/open_x_embodiment

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

技术前沿深度洞察报告-第10期

本期技术前沿呈现"AI Agent工程化突破"与"具身智能商业化加速"双主线并行态势。在国际层面，百度Create 2026大会重磅发布文心5.1，以94%的预训练成本降幅冲进LMArena全球前四，标志着国产大模型正式进入"高效能竞争"时代；字节跳动开源UI-TARS-desktop以33k+ Stars横扫GitHub，将多模态AI Agent从概念推向生产可用。