一、概述

随着 VLA 模型(如 OpenVLA、π₀、GR00T N1、CogACT 等)和世界模型(如 Cosmos、Wan、Genie 等)的蓬勃发展,如何系统、公平、可复现地评测这些模型的能力成为关键挑战。传统单个 benchmark 各自为战,存在依赖冲突、评测协议不统一、参数未文档化等问题。更严重的是,当前行业深陷"Demo 驱动"的叙事——精心布置的环境里完成一次抓取、一段行走,效果惊艳,但换一个光照条件、换一个物体材质,系统是否还能稳定工作,外界往往无从得知。

本文档系统性地梳理了当前主流的 仿真评测平台统一评测框架真实世界评测方案世界模型评测基准具身大脑评测平台,覆盖从操控(manipulation)到导航(navigation)、从低层控制到高层规划、从策略生成到视频预测的完整维度。


二、评测框架/平台分类总览

2.1 统一评测框架

名称 核心定位 仿真器 动作空间 论文/链接
vla-eval VLA 跨 benchmark 统一评测工具 多仿真器 6D-14D arXiv:2603.13966
Embodied Arena 具身 AI 统一评测平台+排行榜 多环境 arXiv:2509.15273
RoboVerse 统一仿真平台+数据集+评测基准 多仿真器 多种 arXiv:2504.18904 (RSS 2025)

2.2 仿真操作 Benchmark

名称 核心定位 仿真器 动作空间 论文/链接
LIBERO 知识迁移 / 长程操作 robosuite 7D NeurIPS 2023 / GitHub
CALVIN 长程语言条件操作 PyBullet 7D RA-L 2022 / GitHub
RLBench 多任务强化学习 CoppeliaSim/PyRep 8D RA-L 2020 / GitHub
ManiSkill2/3 通用操控技能 (GPU 并行) SAPIEN 7D ICLR 2023 / GitHub
SimplerEnv 真实→仿真策略评估 robosuite 7D CoRL 2024 / GitHub
MetaWorld 多任务/元 RL MuJoCo 多种 GitHub
RoboCasa 家庭场景大规模仿真 MuJoCo/robosuite 7D RSS 2024
VLABench 长程推理操控 MuJoCo 7D ICCV 2025 / GitHub
RoboTwin 2.0 双臂操控 + 域随机化 MuJoCo 14D CVPR 2025 Highlight
COLOSSEUM 操作鲁棒性/泛化 PyRep 8D arXiv:2402.08591
RoboCerebra 长程操控评测 MuJoCo 7D NeurIPS 2024
RoboMME 记忆驱动机器人评测 MuJoCo 8D arXiv:2603.04639
MIKASA-Robo RL + 记忆评测 MuJoCo 8D arXiv:2502.10550
Kinetix 物理控制开放任务 JAX 6D ICLR 2025
LIBERO-Pro 鲁棒/反记忆评测 robosuite 7D arXiv:2510.03827
LIBERO-Mem 对象中心记忆评测 robosuite 7D arXiv:2511.11478
VLMbench 视觉-语言组合操作 SAPIEN 7D GitHub
AnyBody 跨本体操控泛化 MuJoCo 多种 arXiv:2505.14986
GenSim/GenSim2 LLM 生成仿真任务 PyBullet 7D GitHub / arXiv:2410.03645

2.3 真实世界评测平台

名称 核心定位 机器人 论文/链接
GM-100 100 个细节导向真实任务评测 多平台 arXiv:2601.11421
RoboChallenge 全球首个大规模真实机器人在线评测 Franka/多平台 arXiv:2510.17950 / GitHub / 官网
Dobb·E 家庭环境真实机器人学习 Hello Robot Stretch arXiv:2311.16098 / GitHub
Open X-Embodiment 跨本体真实机器人数据集 22 种机器人 ICRA 2024 / GitHub

2.4 世界模型/WMA 评测基准

名称 核心定位 评测重点 论文/链接
RoboWM-Bench 机器人世界模型物理可执行性评测 视觉→动作闭环 arXiv:2604.19092 / GitHub
WorldArena 具身世界模型统一评测 (感知+功能) 16 大指标+3 大应用 GitHub / WorldArena 2.0
WBench 多轮交互视频世界模型评测 5 维度 22 指标 arXiv:2605.25874
RBench 具身视频生成评测+数据基础设施 任务正确性+视觉保真 arXiv:2601.15282 / GitHub
EVA-Bench 长时程预判+反射能力评测 开环+闭环预判 arXiv:2410.15461
EWMBench 具身世界模型评测 (智元) Action-conditioned 视频预测 智元机器人 (AGIBOT)
PAI-Bench 物理 AI 综合评测 视频生成 8 维质量指标 Semantic Scholar
WoW-World-Eval 具身图灵测试 IDM 逆动力学执行准确性 BAAI

2.5 具身大脑/MLLM 评测

名称 核心定位 任务数/规模 论文/链接
EmbodiedBench MLLM 具身智能综合评测 1,128 任务 / 4 环境 ICLR 2025 / GitHub
RoboBench MLLM 具身大脑综合评估 5 核心能力维度 arXiv:2510.17801 / 官网
MV-RoboBench 多视角空间推理评测 1.7K QA 对 arXiv:2510.19400
RoboMemArena 机器人记忆系统全面评测 网易
EmbodiedBrain 任务规划评测 仿真+真实 arXiv:2510.20578

三、重点评测框架深度解析

3.1 vla-eval: VLA 统一评测框架 ⭐⭐⭐

属性 详情
论文 vla-eval: A Unified Evaluation Harness for Vision-Language-Action Models
作者 Suhwan Choi, Yunsung Lee, Yubeen Park et al.
GitHub 即将发布
核心动机 消除 per-benchmark 集成成本,将 O(N×M) 降至 O(N+M)

架构: 客户端-服务器 (WebSocket + msgpack) + Docker 隔离 + batch inference

支持 14 个仿真 Benchmark: SimplerEnv, LIBERO, CALVIN, RLBench, LIBERO-Pro, RoboCerebra, ManiSkill2, Kinetix, MIKASA-Robo, LIBERO-Mem, RoboMME, VLABench, RoboTwin 2.0, RoboCasa

支持 6 个模型: CogACT, OpenVLA, OpenVLA-OFT, π₀/π₀-FAST, GR00T N1, X-VLA

关键发现: 单个未文档化参数可导致 55pp 偏移 (X-VLA 用错 proprio: 97.8%→42%)

VLA Leaderboard: 657 个结果, 17 benchmark, 1704 篇论文


3.2 GM-100: 真实世界细节导向评测 ⭐⭐⭐

属性 详情
全称 The Great March 100
论文 arXiv:2601.11421
发布方 上海交通大学 + RHOS.ai + 蚂蚁灵波 + 蚂蚁集团
发布时间 2026 年 1 月 26 日开源
核心定位 真实机器人环境的细节导向、长尾任务评测,“具身智能统考卷”

设计理念: 不只"能不能完成",更关注"完成得有多细"。聚焦长尾行为和精细化交互。任务设计先分析人类与物体交互的基本原语,再用 LLM 生成候选任务,最终经专家筛选优化。

评测规模: 100 个任务, 13,000 条操作轨迹

三大评测指标:

  1. 任务成功率 — 传统指标
  2. 部分成功率 — 评估完成的精确程度
  3. 动作预测误差 — 评估模型预测精度

核心特点: 跨平台可执行、硬件泛化性稳定、全开源低门槛


3.3 RoboChallenge: 全球首个大规模真实机器人在线评测 ⭐⭐⭐

属性 详情
论文 arXiv:2510.17950
发布方 Dexmal 原力灵机 + Hugging Face
官网 https://robochallenge.ai
GitHub RoboChallenge/RoboChallengeInference
核心定位 全球首个大规模真实物理环境机器人基准测试

核心突破: 真实物理环境评测(非仿真)、在线评测系统(提交 Docker→真实机器人执行→自动测量→排行榜更新)、标准化测试条件

组委会 (2025.11): Dexmal + HuggingFace + 智源 + 智元 + Qwen + 清华 + 西安交大 + GOSIM

解决问题: 克服 Sim-to-Real Gap、解决 Demo 驱动虚假繁荣


3.4 WorldArena: 具身世界模型统一评测 ⭐⭐⭐

属性 详情
GitHub tsinghua-fib-lab/WorldArena
WorldArena 2.0 arXiv:2605.17912
官网 https://world-arena.ai/
发布方 清华 FIB Lab + 高德 + 流形空间 + 普林斯顿 + NUS + 港大
CVPR 2026 挑战赛 Video World Model Workshop

核心理念: “真能干活” — 不只看视频好不好看,更看是否遵循物理规律、能否支撑机器人实际操作

评测体系: 16 大核心指标 + 3 大真实应用任务 + 两个赛道 (感知质量 / 功能可用性)

业界影响: Cosmos 3, 智元, 跨维智能, WoW, BLM 等同台竞技


3.5 WBench: 多轮交互视频世界模型评测 ⭐⭐⭐

属性 详情
论文 arXiv:2605.25874
发布方 复旦大学 + 美团 LongCat

核心突破: 从单次生成到多轮交互。模型需同时充当渲染器、导演、控制器、记忆体、物理引擎。

规模: 289 测试用例, 1,058 轮交互, 第一+第三人称双视角

四大交互: 导航控制 / 主体动作 / 事件编辑 / 视角切换

5 维度 × 22 指标: 场景理解 / 交互控制 / 物理一致性 / 时序连贯 / 视觉保真

关键发现: 不存在全能模型;连续交互后导航能力平均下降 33 点


3.6 RBench: 具身视频生成评测+数据基础设施

属性 详情
论文 arXiv:2601.15282 (ICML 2026)
发布方 北京大学 + 字节跳动 Seed
GitHub DAGroup-PKU/ReVidgen

评测覆盖: 5 类任务 × 4 种机器人形态。双维度: 任务正确性(结构一致性/物理合理性/动作完整性) + 视觉保真度

配套 RoVid-X: 百万级机器人视频数据集, 3M 子集已开源

业界影响: Cosmos 3 在 RBench 开源 Top-1


3.7 RoboWM-Bench: 机器人世界模型物理可执行性评测

属性 详情
论文 arXiv:2604.19092
GitHub fffstrong/RoboWM-Bench
仿真器 Isaac Lab (NVIDIA)

评测流程: 初始观察+动作序列 → 世界模型生成视频 → IDM 逆动力学转动作 → 模拟器执行 → 测成功率

评测: Task-Level 成功率 + Step-Level 成功率

关键发现: PAI-Bench 视觉分数在 ~0.78 聚集,RoboWM-Bench 执行准确率变化显著 — 视觉合理 ≠ 物理正确


3.8 EVA-Bench: 长时程预判+反射能力评测

属性 详情
论文 arXiv:2410.15461

评测维度: 开环预判(给定动作→预判未来视觉) + 闭环反射(根据反馈修正) + 分布外鲁棒性(视角/布局/运动变化)

与 RoboWM-Bench 互补: EVA-Bench 强调长时程预判和分布外鲁棒性


3.9 EWMBench: 智元具身世界模型评测

属性 详情
发布方 智元机器人 (AGIBOT)
核心定位 Action-conditioned 视频预测评测
评测维度 视觉场景一致性 / 运动质量 / 动作条件遵循

3.10 PAI-Bench: 物理 AI 综合评测

属性 详情
论文 Semantic Scholar
评测维度 SC(主体一致性) / BC(背景一致性) / MS(运动平滑) / AQ(美学质量) / IQ(成像质量) / OC(整体一致性) / IS(I2V 主体) / IB(I2V 背景)

3.11 WoW-World-Eval: 具身图灵测试

属性 详情
来源 BAAI
核心创新 首次采用 IDM (逆动力学模型) 评估视频基础模型在真实世界中的执行准确性
定位 “具身图灵测试” — 生成的视频是否对应真实可执行的动作序列

3.12 Embodied Arena: 统一具身大脑评测平台

属性 详情
论文 arXiv:2509.15273
发布方 上海交通大学等 10 余家院校
规模 22+ 基准 / 30+ 模型

三大任务: Embodied Q&A / Navigation / Task Planning

实时排行榜: benchmark view + capability view 双视角

七大洞察: 基础感知制约高阶推理 / 物体空间感知是短板 / 长程规划严重不足 / 多步推理衰减 / 跨模态对齐不精


3.13 RoboBench / MV-RoboBench: MLLM 具身大脑评测

RoboBench (arXiv:2510.17801, 北大&BAAI):

  • 五核心能力: 空间感知 / 属性识别 / 操控规划 / 安全意识 / 常识推理

MV-RoboBench (arXiv:2510.19400):

  • 首个多视角空间推理评测, 基于真实机器人演示数据
  • 1.7K 高质量人工标注 QA 对
  • 同步多摄像头视角, 覆盖空间理解与机器人执行

3.14 EmbodiedBench: MLLM 具身智能综合评测

属性 详情
论文 ICLR 2025
GitHub EmbodiedBench
规模 1,128 任务 / 4 环境 / 24 个 MLLM

6 个评测子集: 常识推理 / 复杂指令 / 空间感知 / 视觉感知 / 长期规划 / 低层操控

关键发现: GPT-4o 在低层操控仅 28.9% 成功率


3.15 LIBERO: 知识迁移与长程操作评测

属性 详情
论文 NeurIPS 2023
GitHub Lifelong-Robot-Learning/LIBERO
仿真器 robosuite / Franka Panda (7-DOF)
任务数 130 个任务, 5 个 suite

5 个 Suite: Spatial / Object / Goal / Long / Goal+Spatial

典型 SOTA (部分):

方法 Spatial Object Goal Long Avg
OpenVLA-OFT 96.9 98.1 95.5 91.1 95.4
UniVLA 96.5 96.8 95.6 92.0 95.2
π₀ 90 86 95 73 86.0
OpenVLA 84.7 88.4 79.2 53.7 76.5
Octo 78.9 85.7 84.6 51.1 75.1

3.16 CALVIN: 长程语言条件操作

属性 详情
论文 RA-L 2022
GitHub mees/calvin
仿真器 PyBullet
任务数 34 个任务, 4 环境 (A/B/C/D)
评测协议 ABC→D (零样本泛化)
核心指标 连续任务链成功率 (1-5 步)

3.17 RoboVerse: 统一仿真平台+数据集+评测基准

属性 详情
论文 arXiv:2504.18904 (RSS 2025)
发布方 UC Berkeley + 北大 + USC + UMich + UIUC + Stanford + CMU + BIGAI
核心定位 统一仿真平台 + 合成数据集 + 标准化评测基准三合一

三大组件:

  1. 仿真平台: 支持多种仿真器后端的统一接口
  2. 合成数据集: 大规模机器人操作数据
  3. 统一基准: 标准化评测协议

3.18 VLABench: 长程推理操控

属性 详情
论文 ICCV 2025
GitHub OpenMOSS/VLABench
核心特色 首个综合评测 VLA 和 VLM 在操控任务中能力的 benchmark

四大优势: 需要世界知识和常识迁移的任务 / 自然非模板语言指令 / 多步推理长时程任务 / 行动策略+语言模型双重评估


3.19 Dobb·E: 家庭环境真实机器人学习

属性 详情
论文 arXiv:2311.16098
GitHub notmahi/dobb-e
发布方 NYU + Meta
机器人 Hello Robot Stretch
核心创新 用 iPhone 收集家庭演示数据,20 分钟教会机器人一项家务

四、评测维度综合对比矩阵

评测维度 vla-eval LIBERO CALVIN RLBench SimplerEnv GM-100 RoboChallenge RoboWM-Bench WorldArena WBench RBench
任务成功率
部分成功率
动作预测误差
长程规划 ✅(Long) ✅(Long) ✅(chain)
空间泛化 ✅(Spatial)
物体泛化 ✅(Object)
鲁棒性/扰动 ✅(COLOSSEUM) ✅(COLOSSEUM) ✅(长尾) ✅(真实)
跨本体
真实环境
视频生成质量
物理可执行性
多轮交互
物理一致性
视角/分布外
双臂协作

五、各评测框架的差异与适用场景

5.1 仿真 vs. 真实

类别 代表框架 优势 不足
纯仿真 LIBERO, CALVIN, RLBench, ManiSkill, MetaWorld 可复现、低成本、大规模 Sim-to-Real Gap
仿真近似真实 SimplerEnv, RoboTwin 2.0 (域随机化) 更接近真实场景 仍有 gap
真实评测平台 GM-100, RoboChallenge 最真实、克服 Demo 驱动问题 成本高、标准化难
家庭真实部署 Dobb·E 真实家庭场景 单一机器人、规模有限

5.2 操作模型 vs. 世界模型 vs. 大脑评测

评测目标 代表框架 评测方式 核心指标
VLA/策略模型 vla-eval, LIBERO, CALVIN, RLBench, GM-100, RoboChallenge 给定观测→预测动作→执行→测成功率 Task Success Rate / Partial Success
世界模型 (WMA) RoboWM-Bench, WorldArena, WBench, RBench, EVA-Bench, EWMBench 给定初始帧+动作→生成视频→测视觉+物理可执行性 Quality Score + Execution Accuracy + 多轮一致性
物理 AI 视频 PAI-Bench, WoW-World-Eval 视频生成质量+IDM 可执行性 PAI 分数 / 图灵测试通过率
MLLM 规划 EmbodiedBench, RoboBench, Embodied Arena 给定视觉+语言→输出行动计划→测规划正确性 Plan Correctness / Success Rate / 多视角推理
统一横评 vla-eval, Embodied Arena 跨 benchmark/跨能力评测 聚合排行榜

5.3 世界模型评测的层次体系

世界模型评测
├── 视觉质量层 (PAI-Bench)
│   └── 传统视频生成指标:SC, BC, MS, AQ, IQ, OC
├── 具身功能层 (RoboWM-Bench, WorldArena Track 2)
│   └── 视频预测→IDM 逆动力学→模拟器执行→测成功率
├── 多轮交互层 (WBench)
│   └── 导航/动作/事件编辑/视角切换的连续交互一致性
├── 任务正确性层 (RBench)
│   └── 结构一致性 + 物理合理性 + 动作完整性
├── 长时程预判层 (EVA-Bench)
│   └── 开环预判 + 闭环反射 + 分布外鲁棒性
└── 图灵测试层 (WoW-World-Eval)
    └── IDM 判别生成视频是否对应真实可执行动作

六、评测中的关键陷阱与最佳实践

6.1 评测协议不统一的问题 (vla-eval 发现)

  1. 未文档化的预处理: OpenVLA 评估时的 center crop (scale=0.9) 未论文说明,省略后 ↓3pp
  2. 本体感知混淆: X-VLA 用错 proprio → 97.8% 变 42%(55pp 偏移)
  3. 动作模式混淆: 绝对 vs 增量 → 生成 0% 成功率
  4. 四元数归一化: OpenVLA-OFT 缺少对极归一化 → LIBERO-Goal 97%→83%
  5. 仿真器内部差异: GR00T 缺少内部 simulator proprio → 30-55%→0%
  6. 评估协议不一致: SimplerEnv 3 种不兼容机器人配置;CALVIN ABC→D 与 ABCD→D 不可比

6.2 最佳实践建议

  1. 使用统一评测框架 (vla-eval),避免自行搭建评测管线引入偏差
  2. 完整记录评测配置: seeds, episode counts, preprocessing, action mode, proprio source
  3. 做多 benchmark 交叉验证: 81% 的模型仅在单个 benchmark 上评测
  4. 真实+仿真双验证: 参考 GM-100 + RoboChallenge 的真实环境基准
  5. 区分评测协议: 不同 split、不同任务子集的结果不可直接比较
  6. 世界模型评测需超越视觉质量: RoboWM-Bench 证明视觉合理 ≠ 物理正确
  7. 关注评测效率: vla-eval 的 episode sharding + batch inference 可天→分钟级

七、总结与推荐

7.1 当前格局

需求 推荐评测方案
VLA 模型通用能力评测 vla-eval + LIBERO + CALVIN + SimplerEnv
长程规划能力 CALVIN (ABC→D 5-step chain)
空间/物体/目标泛化 LIBERO (4 个 suite)
真实机器人策略评估 SimplerEnv (Google Robot 设定)
真实世界大规模评测 GM-100 (细节导向) + RoboChallenge (在线提交)
鲁棒性与扰动泛化 COLOSSEUM (RLBench 扩展) / RoboTwin 2.0 (域随机化)
双臂操控 RoboTwin 2.0
世界模型物理可执行性 RoboWM-Bench (执行准确性) + WorldArena (感知+功能)
世界模型多轮交互 WBench (5维度22指标)
世界模型视频生成质量 RBench (任务正确性+视觉保真) + PAI-Bench (8维视觉指标)
世界模型长时程预判 EVA-Bench (开环+闭环)
MLLM 高层规划能力 EmbodiedBench + RoboBench
MLLM 统一横评 Embodied Arena (22+基准 / 30+模型)
跨本体数据训练 Open X-Embodiment
跨本体操控泛化 AnyBody
家庭场景 RoboCasa / Dobb·E
统一仿真+数据+评测 RoboVerse

7.2 关键趋势

  1. 从仿真走向真实: GM-100、RoboChallenge 标志着评测从仿真走向真实物理环境
  2. 从单一走向统一: vla-eval、Embodied Arena 将分散的 benchmark 统一化
  3. 世界模型评测从视觉走向物理: RoboWM-Bench、WorldArena 证明视觉逼真 ≠ 功能可用
  4. 从单轮走向多轮: WBench 首次系统评测多轮交互下的世界模型表现
  5. 从"能否完成"到"完成多细": GM-100 引入部分成功率和动作预测误差
  6. 真实环境在线评测兴起: RoboChallenge 建立"提交 Docker→真实机器人→排行榜"闭环
  7. 跨 benchmark 评测仍然稀少: 仅 6% 的模型在 3+ benchmark 上评测
  8. 评测协议标准化迫在眉睫: 一个未文档化参数可导致 55pp 偏移

八、参考资源汇总

论文

  1. vla-eval — arXiv:2603.13966
  2. GM-100 — arXiv:2601.11421
  3. RoboChallenge — arXiv:2510.17950
  4. WorldArena / 2.0 — GitHub / arXiv:2605.17912
  5. WBench — arXiv:2605.25874
  6. RBench — arXiv:2601.15282 (ICML 2026)
  7. RoboWM-Bench — arXiv:2604.19092
  8. EVA-Bench — arXiv:2410.15461
  9. PAI-Bench — Semantic Scholar
  10. WoW-World-Eval — BAAI
  11. LIBERO — arXiv:2306.03110 (NeurIPS 2023)
  12. CALVIN — arXiv:2112.03282 (RA-L 2022)
  13. RLBench — arXiv:1909.12271 (RA-L 2020)
  14. ManiSkill2/3 — arXiv:2302.09538 (ICLR 2023)
  15. SimplerEnv — arXiv:2406.10759 (CoRL 2024)
  16. RoboCasa — arXiv:2406.02523 (RSS 2024)
  17. VLABench — arXiv:2412.18194 (ICCV 2025)
  18. RoboTwin 2.0 — arXiv:2506.18088 (CVPR 2025 Highlight)
  19. COLOSSEUM — arXiv:2402.08591
  20. Open X-Embodiment — arXiv:2310.08864 (ICRA 2024)
  21. EmbodiedBench — ICLR 2025
  22. RoboBench — arXiv:2510.17801
  23. MV-RoboBench — arXiv:2510.19400
  24. Embodied Arena — arXiv:2509.15273
  25. RoboVerse — arXiv:2504.18904 (RSS 2025)
  26. AnyBody — arXiv:2505.14986
  27. Dobb·E — arXiv:2311.16098
  28. GenSim2 — arXiv:2410.03645
  29. EmbodiedBrain — arXiv:2510.20578
  30. RoboCerebra — arXiv:2406.03664
  31. EWMBench — 智元机器人 (AGIBOT)
  32. EmbodiedBench — ICLR 2025
  33. OpenVLA — arXiv:2406.09246 (CoRL 2024)
  34. π₀ — arXiv:2410.24164
  35. GR00T N1 — arXiv:2503.14734

GitHub 项目

项目 链接
vla-eval 即将发布
LIBERO https://github.com/Lifelong-Robot-Learning/LIBERO
CALVIN https://github.com/mees/calvin
RLBench https://github.com/stepjam/RLBench
ManiSkill https://github.com/haosulab/ManiSkill
SimplerEnv https://github.com/simpler-env/SimplerEnv
MetaWorld https://github.com/Farama-Foundation/Metaworld
VLABench https://github.com/OpenMOSS/VLABench
RoboTwin https://github.com/Tong-Zhu/RoboTwin
RoboWM-Bench https://github.com/fffstrong/RoboWM-Bench
WorldArena https://github.com/tsinghua-fib-lab/WorldArena
RBench/ReVidgen https://github.com/DAGroup-PKU/ReVidgen
EmbodiedBench https://github.com/EmbodiedBench/EmbodiedBench
RoboChallenge https://github.com/RoboChallenge/RoboChallengeInference
Dobb·E https://github.com/notmahi/dobb-e
GenSim https://github.com/liruiw/GenSim
VLMbench https://github.com/eric-ai-lab/VLMbench
Awesome-World-Models https://github.com/leofan90/awesome-world-models
Open X-Embodiment https://github.com/google-deepmind/open_x_embodiment
Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐