MP5(Multi-modal Open-ended Embodied System via Active Perception),由上海 AI 实验室、港中深、北航、清华联合提出,核心是用模块化多模态大模型 + 主动感知解决 Minecraft 开放世界的长时序、上下文依赖任务。以下从核心信息、动机、方法、实验、结论五方面完整解析。
一、论文基础信息

    标题:MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception
    作者:Yiran Qin, Enshen Zhou, Qichang Liu, Zhenfei Yin, Lu Sheng, Ruimao Zhang, Yu Qiao, Jing Shao
    会议:CVPR 2024(IEEE/CVF Conference on Computer Vision and Pattern Recognition)
    发表时间:2024 年 6 月
    arXiv:https://arxiv.org/abs/2312.07472
    代码:https://github.com/IranQin/MP5
    项目页:https://iranqin.github.io/MP5.github.io/

二、研究背景与动机
1. 开放世界具身智能的核心挑战

    长时序依赖:任务需多步逻辑链(如 “挖钻石”→找洞穴→挖铁→做铁镐→挖钻石),易因中间步骤错误失败。
    上下文依赖:任务成败强关联环境动态(如 “晚上找猪” 需光照、地形、生物状态)。
    泛化性差:传统方法(如 VOYAGER、MineDojo)被动感知,难以处理全新任务与环境变化。

2. 核心痛点
现有方法难以同时实现:逻辑化任务拆解 + 情境化规划 + 主动感知 + 闭环校验,导致复杂任务成功率低。
三、核心方法:MP5 五大模块(P 字头)
MP5 基于MLLM(MineCLIP+Vicuna-13B),模块化协同,全程主动感知 + 闭环反馈。
image
1. Parser(任务解析器)

    输入:自然语言长任务(如 “在森林里晚上找猪”)。
    功能:拆解为可执行子目标序列,输出结构化任务树。
    示例:“挖钻石”→[找洞穴→挖铁矿石→合成铁镐→挖钻石]。

2. Percipient(主动感知器,核心创新)

    基础:参数高效微调的 MLLM(MineCLIP 视觉编码器 + Vicuna-13B 语言解码器)。
    功能:主动提问→获取关键环境信息→输出结构化感知结果(如 “前方 5 格有洞穴,无怪物”)。
    机制:与 Patroller 多轮交互,动态聚焦任务相关信息,避免无效感知。

3. Planner(动作规划器)

    输入:子目标 + 感知结果 + 历史状态。
    功能:生成情境感知的动作序列,支持动态重规划(如遇怪物→绕行→继续找洞穴)。
    特点:长时序记忆 + 环境上下文约束,输出低层级动作指令(移动、挖掘、合成)。

4. Performer(动作执行器)

    基础:Minecraft 底层控制器(兼容 MineDojo 环境)。
    功能:高频执行动作,返回环境交互结果(如 “挖掘成功 / 失败”“到达目标位置”)。
    特点:实时响应、动作纠错、状态同步。

5. Patroller(监控反馈器,闭环核心)

    功能:校验感知 - 规划 - 执行一致性,识别失败(如感知错误、规划不合理、执行失败),触发重规划或感知重采样。
    机制:实时状态比对 + 错误溯源 + 模块间反馈,保障任务鲁棒性。

四、工作流程(闭环)

    输入任务 → Parser 拆解子目标;
    子目标→Planner 规划动作→Performer 执行;
    Percipient 主动感知环境→Patroller 校验;
    异常→Planner 重规划;正常→推进至下一子目标;
    循环直至任务完成或终止。

五、实验设置与结果
1. 环境与任务

    平台:Minecraft(MineDojo 仿真环境)。
    任务类型(3 类,难度分级):
        过程依赖(Process-Dependent):需多步逻辑链(如 “挖钻石”“做附魔台”),困难级。
        上下文依赖(Context-Dependent):强关联环境动态(如 “晚上找猪”“雨天找蘑菇”),中等 / 简单级。
        开放世界新任务:全新未见过的任务(如 “造一艘船并航行”),泛化测试。

2. 基线对比

    对比方法:VOYAGER、MineDojo、Minecraft Baseline(纯 LLM)。

3. 核心结果(论文数据)

    过程依赖任务:MP5 22% 成功率(基线最高 < 10%),显著提升长时序逻辑能力。
    上下文依赖任务:MP5 91% 成功率(基线最高 < 60%),主动感知大幅提升环境适应性。
    开放世界新任务:MP5 可完成70%+ 全新任务,泛化性远超基线。
    消融实验:验证 ** 主动感知(Percipient)与闭环监控(Patroller)** 是性能关键,缺一不可。

六、核心创新与贡献

    模块化主动感知框架:首次将主动感知引入具身智能,实现 “感知 - 规划 - 执行 - 反馈” 闭环,解决开放世界动态信息不足问题。
    长时序任务拆解与规划:Parser+Planner 协同,支持复杂逻辑链任务的结构化拆解与动态重规划。
    MLLM 高效微调策略:基于 MineCLIP+Vicuna-13B 的参数高效微调,平衡性能与算力,适配 Minecraft 复杂场景。
    开放世界泛化能力:在全新任务上表现优异,为通用具身智能提供可行路径。

七、局限性与未来方向
1. 局限性

    依赖 Minecraft 仿真环境,真实世界迁移需进一步验证。
    长时序任务(如 > 10 步)成功率仍低,需优化记忆与规划能力。
    主动感知的提问策略可进一步优化,减少冗余查询。

2. 未来方向

    引入世界模型(World Model),增强环境预测与规划。
    扩展至多智能体协作,处理团队任务。
    迁移至真实机器人平台(如四足机器人、机械臂),验证实际应用价值。

八、总结
       MP5 是 CVPR 2024 具身智能领域的标杆工作,以五大模块化协同 + 主动感知闭环为核心,在 Minecraft 开放世界中显著提升长时序、上下文依赖任务的成功率与泛化性,为通用具身智能提供了高效、可扩展的技术范式。

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐