视频分享

【一起读《大模型驱动的具身智能:架构、设计与实现》- 分层动作级规划】 「链接」

分层动作级规划中,环境感知和动作规划往往是分开的,有利于将已有的先验知识作为额外的约束或推理条件,让模型可以做出更合理的决策。同时无需对大模型进行专门的训练,具有较高的性价比。

动作原语

motion primitive,指预定义的、可重复使用的基本动作或行为模块。

  1. 可以在很多机械臂的SDK看到类似的API接口或者定义,类似夹爪开、夹爪关、moveJ等都可以是动作原语,是一种基元级的离散化实现,提供了一组有限且实用的动作。(可预测、不针对特定场景、一定程度不可拆分)
  2. 动作原语是多个低级动作的组合,单个低级动作如关节位置控制是无法完成有意义的任务

多个动作原语按照一定的序列组合,可以固定成"技能"。

  1. 有点像目前的Agent功能,如Claude code中如果经常会进行的操作连招,我们往往会写一个SKILL.md
  2. 技能虽然比原语更高级,但确定的序列导致泛化性降低

基于技能的单步动作级规划

GPTR,使用基础的LLM(无需微调)对任务进行理解,在给定的技能动作空间中进行动作级规划。

[2306.17582] ChatGPT for Robotics: Design Principles and Model Abilitiescontact arXivsubscribe to arXiv mailings

  1. 环节2中的提示词不仅描述了任务的目标,还明确的指出可以使用的高级API库函数,最后通过 LLM 将任务转化为实际具体的控制代码
  2. 缺少多模态感知和信息实时性差,会导致规划滞后;由于仅仅根据目标描述,缺少对全局环境和潜在可能,试错多会导致效率低;通过技能库进行限定的组合泛化程度低,同时也限制了系统和机器人的灵活性

基于动作原语的直接动作级规划

CaP(Code as Polices)代码即策略。

[2209.07753] Code as Policies: Language Model Programs for Embodied Controlcontact arXivsubscribe to arXiv mailings

  1. 直接根据动作原语加上if else或者任务分解逻辑输出控制代码。
  2. 任务拆解依赖于人工先验只是以及预先设计的Prompt和示例(这也是弊端)

基于空间位置约束的动作级分层规划

将大模型的常识推理与机器人领域的轨迹优化。CoPa,分层架构。

[2403.08248] CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models

  1. 任务导向抓取、任务感知运动规划两大模块,从粗到细的部件定位机制(Coarse‑to‑Fine Grounding),结合 SoM(Set‑of‑Mark)实现物体部件精准识别
  2. 任务导向抓取阶段:先用分割模型粗定位目标物体,再用 GPT‑4V 细粒度识别任务相关抓取部位,结合 GraspNet 匹配抓取接触点,输出符合任务要求的抓取位姿
  3. 任务感知运动规划阶段:再次调用 VLM,识别物体部件的空间几何约束,推导抓取后物体 / 末端执行器的目标位姿;可直接对接现有机器人规划算法,完成长时序复杂操作

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐