具身智能的一些概念
一些概念的了解
1 从传统控制到具身大模型
具身系统的基本闭环:
传统的机器人依赖运动规则,规划器和策略,因此在专门的场景中任务会比较稳定,但很难做到迁移到别的场景中,泛化能力弱,而且对于自然语言的处理能力也不行。
大模型赋能具身之后,感知、理解、规划和动作之间高度分散的模块,开始到统一框架当中,不再局限在控制器和规划器中,开始聚焦于模型范式。
2 VLA
VLA 是 Vision-Language-Action 的缩写,就是把视觉-语言-动作放到一个统一的框架当中,直接从我看到什么,被要求做什么——>下一步我该怎么做。
给模型图像和文本指令,加上机器人的自身状态,直接预测下一步的动作或者动作序列。
VLA同时解决3件事
- 从图像视频中提取与任务有关的环境信息
- 理解语言中的目标和约束
- 综合前两者,变成可执行的动作表示
2.1 VLA工作方式

把”看,听懂,动起来“放在同一个训练,推理框架之下。
优点:
- 适合语言驱动的机器人操作任务,更符合人类语境下的操作
- 从多任务示范数据中学习相对通用的技能表示。
VLA把原本的分散问题压缩成一个范式
缺点:
- 对数据分布比较敏感,训练中见的多的数据学的快,分布外OOD数据就容易出错。
- 在长时序任务会积累误差,一步动作偏差会影响后续步骤
- 模型能从图像中学到信息,但是对三维空间结构,物理约束,接触关系的理解能力不够。
因此探索世界模型,显示空间表示以及规划机制
OpenVLA 官方项目页
如果把这张 OpenVLA 架构图当成一张“教学图”来读,最重要的不是记住每个模块的名字,而是看清它的数据流。图的左侧是输入:上面是一张场景图像,下面是一句自然语言指令,例如“把茄子放进碗里”。中间是模型主体,底层可以看到 DinoV2 和 SigLIP 两个视觉模块,它们负责从图像中抽取不同类型的视觉特征;这些视觉特征经过中间的 MLP Projector 投影后,被组织成可以送入 Llama 2 7B 的表示。与此同时,语言指令经过 tokenizer 也被编码成语言 token。最终,视觉 token 和语言 token 在同一个大语言模型框架中共同参与推理。
图中最值得注意的是右上角的 Action De-Tokenizer。这意味着 OpenVLA 并不是让 Llama 2 直接输出电机控制信号,而是先把动作表示成一种可被模型预测的 token,再把这些 token 反解为机器人的 7 维动作,例如位置增量、角度增量和夹爪开合等。换句话说,这张图非常清楚地展示了 VLA 的核心思想:先把“看见的”和“听见的”统一成模型可以处理的 token,再把模型输出翻译回机器人可以执行的动作。
图中标出的 1-2-3 也很适合拿来帮助初学者理解整个流程。1 对应视觉编码阶段,也就是从图像中提取语义与空间特征;2 对应特征对齐阶段,也就是把视觉信息映射到语言模型可接受的表示空间;3 对应统一推理阶段,也就是让视觉和语言在同一个主干模型中共同决定下一步动作。这正是“VLA 为什么会被叫做视觉-语言-动作一体化模型”的最好说明。
3 世界模型
VLA 更强调“看到指令后直接出动作”,世界模型(World Model)更强调“先在内部形成对环境变化的预测,再据此规划动作”。
现在内部构建一个对环境变化的预测机制,在根据此环境规划动作
通俗的说,就是现在脑内演练一遍,再动作
3.1 世界模型构建关系
- 当前的环境状态
- 某个动作执行后环境变化
- 在若干个可能的演化中,哪条路径更接近目标
也就是说,在真正动作前,现在内部想一遍接下来发生的事情,一个内部带模拟器的决策系统。
3.2 世界模型示意

3.3 世界模型价值
模拟真实世界的操作,真实世界是能够持续演化的系统,其中的任务都是需要分步实现的,目标物会移动,动作顺序会改变后续状态,多步任务中的早期错误还会不断放大,只依赖看到什么就输出什么,很容易出错。世界模型价值就在于,适合处理这种“动作会改变世界”的问题。把世界模型理解为具身智能从“反应式系统”迈向“规划式系统”的一个关键方向。
4 VLA 和世界模型对比

会在一个统一系统里同时使用端到端动作预测和内部世界建模。换句话说,VLA 与世界模型并不是互相排斥的标签,而是可以互补的技术取向
参考:
https://github.com/datawhalechina/every-embodied/blob/main/16-%E4%B8%93%E9%A2%98%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/01-%E8%BE%BE%E6%91%A9%E9%99%A2%E7%BB%84%E9%98%9F%E5%AD%A6%E4%B9%A0/Task%2002_%E6%8A%80%E6%9C%AF%E9%80%8F%E8%A7%86.md
更多推荐





所有评论(0)