VLM / VLN / VLA 在具身智能中的角色与使用方式严格从「算法 / 算力 / 数据 / 工程角色」四个维度整理成可直接用在 PPT / 技术评审 / 架构讨论中的对比表


一、在具身智能系统中的整体定位对比

维度 VLM VLN VLA
全称 Vision-Language Model Vision-Language Navigation Vision-Language-Action
系统层级 语义感知层 任务 / 导航决策层 动作决策与执行层
核心作用 理解“看到了什么 + 说了什么” 把语言转为导航 / 子任务 把感知与指令转为真实动作
是否闭环控制 ❌ 否 ❌ 否 ✅ 是
是否直接控制机器人
是否对安全负责
在系统中的地位 高级感知模块 可选规划模块 核心能力模块

二、算法层(Algorithm)对比

维度 VLM VLN VLA
算法本质 多模态对齐与理解 语言驱动的序列决策问题 端到端策略学习
输入 图像 / 视频 + 语言 视觉 + 语言 + 位姿 视觉 + 语言 + 状态
输出 语义、token、embedding 高层动作 / 子目标 连续 / 离散控制指令
输出形式 文本 / embedding waypoint / symbolic action joint / vel / torque
是否涉及物理 ⚠️ 弱 ✅ 强
是否依赖 SLAM ✅(外部提供) ✅(强依赖)
常见方法 CLIP / BLIP / LLaVA VLM + Policy / LLM Imitation + RL + Transformer

三、算力层(Compute)对比

维度 VLM VLN VLA
推理频率 0.5–5 Hz <1 Hz 20–200 Hz
延迟要求 100–500 ms 秒级可接受 <10–20 ms
是否强实时
是否必须端侧
算力形态 GPU / 云 / 边缘 云 / 边缘 端侧 GPU / NPU
算力瓶颈 显存 不敏感 极度敏感

四、数据层(Data)对比(差距最大的地方

维度 VLM VLN VLA
数据类型 图像-文本对 指令-轨迹 (obs, action, state)
数据来源 Web-scale 模拟器 + 少量真实 真实机器人
数据成本 极高
是否可合成 ⚠️ 部分 ❌ 基本不行
数据规模 亿级 万–十万 万–百万(真实)
数据采集难度 灾难级
泛化能力 低(强场景依赖)

五、工程实现与落地难度对比

维度 VLM VLN VLA
是否可独立落地
是否可商品化 ⚠️ 少量 ⚠️ 早期
系统风险 极高
调试难度 极高
出问题的代价 撞人 / 损坏
是否需要兜底模块 不需要 需要 必须
常见兜底 SLAM / Planner Controller / Safety Layer

六、在真实具身智能系统中的“典型用法”

模块 VLM VLN VLA
家用机器人 识别物体 / 场景 规划移动路线 抓取 / 行走
工业机器人 目标识别 / 质检 工序顺序规划 精确操作
移动机器人 语义建图 指令导航 底盘控制
人形机器人 环境理解 任务拆解 全身控制

七、架构评审工程结论

模块 核心结论
VLM 决定系统能“理解多复杂的世界”
VLN 决定系统能否“按人类语言完成任务”
VLA 决定系统是否“真的能动、能卖、能活”

八、一句话对比总结

VLM 决定认知上限
VLN 决定任务表达能力
VLA 决定商业可行性

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐