VLA不死，只是进化：具身智能大脑的“融合时代”

规划器同时跑几个不同的未来预测，只采纳最保守的那一个，或者取多个预测的交集。回顾技术起源，VLA和世界模型都源于对传统模块化架构的反思——那种感知-预测-规划-控制层层传递的方式，信息损失太严重了。产业界同样闻风而动。一时间，VLA（视觉-语言-动作）似乎被判了死刑，世界模型被捧为自动驾驶与具身智能的“终极答案”。千寻智能用自研的可穿戴采集设备把数据成本降到了传统的1/10，但每一小时的机器人操作

何玺

30人浏览 · 2026-06-04 14:10:55

何玺 · 2026-06-04 14:10:55 发布

文章配图-1

出品 | 何玺

排版 | 叶媛

2025年，英伟达首席科学家Jim Fan在红杉大会上公开放话：“为VLA默哀，世界模型万岁。”

这句话像一颗石子投入湖面。一时间，VLA（视觉-语言-动作）似乎被判了死刑，世界模型被捧为自动驾驶与具身智能的“终极答案”。

然而不到一年，中科院团队的DriveVLA-W0、阿里的WorldVLA、清华的IRL-VLA接连问世。它们无一例外地证明：VLA与世界模型不是对手，而是天然互补的搭档。VLA提供语义理解与可解释性，世界模型赋予预测与推演能力。两者融合，才是具身智能大脑的完全体。

产业界同样闻风而动。华为推崇世界模型路线，小鹏开始做VLA 2.0，理想也在发布会上展示了融合路线的理解。一场关于“大脑”标准的技术暗战，已经悄然打响。

本文从技术演进和产业落地两个维度，拆解具身智能大脑的“融合时代”——为什么VLA不会死？融合如何发生？谁在定义未来？

VLA和世界模型到底谁更强？为什么学术界一边吵架一边融合？华为、小鹏、理想各自押注了什么？未来2-3年，具身智能大脑的终局形态长什么样？

下面，笔者就从这三个问题说起，聊聊技术路线之争的真相，以及融合时代正在如何重塑产业格局。

技术路线回顾：VLA和世界模型各自解决了什么问题

要理解融合的必要性，得先看清两条路各自的“长板”与“短板”。

VLA：让机器“能听懂、会解释、直接开”

VLA全称Vision-Language-Action，是一个多模态大脑。它的输入是摄像头画面和人类语言指令，输出则是直接的动作——比如方向盘转角、机械臂轨迹。它把“看、想、做”三件事打通了。

它的优势很明显：交互自然，你能跟它说“前面路口右转，注意那辆自行车”，它能准确执行还能回答你；可解释性强，它的推理过程可以用语言回溯；还能利用大语言模型中嵌入的人类常识来处理复杂语义场景。

但VLA也有致命短板。首先是“说做不一”——语言理解与动作对齐是个难题，模型可能听懂了你说的每一个字，但做出的动作却不对。其次，它对动态环境的预测能力很弱。你让它“变道超车”，它可能只看当前这一帧，不知道3秒后旁边车道会不会有车冲上来。最后，算力需求也很大。

世界模型：让机器“在脑海中预演未来”

世界模型是一种生成式时空神经网络。它把多传感器观测压缩成一个内部状态，然后在这个“脑海”里推演未来场景。你左转之前，它已经在内部模拟了：如果现在转向，对向车辆是否会减速？行人会不会突然闯入？未来3秒的路口会是什么样？

它的强项是预测和仿真。它能评估不同决策的后果，还能生成大量罕见但高风险的长尾场景数据，用来训练其他模型。

但世界模型也有自己的问题。它缺乏高级语义理解——它知道“有一个物体在移动”，但不知道那是“一辆救护车”需要礼让。实时高保真推演的计算成本也很高。更重要的是，它本身不直接产出驾驶策略，需要额外搭一个规划器。

两者并非水火不容

回顾技术起源，VLA和世界模型都源于对传统模块化架构的反思——那种感知-预测-规划-控制层层传递的方式，信息损失太严重了。它们的目标也都是让机器具备“human-like”的认知决策能力。它们面临的关键挑战也一样：怎么处理那20%的corner cases（长尾场景）。技术底层也都是“预训练+微调”的Transformer架构。

VLA和世界模型的分工，更像是“大脑皮层”与“小脑”的关系。大脑皮层负责理解与规划，小脑负责预测与纠偏。没有小脑，大脑的计划会撞墙；没有大脑，小脑的预测没有方向。两者不是对手，而是天生一对。

融合拐点：从论文到产业，为什么“合”比“分”更优

学术界和产业界几乎在同一时间意识到：分开走是死胡同，融合才是出路。

过去一年多，多篇顶会论文验证了融合的可行性。

3D-VLA（2024.03，东北大学/UCLA/MIT等）：提出3D视觉-语言-动作生成式世界模型。它的核心创新是让模型学会“想象未来”——根据指令生成目标图像、深度图和点云。把3D感知、推理和动作生成打通了。

WorldVLA（2025.06，阿里达摩院/浙大）：把VLA与世界模型统一在同一个自回归框架里。动作和图像在同一个模型里生成，两者相互增强。实验结果很清晰：世界模型为动作提供物理先验，动作模型反过来提升世界模型的视觉生成质量。动作成功率提升了4%，视频生成质量提升了10%。

DriveVLA-W0（2025.10，中科院自动化所）：论文解决的是VLA最大的痛点——“监督不足”。VLA模型参数巨大，但训练信号只有稀疏的专家动作，根本喂不饱。中科院的办法是用世界模型来预测未来图像，作为密集的自监督信号。效果很显著：数据越多，模型性能提升越快（放大数据扩展定律），而且推理延迟降低到了基线VLA的63.1%。

IRL-VLA（2025.08，清华AIR/上海交大/博世）：提出了“奖励世界模型”，在不依赖高保真仿真器的情况下对VLA策略进行闭环强化学习微调。这相当于让VLA在真实环境中也能持续进化，不用等仿真器做完美。

产业界跟进得也很快。

华为强调世界模型路线，认为“预测是智能的核心”，已经将世界模型应用于自动驾驶的感知-预测-规划闭环。小鹏提出了“VLA 2.0”，试图在端到端框架中融入更强的预测能力。理想则在发布会上展示了融合路线的理解，强调“用世界模型做长视野规划，用VLA做语义交互”。

创业公司也在站队。智平方坚守VLA主航道，但其GOVLA中的快慢系统本质就是对未来状态的隐式预测。眸深智能提出的“World Motion Model”，则直接尝试跳出现有VLA框架，接近世界模型路线。

学术界已经证明融合的可行性，产业界正在用工程化验证融合的落地性。2026-2027年将是融合架构从论文走向产线的关键窗口。

未来2-3年，融合路线必须跨越的三道门槛

方向已经明确，但道路并不平坦。融合架构从论文到产线，至少有三道硬门槛。

第一道门槛：实时性——融合架构的推理延迟能否降到毫秒级？

当前VLA模型的推理延迟普遍在100-300毫秒，世界模型的高保真推演更慢。但对于人形机器人或自动驾驶，端到端延迟需要控制在50毫秒以内。你让机器人抓一个移动的杯子，300毫秒的延迟意味着杯子已经跑远了。

中科院DriveVLA-W0已经把推理延迟降至基线的63.1%，从300毫秒降到190毫秒以内，但这离50毫秒还有很大距离。可能的解法是模型蒸馏、量化压缩、专用芯片（如昆仑芯、地平线）。但无论哪种，都需要大量工程优化。谁能在实时性上率先突破，谁就拿到了工业落地的第一张门票。

第二道门槛：数据飞轮——真实物理世界的数据从哪里来？

互联网图文数据取之不尽，但机器人的“动作-结果”数据极其昂贵。千寻智能用自研的可穿戴采集设备把数据成本降到了传统的1/10，但每一小时的机器人操作数据，背后仍然是一小时的人工示教。规模化的瓶颈不在算法，在数据采集。

世界模型生成的数据可以辅助训练，但“仿真到现实”的域差异问题至今没有根本解决。在仿真里跑得再好的策略，一到真实世界就可能翻车。可能的解法是人机协作采集、众包数据、混合仿真。还没有人找到规模化、低成本、高质量的三赢方案，但这恰恰是融合路线需要攻克的下一座山头。

第三道门槛：安全可控性——生成式预测的“幻觉”风险如何规避？

世界模型在预测未来时，可能生成物理上不可能的场景——比如汽车突然瞬移、物体凭空出现。这种“幻觉”一旦被规划器采信，后果不堪设想。

当前业界主要靠“保守规划”或“多重假设验证”来兜底。规划器同时跑几个不同的未来预测，只采纳最保守的那一个，或者取多个预测的交集。但这本质上是在用效率换安全。对于工业场景，99%的成功率已经很好；但对于家庭场景，99.9%都不够——那0.1%的幻觉可能导致机器人撞倒老人。根本性解法可能是物理约束注入、不确定性量化、分层控制兜底，这些都还在研究中。只有跨越这道门槛，具身智能才能真正走出工厂，进入日常生活。

结语

VLA没有死。它正在进化成一种更强大的形态——VLA+世界模型的融合体。

英伟达Jim Fan的“为VLA默哀”更像是一声警钟，提醒业界不要固守某一条路线。而中科院、阿里、清华的最新工作已经证明：真正的智能大脑，既需要VLA的语义理解与可解释性，也需要世界模型的预测推演与数据效率。

产业界同样在加速。华为、小鹏、理想各自押注不同的融合路径，创业公司则在细分赛道上寻找突破口。未来2-3年，融合架构将经历从“论文”到“产线”的残酷考验——实时性、数据飞轮、安全可控，是任何玩家都无法绕过的三道硬门槛。

当语义理解与预测推演合二为一，具身智能才算真正拥有了“大脑”。这场融合竞赛的赢家，或许就是下一代生产力平台的定义者。而2026-2027年，正是这场竞赛从“热身”进入“冲刺”的关键转折点。