文章配图-1

出品 | 何玺

排版 | 叶媛

2025年,英伟达首席科学家Jim Fan在红杉大会上公开放话:“为VLA默哀,世界模型万岁。”

这句话像一颗石子投入湖面。一时间,VLA(视觉-语言-动作)似乎被判了死刑,世界模型被捧为自动驾驶与具身智能的“终极答案”。

然而不到一年,中科院团队的DriveVLA-W0、阿里的WorldVLA、清华的IRL-VLA接连问世。它们无一例外地证明:VLA与世界模型不是对手,而是天然互补的搭档。VLA提供语义理解与可解释性,世界模型赋予预测与推演能力。两者融合,才是具身智能大脑的完全体。

产业界同样闻风而动。华为推崇世界模型路线,小鹏开始做VLA 2.0,理想也在发布会上展示了融合路线的理解。一场关于“大脑”标准的技术暗战,已经悄然打响。

本文从技术演进和产业落地两个维度,拆解具身智能大脑的“融合时代”——为什么VLA不会死?融合如何发生?谁在定义未来?

VLA和世界模型到底谁更强?为什么学术界一边吵架一边融合?华为、小鹏、理想各自押注了什么?未来2-3年,具身智能大脑的终局形态长什么样?

下面,笔者就从这三个问题说起,聊聊技术路线之争的真相,以及融合时代正在如何重塑产业格局。

01

技术路线回顾:VLA和世界模型各自解决了什么问题

要理解融合的必要性,得先看清两条路各自的“长板”与“短板”。

VLA:让机器“能听懂、会解释、直接开”

VLA全称Vision-Language-Action,是一个多模态大脑。它的输入是摄像头画面和人类语言指令,输出则是直接的动作——比如方向盘转角、机械臂轨迹。它把“看、想、做”三件事打通了。

它的优势很明显:交互自然,你能跟它说“前面路口右转,注意那辆自行车”,它能准确执行还能回答你;可解释性强,它的推理过程可以用语言回溯;还能利用大语言模型中嵌入的人类常识来处理复杂语义场景。

但VLA也有致命短板。首先是“说做不一”——语言理解与动作对齐是个难题,模型可能听懂了你说的每一个字,但做出的动作却不对。其次,它对动态环境的预测能力很弱。你让它“变道超车”,它可能只看当前这一帧,不知道3秒后旁边车道会不会有车冲上来。最后,算力需求也很大。

世界模型:让机器“在脑海中预演未来”

世界模型是一种生成式时空神经网络。它把多传感器观测压缩成一个内部状态,然后在这个“脑海”里推演未来场景。你左转之前,它已经在内部模拟了:如果现在转向,对向车辆是否会减速?行人会不会突然闯入?未来3秒的路口会是什么样?

它的强项是预测和仿真。它能评估不同决策的后果,还能生成大量罕见但高风险的长尾场景数据,用来训练其他模型。

但世界模型也有自己的问题。它缺乏高级语义理解——它知道“有一个物体在移动”,但不知道那是“一辆救护车”需要礼让。实时高保真推演的计算成本也很高。更重要的是,它本身不直接产出驾驶策略,需要额外搭一个规划器。

两者并非水火不容

回顾技术起源,VLA和世界模型都源于对传统模块化架构的反思——那种感知-预测-规划-控制层层传递的方式,信息损失太严重了。它们的目标也都是让机器具备“human-like”的认知决策能力。它们面临的关键挑战也一样:怎么处理那20%的corner cases(长尾场景)。技术底层也都是“预训练+微调”的Transformer架构。

VLA和世界模型的分工,更像是“大脑皮层”与“小脑”的关系。大脑皮层负责理解与规划,小脑负责预测与纠偏。没有小脑,大脑的计划会撞墙;没有大脑,小脑的预测没有方向。两者不是对手,而是天生一对。

02

融合拐点:从论文到产业,为什么“合”比“分”更优

学术界和产业界几乎在同一时间意识到:分开走是死胡同,融合才是出路。

过去一年多,多篇顶会论文验证了融合的可行性。

3D-VLA(2024.03,东北大学/UCLA/MIT等):提出3D视觉-语言-动作生成式世界模型。它的核心创新是让模型学会“想象未来”——根据指令生成目标图像、深度图和点云。把3D感知、推理和动作生成打通了。

WorldVLA(2025.06,阿里达摩院/浙大):把VLA与世界模型统一在同一个自回归框架里。动作和图像在同一个模型里生成,两者相互增强。实验结果很清晰:世界模型为动作提供物理先验,动作模型反过来提升世界模型的视觉生成质量。动作成功率提升了4%,视频生成质量提升了10%。

DriveVLA-W0(2025.10,中科院自动化所):论文解决的是VLA最大的痛点——“监督不足”。VLA模型参数巨大,但训练信号只有稀疏的专家动作,根本喂不饱。中科院的办法是用世界模型来预测未来图像,作为密集的自监督信号。效果很显著:数据越多,模型性能提升越快(放大数据扩展定律),而且推理延迟降低到了基线VLA的63.1%。

IRL-VLA(2025.08,清华AIR/上海交大/博世):提出了“奖励世界模型”,在不依赖高保真仿真器的情况下对VLA策略进行闭环强化学习微调。这相当于让VLA在真实环境中也能持续进化,不用等仿真器做完美。

产业界跟进得也很快。

华为强调世界模型路线,认为“预测是智能的核心”,已经将世界模型应用于自动驾驶的感知-预测-规划闭环。小鹏提出了“VLA 2.0”,试图在端到端框架中融入更强的预测能力。理想则在发布会上展示了融合路线的理解,强调“用世界模型做长视野规划,用VLA做语义交互”。

创业公司也在站队。智平方坚守VLA主航道,但其GOVLA中的快慢系统本质就是对未来状态的隐式预测。眸深智能提出的“World Motion Model”,则直接尝试跳出现有VLA框架,接近世界模型路线。

学术界已经证明融合的可行性,产业界正在用工程化验证融合的落地性。2026-2027年将是融合架构从论文走向产线的关键窗口。

03

未来2-3年,融合路线必须跨越的三道门槛

方向已经明确,但道路并不平坦。融合架构从论文到产线,至少有三道硬门槛。

第一道门槛:实时性——融合架构的推理延迟能否降到毫秒级?

当前VLA模型的推理延迟普遍在100-300毫秒,世界模型的高保真推演更慢。但对于人形机器人或自动驾驶,端到端延迟需要控制在50毫秒以内。你让机器人抓一个移动的杯子,300毫秒的延迟意味着杯子已经跑远了。

中科院DriveVLA-W0已经把推理延迟降至基线的63.1%,从300毫秒降到190毫秒以内,但这离50毫秒还有很大距离。可能的解法是模型蒸馏、量化压缩、专用芯片(如昆仑芯、地平线)。但无论哪种,都需要大量工程优化。谁能在实时性上率先突破,谁就拿到了工业落地的第一张门票。

第二道门槛:数据飞轮——真实物理世界的数据从哪里来?

互联网图文数据取之不尽,但机器人的“动作-结果”数据极其昂贵。千寻智能用自研的可穿戴采集设备把数据成本降到了传统的1/10,但每一小时的机器人操作数据,背后仍然是一小时的人工示教。规模化的瓶颈不在算法,在数据采集。

世界模型生成的数据可以辅助训练,但“仿真到现实”的域差异问题至今没有根本解决。在仿真里跑得再好的策略,一到真实世界就可能翻车。可能的解法是人机协作采集、众包数据、混合仿真。还没有人找到规模化、低成本、高质量的三赢方案,但这恰恰是融合路线需要攻克的下一座山头。

第三道门槛:安全可控性——生成式预测的“幻觉”风险如何规避?

世界模型在预测未来时,可能生成物理上不可能的场景——比如汽车突然瞬移、物体凭空出现。这种“幻觉”一旦被规划器采信,后果不堪设想。

当前业界主要靠“保守规划”“多重假设验证”来兜底。规划器同时跑几个不同的未来预测,只采纳最保守的那一个,或者取多个预测的交集。但这本质上是在用效率换安全。对于工业场景,99%的成功率已经很好;但对于家庭场景,99.9%都不够——那0.1%的幻觉可能导致机器人撞倒老人。根本性解法可能是物理约束注入、不确定性量化、分层控制兜底,这些都还在研究中。只有跨越这道门槛,具身智能才能真正走出工厂,进入日常生活。

结语

VLA没有死。它正在进化成一种更强大的形态——VLA+世界模型的融合体。

英伟达Jim Fan的“为VLA默哀”更像是一声警钟,提醒业界不要固守某一条路线。而中科院、阿里、清华的最新工作已经证明:真正的智能大脑,既需要VLA的语义理解与可解释性,也需要世界模型的预测推演与数据效率。

产业界同样在加速。华为、小鹏、理想各自押注不同的融合路径,创业公司则在细分赛道上寻找突破口。未来2-3年,融合架构将经历从“论文”到“产线”的残酷考验——实时性、数据飞轮、安全可控,是任何玩家都无法绕过的三道硬门槛。

当语义理解与预测推演合二为一,具身智能才算真正拥有了“大脑”。这场融合竞赛的赢家,或许就是下一代生产力平台的定义者。而2026-2027年,正是这场竞赛从“热身”进入“冲刺”的关键转折点。

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐