CVPR 2026首次设具身智能研讨会：小鹏与英伟达、特斯拉、Waymo同台，物理AI成焦点

具身智能的"最后10%"问题，仍然是学术研究最大的富矿。Sim2Real域泛化：如何训练出对仿真与真实环境分布差异不敏感的策略？少样本物理学习：如何在少量真实交互数据的基础上，快速适应新任务和新环境？可解释的具身决策：如何让世界模型的推演过程可解释、可审计，满足安全监管要求？多智能体具身协作：多个具身智能体如何协调、合作、竞争？CVPR 2026首次设立具身智能研讨会，这一事件本身或许比任何单项技

aimanghe

258人浏览 · 2026-06-05 13:25:07

aimanghe · 2026-06-05 13:25:07 发布

2026年6月4日，全球计算机视觉与模式识别领域顶级学术会议CVPR 2026在美国西雅图正式开幕。与往年不同的是，今年CVPR首次设立了**"具身智能基座模型部署研讨会"（Embodied AI Foundation Model Deployment Workshop）**，将学术界与产业界的目光前所未有地聚焦到同一个议题——具身智能（Embodied AI）究竟如何从实验室走向大规模落地。

在这场历史性的研讨会舞台上，出现了四家最受关注的主角：英伟达（NVIDIA）、特斯拉（Tesla）、Waymo，以及唯一受邀的中国企业——小鹏汽车。英伟达带来了其下一代机器人基础模型框架，特斯拉分享了Optimus机器人的最新进展，Waymo披露了无人驾驶系统从仿真到实车的闭环验证体系，而小鹏则由通用智能中心负责人刘先明登台，详细介绍了其具备主动思考、可控生成和长时序推演能力的世界模型（World Model）。

这是中国车企首次以技术主角的身份站上CVPR具身智能研讨会的舞台，也是具身智能在全球顶级学术会议上首次从"论文里的方向"变成"产线上的现实"。本文将完整梳理这场研讨会的核心内容，解析各家技术路线的异同，并探讨这场盛会对于整个行业的深远影响。

一、CVPR首次设立具身智能研讨会：意味着什么？

1.1 从学术前沿到产业共振

CVPR（Conference on Computer Vision and Pattern Recognition）是计算机视觉领域最具影响力的国际会议之一，由IEEE计算机协会和计算机视觉基金会联合举办，每年吸引全球数千名研究者参与。在过去的二十余届会议中，CVPR的议程设置基本上围绕感知（perception）、识别（recognition）、生成（generation）等核心视觉任务展开，具身智能虽偶有论文出现，但从未成为独立赛道。

2026年，局面发生了根本性转变。CVPR不仅首次设立了具身智能基座模型部署研讨会，还将其安排在主会期第一天上午——这在学术会议的议程安排中，往往意味着最高优先级的战略性议题。

这一变化的背后，是具身智能在最近两年间从学术研究向工业落地的高速跃迁。以往，具身智能的研究主要集中在强化学习、模仿学习、仿真环境构建等方向，论文虽然精彩，但距离实际应用始终存在一道难以跨越的鸿沟——Sim2Real（从仿真到现实）问题、实时推理的算力瓶颈、复杂场景下的泛化能力不足，构成了三重挑战。

然而，2025年以来，大语言模型（LLM）与世界模型的突破为具身智能注入了新的想象力。一个能够理解物理世界规律、能够进行长时序推演、能够在不确定环境中主动决策的智能体，终于从理论走向了可工程化部署的阶段。这是CVPR将其纳入独立研讨会的根本原因。

1.2 研讨会的核心议题框架

本次具身智能基座模型部署研讨会围绕以下四个核心议题展开：

基座模型的构建与训练：什么样的基础模型架构适合具身智能任务？视觉-语言-动作（VLA）多模态融合是否是正确答案？
Sim2Real迁移：如何利用大规模仿真数据训练策略，并成功迁移到真实物理环境？
实时部署与边缘推理：在车端或机器人端算力受限的情况下，如何高效运行大规模模型？
安全与评测体系：具身智能系统缺乏可靠的评测标准，如何建立行业公认的安全与性能基准？

这四个议题恰好对应了具身智能从模型训练到最终部署的全链条痛点。接下来，让我们看看各家是如何在这四个维度上给出各自答案的。

二、小鹏世界模型：主动思考、可控生成与长时序推演

2.1 核心架构：世界模型的三层能力体系

在本次研讨会上，小鹏汽车通用智能中心负责人刘先明做了主题为**"A World Model for Physical AI: Active Thinking, Controllable Generation, and Long-horizon Reasoning"**的技术分享，首次系统性地向国际学术界阐述了，小鹏构建的世界模型究竟具备怎样的能力体系。

主动思考（Active Thinking）是小鹏世界模型的第一层核心能力。传统的感知系统——无论是视觉感知还是激光雷达感知——本质上是被动的：环境给什么信号，系统就处理什么信号。而小鹏的世界模型在此基础上增加了一层预测性推理引擎，使系统能够主动提出假设、评估假设、修正假设。例如，当智能车辆行驶到一个被建筑物遮挡的十字路口时，被动感知系统只能感知到部分画面；而具备主动思考能力的世界模型则会主动推演"如果其他道路使用者从遮挡区域驶出，最可能的轨迹是什么"，并提前做出预案式响应。

**可控生成（Controllable Generation）是第二层能力，也是小鹏技术分享中最具工程创新性的部分。传统视频生成模型（如Sora、Genie等）的生成过程不可控，输出结果高度随机，无法直接用于自动驾驶决策。而小鹏的世界模型在一个因果约束框架（Causal Constraint Framework）**下运行：生成过程不仅受到物理规律约束（不能穿墙、不能凭空消失、摩擦系数必须合理），还受到来自车端传感器的实时状态约束（当前车速、方向盘转角、加速度计读数）。这使得生成结果具备高度可控性和物理一致性，可以直接作为决策系统的输入。

长时序推演（Long-horizon Reasoning）是第三层能力，也是将小鹏世界模型与其他端到端自动驾驶方案区分开来的核心技术壁垒。传统端到端自动驾驶方案的规划视野通常在3-5秒以内，而小鹏的世界模型将推演视野扩展到了30秒乃至更长时间维度，并且能够进行多层级的推演——不仅推演"我下一步怎么走"，还推演"如果我这样走，其他交通参与者会如何反应，他们的反应又会如何反过来影响我的决策"。这种递归式的推演能力，使得系统能够在复杂博弈场景（如无保护左转、密集城区穿插）中做出更优决策。

2.2 训练数据：从量产车队到仿真引擎

刘先明还透露了小鹏世界模型的训练数据策略。小鹏依托其已量产的乘用车队，积累了数十亿公里的真实驾驶数据，这是训练世界模型最宝贵的物理世界先验知识。然而，纯靠真实数据存在长尾场景覆盖不足的问题——那些"一辈子可能只遇到一次但遇到就可能是致命事故"的极端场景，在真实数据集中极为稀缺。

为此，小鹏构建了一套双引擎训练系统：

真实数据引擎：利用量产车队回传的感知数据，通过数据清洗、场景筛选、标注质量控制，提取高价值训练样本。
仿真数据引擎：基于物理仿真引擎构建的大规模合成数据集，覆盖雨雪雾霾、夜晚逆光、道路施工、动物闯入等极端场景，填补真实数据的分布盲区。

两个引擎的输出通过一个自适应权重调节模块进行动态融合，根据当前模型在特定场景类别的误差分布，自动调节真实数据与仿真数据的训练配比。这种做法有效缓解了Sim2Real迁移中最常见的"仿真数据过拟合"问题。

2.3 部署架构：从云端训练到车端推理

小鹏世界模型的部署采用了云端-边缘协同架构：

云端训练：大模型在云端完成大规模预训练和微调，支持灵活的分布式训练资源调度。
车端推理：部署到量产车端的是一个经过知识蒸馏和量化压缩的轻量版世界模型，推理延迟控制在毫秒级。车端模型通过持续学习框架，定期接收云端推送的增量更新。

刘先明强调，车端部署的模型并非简单裁剪版本，而是一个经过针对性结构优化的版本——保留了长时序推演的核心能力，但通过注意力机制的稀疏化设计和时序窗口的自适应裁剪，将参数量控制在可接受范围内。

三、各家路线对比：英伟达、特斯拉、Waymo的技术分野

3.1 英伟达：做具身智能时代的"卖水人"

英伟达在本次研讨会上延续了其一贯的平台化战略。英伟达机器人业务负责人展示了其Isaac系列机器人基础模型框架的最新版本，并重点介绍了三个技术组件：

组件	功能	技术亮点
GR00T-2	通用人形机器人基础模型	多模态输入（视觉+语言+触觉），支持动作序列生成
Isaac Sim	物理仿真平台	高保真物理引擎，支持USD格式资产库
Isaac Lab	强化学习训练框架	分布式训练，支持Sim2Real策略迁移

英伟达的核心逻辑是不自己做机器人，而是让所有人能更好地做机器人。通过提供从仿真到训练到部署的全栈工具链，英伟达试图成为具身智能时代的基础设施提供商。正如黄仁勋在多次演讲中强调的："我们不是在制造机器人，我们是在建造制造机器人的工厂。"

这一路线的优势在于生态锁定能力强——一旦开发者和企业习惯了在Isaac体系下开发具身智能应用，迁移成本极高。但其劣势也同样明显：在最终应用层面的技术创新上，英伟达缺乏直接的商业驱动力，更多是被动响应社区需求。

3.2 特斯拉：从自动驾驶到人形机器人的技术迁移

特斯拉的分享是本次研讨会的另一大看点。特斯拉Optimus团队的技术负责人详细披露了Optimus机器人从概念验证到小批量量产的完整技术演进路径。

特斯拉的核心技术路线可以概括为**"自动驾驶技术降维复用"**：

感知栈：Optimus直接复用了FSD（Full Self-Driving）的视觉感知栈，包括 Occupancy Network 和 Transformer 架构。这意味着Optimus在视觉感知层面的能力与特斯拉车辆处于同一水平线。
动作规划：在自动驾驶的运动规划（Motion Planning）基础上，特斯拉为机器人设计了一套**全身动作控制（WBC，Whole Body Control）**系统，将末端执行器的轨迹规划与全身姿态平衡统一在一个优化框架内。
数据飞轮：借助特斯拉超过10亿英里的真实驾驶数据，特斯拉积累了全球最大规模的物理世界交互数据集。这套数据飞轮被复用到机器人训练中，形成了显著的数据优势。

值得注意的是，特斯拉分享中的一个关键观点：人形机器人不需要世界模型，而需要一个"任务理解-动作执行"的端到端闭环。这一观点与小鹏的世界模型路线形成了有趣的张力——特斯拉更强调端到端学习，而小鹏更强调世界模型的物理一致性推理能力。两种路线哪种更优，目前尚无定论，但它们代表了具身智能领域最重要的两条技术路径。

3.3 Waymo：仿真优先的验证体系

Waymo的分享则更聚焦于安全验证这一具身智能落地中最容易被忽视但最致命的环节。

Waymo的技术负责人提出了一个令在场学者印象深刻的观点："没有充分仿真验证的具身智能系统，理论上再完美也不能上车。" 基于这一理念，Waymo构建了一套名为SurgeLab的仿真验证体系，其核心特性包括：

大规模场景生成：基于真实路测数据的统计分布，自动生成边界条件（corner cases），仿真规模达到每日数十亿帧。
对抗性场景挖掘：通过强化学习驱动的场景生成器，自动搜索模型在最坏情况下的行为边界，确保系统在极端场景下不会发生不可预测的行为。
硬件在环（HIL）仿真：在实车部署前，通过硬件在环测试平台，验证感知-决策-控制全链路在真实硬件上的延迟和稳定性。

Waymo的技术路线与其他三家的最大区别在于：英伟达提供工具，特斯拉打造产品，小鹏定义模型，而Waymo专注于验证。这种"裁判员"的角色，在具身智能行业标准尚未成形的当下，恰恰可能具有最大的长期话语权。

3.4 四家路线横向对比

维度	小鹏	英伟达	特斯拉	Waymo
核心定位	世界模型+自动驾驶融合	基础平台+工具链	端到端垂直整合	安全验证体系
模型架构	因果约束世界模型	GR00T多模态大模型	FSD感知栈+端到端动作	仿真驱动验证模型
数据来源	量产车队+仿真双引擎	Isaac仿真生态数据	自有车队+自有场景	真实路测+对抗仿真
部署形态	车端边缘推理+云端更新	云端训练+边缘部署（通过合作伙伴）	自有机器人+自研芯片	Robotaxi实车部署
技术哲学	物理一致性优先	生态平台优先	端到端整合优先	安全验证优先
中国/国际	中国·全球舞台	全球	全球	全球

四、从实验室到量产的部署挑战：技术与工程的双重鸿沟

4.1 Sim2Real：最大的"死亡之谷"

无论技术路线如何选择，所有具身智能项目在从仿真走向真实物理世界时，都不可避免地遭遇Sim2Real问题。本次研讨会上，这一问题被多位演讲者反复提及，并被认为仍是具身智能大规模落地的最大瓶颈。

Sim2Real的核心挑战在于物理仿真的不完备性。真实物理世界存在大量难以精确建模的物理现象：

接触力学的复杂性：轮足与地面的接触摩擦、柔性物体的形变与反弹、复杂材质（泥土、冰面、积水）的力学行为，这些在仿真中往往被简化处理。
传感器噪声的分布差异：仿真环境中相机噪声、雷达多径效应、IMU漂移的统计分布，与真实环境存在系统性偏差。
光照与天气条件的变化：同一物理场景在不同光照、天气条件下呈现的视觉特征差异巨大，仿真环境很难穷举所有真实条件。

各家应对Sim2Real挑战的策略也各有侧重：小鹏通过双引擎训练+因果约束降低对仿真的依赖；英伟达通过Isaac Sim的持续高保真化升级来弥合差距；Waymo则通过大规模的对抗性仿真和硬件在环测试来尽可能多地发现问题。

4.2 实时推理与算力约束

具身智能系统对推理延迟的要求远高于传统的感知任务。以自动驾驶为例，从感知到决策再到控制，整个闭环的延迟预算通常在100毫秒以内，否则车辆在高速场景下将无法及时响应突发状况。

然而，世界模型和大规模VLA模型本身是计算密集型的。以小鹏的世界模型为例，完整版模型的推理延迟在云端环境下约为数十毫秒，但经过蒸馏压缩到车端可接受的规模后，模型能力是否还能保持？刘先明在演讲中承认，这是一个需要持续优化的方向——小鹏通过稀疏注意力机制和动态时序窗口来平衡推理速度与模型能力，但在他看来，"算力永远不够用"是具身智能部署中永恒的主题。

英伟达的解决方案是提供专用推理芯片（DRIVE Thor系列），但芯片就位并不等于问题解决——如何针对具体模型架构做推理优化、如何充分利用芯片的异构计算单元，仍然需要大量工程工作。

4.3 安全评测体系：缺失的行业标准

具身智能领域目前缺乏一个像自动驾驶领域的DIS（Driver Assistance Systems）评级那样被广泛接受的评测体系。多位与会学者在问答环节中指出，这一空白正在制约行业的健康发展：

学术论文中的具身智能方法，往往在仿真环境中取得了优异的结果，但无法直接比较哪个方法在实际物理环境中的表现更优。
产业界的各家公司，各自使用内部测试集评估性能，但测试集不公开、不标准化，导致技术迭代缺乏公正的横向对比基准。
安全关键场景（如机器人误操作导致的人身伤害、自动驾驶系统决策错误导致的碰撞）的评测，在学术界几乎是空白。

Waymo在此次研讨会上呼吁行业共建具身智能安全评测标准，并提出了**"物理基准（Physical Benchmark）"**的概念——一个包含1000+真实物理场景、覆盖室内外多种环境、支持多任务评测的标准化测试集。这一提议获得了与会各方的广泛认可，但具体的推进节奏仍有待观察。

五、行业影响：从汽车到机器人，从出行到制造

5.1 打破汽车与机器人的边界

本次CVPR研讨会最深远的影响，或许不在于任何单一技术的突破，而在于它正式宣告了汽车产业与机器人产业的深度融合。

在过去，汽车企业（如小鹏、特斯拉、Waymo）和机器人企业（如Figure、Boston Dynamics、1X Technologies）虽然都涉及具身智能技术，但各自独立演进、技术交流有限。而CVPR这样全球顶级学术会议将具身智能作为独立议题，意味着学术界、企业界、投资界开始将"会移动、会操作的智能体"视为一个统一的领域——物理AI（Physical AI）。

这一融合对产业链的影响是深远的：

供应链重构：机器人核心零部件（灵巧手、高精度力矩传感器、轻量化关节）的供应商，将同时面向汽车和机器人两个市场，规模效应带来成本下降。
人才流动加速：汽车自动驾驶领域积累的感知、规划人才，将大量流入机器人行业；机器人领域的运动控制专家也将反向参与自动驾驶的研发。
研发范式迁移：汽车行业成熟的"海量数据+影子模式+OTA迭代"研发范式，将被机器人企业广泛借鉴。

5.2 中国力量的崛起

小鹏作为唯一受邀的中国企业登上CVPR具身智能研讨会的舞台，这一事件本身具有标志性意义。

长期以来，中国在计算机视觉领域的学术论文数量已经位居全球前列，但在CVPR这样顶级学术会议的产业环节上，来自中国的声音相对有限。而本次小鹏代表中国汽车工业首次在国际顶级学术会议的具身智能研讨会上进行技术分享，意味着中国在具身智能的工程化落地方面，已经走到了全球前列。

刘先明在演讲结束时的表态颇具深意："我们不是为了在国际舞台上展示而来到CVPR，我们是因为这里有全球最优秀的具身智能研究者和实践者，我们希望与同行进行深度的技术交流。"这种务实的态度，或许正是中国具身智能产业能够在激烈的国际竞争中持续进步的根本原因。

5.3 物理AI的"iPhone时刻"是否已来？

研讨会期间，有一个被反复讨论的问题是：具身智能是否即将迎来类似大语言模型"ChatGPT时刻"那样的爆发点？

对此，学界和产业界的判断相对审慎。与语言模型不同，具身智能的"iPhone时刻"不仅需要算法突破，还需要解决硬件成本、安全标准、监管政策、用户接受度等多维度的非技术障碍。这些障碍的解决周期，远比训练出一个更好的模型本身更漫长。

但不容忽视的是，技术拐点已经基本确认。当小鹏的世界模型能够在30秒时间窗口内进行多步递归推演，当特斯拉的Optimus能够完成简单的家务操作，当Waymo的无人车在多个城市进行常态化运营，我们有理由相信：物理AI的技术基础设施已经初步就绪，接下来的问题不再是"能不能做到"，而是"如何做得更安全、更便宜、更大规模"。

六、对开发者的意义：机会、挑战与行动路径

6.1 技术从业者：从算法到系统思维

对于AI技术从业者而言，本次CVPR研讨会传递的最重要信号是：纯算法工程师的时代正在让位于系统工程师的时代。

具身智能项目的成功，不再取决于你是否发明了一个更精巧的注意力机制，而取决于你是否能够将模型训练、仿真验证、实时推理、安全评测等多个环节串联成一个可靠运行的系统。一个优秀的具身智能系统工程师，需要同时具备以下能力：

算法理解力：理解世界模型、VLA架构、强化学习的原理与适用边界。
工程实现力：能够处理模型量化压缩、推理优化、边缘部署等工程化挑战。
物理直觉：理解力学、控制理论、材料学的基本常识，能够识别仿真与真实物理世界之间的偏差。
安全意识：将安全约束内化为系统设计的优先项，而非后期打补丁。

6.2 研究者：具身智能的"最后10%"

对于学术研究者而言，本次研讨会揭示了一个清晰的机遇：具身智能的"最后10%"问题，仍然是学术研究最大的富矿。

具体而言，以下方向目前仍是具身智能领域的开放性问题，值得深入研究：

Sim2Real域泛化：如何训练出对仿真与真实环境分布差异不敏感的策略？
少样本物理学习：如何在少量真实交互数据的基础上，快速适应新任务和新环境？
可解释的具身决策：如何让世界模型的推演过程可解释、可审计，满足安全监管要求？
多智能体具身协作：多个具身智能体如何协调、合作、竞争？

6.3 创业者和投资人：具身智能的产业链机遇

对于关注产业机遇的创业者和投资人而言，本次CVPR透露出的信号指向以下几个潜在方向：

具身智能基础设施：仿真平台、数据集、评测工具、安全框架——这些"幕后的基础设施"目前仍存在显著的供给缺口。
垂直领域应用：制造业的柔性装配、医疗场景的辅助操作、家庭环境的通用服务机器人——这些领域的具身智能应用仍处于早期，但市场空间巨大。
边缘推理芯片：专用具身智能推理芯片的国产替代机会，在当前地缘政治背景下具有特殊的战略意义。

总结：物理AI时代的大门已经打开

CVPR 2026首次设立具身智能研讨会，这一事件本身或许比任何单项技术发布都更值得记录。它标志着具身智能从一个学术研究方向，正式跻身主流技术议程；它标志着全球最具影响力的计算机视觉学术会议，承认了具身智能已经是产业现实而非仅仅是学术理想。

在这场技术盛宴中，小鹏用世界模型证明了中国在具身智能工程化方面的实力，英伟达用平台战略描绘了基础设施提供商的野心，特斯拉用端到端整合展现了垂直一体化的力量，Waymo用安全验证体系提醒了整个行业：在狂热的技术进步面前，安全始终是不可逾越的底线。

对于每一个技术人而言，这都是一个激动人心的时刻。物理AI时代的大门已经打开，而门后的世界，既充满机遇，也遍布挑战。唯一确定的是：行动的时刻到了。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

好用的数字人平台怎么选？2026数据加密与隐私保护合规平台对比

魔珐星云开发社区

技术前沿深度洞察报告-第10期

本期技术前沿呈现"AI Agent工程化突破"与"具身智能商业化加速"双主线并行态势。在国际层面，百度Create 2026大会重磅发布文心5.1，以94%的预训练成本降幅冲进LMArena全球前四，标志着国产大模型正式进入"高效能竞争"时代；字节跳动开源UI-TARS-desktop以33k+ Stars横扫GitHub，将多模态AI Agent从概念推向生产可用。

魔珐星云开发社区

机器人 VLA/VA/WMA 算法评测框架深度调研

本文系统梳理了当前具身智能领域的评测体系，涵盖五大类平台：1）统一评测框架（如vla-eval、Embodied Arena）解决跨基准评测问题；2）仿真操作评测（如LIBERO、CALVIN等20+平台）覆盖不同动作空间和任务复杂度；3）真实世界评测（如GM-100、RoboChallenge）提供物理环境验证；4）世界模型评测（如RoboWM-Bench、WorldArena）专注物理可执行性