VTAM：融合视觉-触觉预测的世界动作模型

本文提出视觉-触觉动作模型(VTAM)，通过融合视觉和触觉感知实现稳健的富接触操作。VTAM采用两阶段训练策略：首先在预训练视频骨干网络中联合建模视觉-触觉动力学，然后引入虚拟力正则化目标防止模态坍缩。实验表明，在薯片抓取(成功率90%)、黄瓜剥离(85%)和白板擦拭(95%)等任务中，VTAM显著优于纯视觉基线。关键创新包括：(1)预测性视觉-触觉世界建模，无需接触标注即可学习接触动力学；(2)

xwz小王子

432人浏览 · 2026-03-29 18:45:15

xwz小王子 · 2026-03-29 18:45:15 发布

摘要

视觉-动作模型（VAMs）已成为具身智能领域极具前景的框架，能够从原始视频流中学习隐式世界动力学，以生成时间一致性的动作预测。尽管此类模型通过视觉推理在长时程任务中展现出优异性能，但在富接触场景中仍存在局限性——这类场景中关键的交互状态仅通过视觉无法被完整观测。具体而言，细粒度的力调制和接触转换无法在视觉表征中被可靠编码，进而导致行为不稳定或不精确。

为弥补这一缺陷，本文提出视觉-触觉动作模型（VTAM），一种将触觉感知作为互补基础信号的多模态世界建模框架。VTAM通过轻量级模态迁移微调，将触觉流融入预训练视频变换器，无需触觉-语言配对数据或独立的触觉预训练即可实现高效的跨模态表征学习。为稳定多模态融合过程，本文提出触觉正则化损失，强制实现均衡的跨模态注意力，防止视觉隐特征在动作模型中占据主导地位。VTAM在富接触操作任务中表现出卓越性能，平均稳健成功率保持在90%。在薯片抓取放置这类要求高保真力感知的高难度场景中，VTAM的性能相较于π基线模型提升了80%。研究结果表明，融入触觉反馈对于修正世界动作模型中的视觉估计误差至关重要，为构建物理锚定的具身基础模型提供了一种可扩展的方法。

1 引言

VLA模型的最新进展通过大规模多模态对齐，实现了通用型机器人控制。该类模型将视觉观测和语言指令嵌入共享的语义隐空间，从而能够在各类操作任务和环境中实现泛化。然而，尽管视觉可支撑高层语义理解、语言可明确任务意图，但物理交互本质上由触觉反馈主导——触觉是唯一能直接编码机器人与环境间瞬时接触动力学的模态。触觉感知在细粒度、富接触的操作任务中尤为关键，例如处理易碎、可变形或光滑的物体。与从远距离捕捉相对稳定的物体几何特征的视觉不同，触觉信号反映了接触界面处力的瞬态时空演化过程。要有效利用该模态，不仅需要对力分布进行空间推理，还需要对力分布在动态交互中的演化规律进行时间推理。

现有大多数触觉增强型VLA架构通过以下两种方式融入触觉信息：（1）将触觉嵌入投影到预训练的视觉-语言隐空间，将其视为额外的语义表征；（2）在下游策略中，将触觉特征与语言条件视觉表征进行拼接。尽管这些方法让模型接触到了触觉输入，但给表征学习带来了巨大负担：模型必须在为视觉对齐和静态场景描述优化的语义嵌入空间中，隐式推断接触物理特性，而非为物理预测优化。要学习特定的触觉模式对应滑动、变形或不稳定性，需要通过静态相关性间接挖掘这些概念，这往往需要大规模的标注数据，且无法保证底层的高频动力学被准确捕捉。缺乏显式的时间建模，这些学习到的表征难以编码连续触觉帧之间的因果关系，而这正是预测初期滑动等失效模式所需的核心结构。此外，由于许多VLA骨干网络优先考虑语义对齐而非预测性物理建模，进一步导致触觉信号在细粒度时空推理中未被充分利用。

为解决上述局限性，本文提出VTAM——一种通用型视觉-触觉动作模型，将触觉感知融入面向富接触操作的预测性世界模型框架（见图1）。在表征层面，本文基于预训练视频骨干网络，设计了视觉-触觉预测模块。VTAM并未将触觉信号映射到语言对齐的语义空间，而是将触觉视为主要的感知模态，联合预测以机器人末端执行器状态为条件的视觉和触觉流的未来演化过程。这种预测性设计让骨干网络无需接触事件的显式语义标注，即可学习时间一致性的视觉-触觉特征。此外，在动作学习层面，本文解决了将触觉输入融入动作训练时普遍出现的模态坍缩问题。通过在动作头引入虚拟力预测目标，对多模态融合进行正则化并稳定训练过程。该设计促使策略在动作优化过程中保持对触觉信号的敏感性，有效防止视觉特征占据主导地位。

本文在三项不同的富接触操作任务中验证VTAM的性能：薯片抓取放置、物体剥离、表面擦拭。在薯片抓取放置任务中，VTAM的成功率达到90%，而纯视觉基线模型的成功率为0%，移除虚拟力正则化后的模型成功率仅为10%；未进行预测性视觉-触觉建模、仅在下游简单融合力信息的方法则完全失效（成功率0%）。在剥离和擦拭任务中也观察到了类似的趋势，这表明预测性视觉-触觉表征学习结合动作层面的正则化，能显著提升任务的稳定性和成功率。

综上，本文的主要贡献如下：

提出VTAM，一种视觉-触觉世界动作模型，将高分辨率触觉感知与视觉观测融入预测性视频骨干网络，实现稳健的富接触机器人操作；
提出联合视觉-触觉预测框架，在共享隐空间中预测未来的视觉和触觉流，使模型无需接触事件的显式语义标注，即可学习时间一致性的接触动力学；
提出虚拟力预测目标，成功缓解了训练过程中的模态坍缩问题，相较于纯视觉和简单融合基线模型取得了实证性能提升；
在高难度的富接触机器人任务中验证VTAM的性能，包括薯片抓取放置、黄瓜剥离、不同高度和倾斜角度的白板擦拭，相较于纯视觉和简单触觉融合基线模型，成功率实现大幅提升。

2 相关工作

2.1 VLA模型

VLA模型已成为通用型机器人控制的主流范式，利用互联网规模的视觉-语言预训练，将自然语言指令锚定到视觉观测中，并通过统一架构解码运动指令。后续研究从多个维度拓展了该范式，融入了3D几何先验、分层任务规划和预测性世界知识，持续提升了模型的泛化能力和样本效率。现有的视觉-语言VLA模型在视觉线索被遮挡的物理交互场景中表现不佳，在处理易碎物体时尤为明显。VTAM针对这一缺陷，将高分辨率触觉观测直接融入生成式世界模型骨干网络：模型学习联合视觉-触觉动力学，并利用这些表征指导动作生成，因此在交互过程中，触觉线索可修正视觉估计误差，提升在易碎和力敏感任务中的稳健性。

2.2 机器人领域的生成式世界模型

生成式世界模型通过预测未来环境状态，为规划和策略学习提供支撑。近期研究通过联合扩散视频和动作轨迹，拓展了这一思路。DreamZero在预训练视频扩散骨干网络的基础上构建了世界动作模型，通过从异构机器人数据中学习物理动力学，实现了零样本泛化和跨体性迁移。UWM引入了模态特异性扩散时间步，解耦了视频和动作的噪声调度，能够在包含无动作视频的大规模数据集上进行预训练。DreamVLA为VLA模型增加了未来视觉表征预测模块，RDP则将扩散方法分层应用于接触感知的动作细化。

尽管取得了这些进展，现有大多数世界模型几乎完全通过视觉预测对环境动力学进行编码。虽然视觉预测能捕捉物体的运动和场景的演化，但仅能间接获取主导富接触操作的物理交互信号。滑动、变形和力传递等关键现象发生在接触界面，往往难以被相机观测到，甚至完全处于视觉盲区。因此，仅依赖视觉动力学的模型在精细或力敏感的交互过程中，难以预测失效模式。基于这一局限性，VTAM将触觉变形动力学融入预测性世界模型，并通过虚拟力目标锚定控制学习，使得当接触状态在视觉上模糊时，策略仍能保持响应性。

2.3 机器人学习中的触觉融合

触觉感知能直接获取接触物理特性，对于处理可变形、易碎或被遮挡物体的操作任务至关重要。在表征层面，研究人员利用对比目标实现视觉和触觉嵌入的对齐，或学习传感器无关的触觉特征。在策略层面，近期方法通过力感知专家混合路由、双层反馈融合或触觉偏好优化融入触觉输入。然而，这些方法将触觉视为与视觉进行反应式融合的辅助输入通道，而非进行预测性建模。此外，一个实际的挑战是模态坍缩：训练过程中，视觉梯度占据主导地位，抑制了触觉或力信号。现有缓解方法依赖于显式的力扭矩传感器或混合位置-力控制器，带来了硬件约束，限制了模型的通用性。

VTAM在两个方面突破了这种反应式范式：一是将触觉感知融入生成式视频骨干网络，进行联合视觉-触觉动力学预测，而非静态融合；二是在动作头引入变形感知的虚拟力正则化，在无需外部力扭矩硬件的情况下，让训练全程保持触觉梯度的影响。

3 方法

本文提出视觉-触觉动作模型（VTAM），一种面向富接触操作的统一视觉-触觉世界动作模型。如图2所示，VTAM通过预训练变分自编码器（VAE），将多视角视觉观测和高分辨率触觉流（如GelSight触觉传感器）投影到共享的连续隐空间。在该空间中，采用交替视角内和视角间注意力的多视角扩散过程，对视觉场景的时间动力学和触觉传感器捕捉的细粒度物理变形进行联合建模，生成的多模态表征可编码预测性的接触演化过程。随后，这些表征通过交叉注意力被注入基于条件扩散的动作头，生成时间一致性且物理锚定的控制动作。

在共享骨干网络中联合优化视觉和触觉模态，往往会导致模态坍缩——主导性的视觉梯度会抑制局部的高频触觉信号。为解决这一核心优化难题，本文在动作头引入变形感知的虚拟力正则化，对触觉通路进行针对性的监督，从而稳定多模态融合，确保策略在下游任务中对关键的接触转换保持敏感性。

3.1 基于多视角扩散的视觉-触觉隐世界建模

视觉-触觉建模的一个核心挑战是，保留触觉传感器（如GelSight）中编码剪切力、滑动力和压力的高频空间细节，如细微的表面变形和纹理变化。标准的语义视觉编码器往往会舍弃这些细节，以获取粗粒度的物体级特征。因此，本文基于预训练视频变分自编码器（VAE）构建表征，VAE的重构导向目标具有天然的归纳偏置，能够保留细粒度的空间和运动模式，这使得本文无需设计专用的触觉骨干网络，即可实现高效的模态迁移。

除了空间细节，有效的接触操作还需要理解力随时间的演化规律。本文并未将触觉信号通过轻量级的反应式下游分支进行传递，而是将触觉流直接融入高容量的视频变换器，该架构既能捕捉帧内的变形结构，也能捕捉帧间的接触演化过程。因此，模型可对力的趋势进行预测性推理，能够预测关键的状态转换——这是处理脆性物体的关键能力，因为这类物体的失效往往发生在毫米级的运动范围内。

形式上，给定时间步下视角的输入帧，利用预训练视频VAE编码器提取连续隐表征：

其中，分别表示第三人称和第一人称视觉相机视角，表示GelSight触觉流。

为建模复杂的空间和跨模态动力学，本文通过个交替的注意力块对这些隐特征进行处理。令表示第个块的隐表征集合，为初始VAE编码。对于每个块，首先对每个模态独立应用视角内自注意力，以捕捉空间结构：

随后，将所有视角的更新表征进行拼接，并应用视角间自注意力操作，以建模跨模态交互：

该交替结构在所有个块中重复执行，逐步构建出稠密的视觉-触觉联合表征。

3.2 基于虚拟力预测的变形感知正则化

尽管预测性骨干网络支持联合视觉-触觉表征学习，但本文发现在动作训练过程中存在严重的模态坍缩现象。具体而言，当仅利用视觉线索即可充分最小化任务损失时，通过触觉分支的梯度会大幅衰减，导致策略过度依赖视觉，忽略触觉反馈，进而在力敏感的操作任务中出现不稳定的接触控制。

为解决这一问题，本文提出变形感知的辅助目标，对触觉通路进行直接监督。以往的研究往往依赖安装在机器人手腕或夹爪上的外部力扭矩传感器，获取真实的3D力监督信号。与之相反，本文发现基于视觉的触觉传感器本身编码了与接触力高度相关的丰富变形模式。通过强制模型预测紧凑的、与变形相关的信号，确保触觉表征保持信息性，同时避免了重建高维触觉图像的计算开销。

形式上，给定无接触参考帧和当前触觉帧，计算稠密光流，直接从该变形场推导出3D虚拟力代理：

其中，光流分量的空间期望和编码了切向剪切力；关键的是，通过光流散度近似法向压力，利用了“可变形弹性体与物体接触挤压时，表面图案会向外扩张”这一特性。该信号是几何锚定的代理，而非经过校准的物理力。

推导得到的虚拟力在动作训练中作为辅助监督信号。本文并未附加独立的下游预测头，而是将该紧凑的力代理融入条件流匹配（Flow Matching）目标的联合去噪目标中。具体而言，网络需要联合预测未来的动作和虚拟力，从而将控制梯度与触觉表征有效绑定。显式的力正则化项通过对力分量的矢量场速度匹配进行评估：

该设计在隐空间中保留了对变形敏感的信息，并在整个优化过程中保持均衡的多模态梯度。

3.3 优化目标

为将预训练视觉骨干网络适配于多模态视觉-触觉建模，本文采用两阶段训练策略。骨干网络最初仅在视觉数据集上进行预训练，未接触过触觉信号特有的高频、局部变形模式。若将动作监督和虚拟力正则化与模态对齐同时引入，会迫使网络在优化控制策略的同时，调整其内部表征，这种紧密的耦合会导致骨干网络内部出现显著的分布偏移，降低触觉隐特征的质量，导致收敛不稳定。

为解决这一问题，本文对训练过程进行解耦：第一阶段仅对骨干网络进行微调，以建模联合视觉-触觉隐动力学，构建一致的多模态世界表征；第二阶段利用该对齐后的表征，引入正则化的动作预测。

阶段1：多视角视觉-触觉隐流匹配

令表示未来多视角观测的VAE编码隐序列，包含两个相机视角和GelSight触觉流。本文应用流匹配公式对这些视觉-触觉隐特征的前向动力学进行建模：

关键的是，该损失仅应用于未来预测帧，初始条件帧被排除在优化目标之外。该阶段将预训练骨干网络适配为捕捉宏观视觉动力学和微观触觉变形之间的物理相互作用，确保在引入任何控制信号之前，构建出性质良好的多模态隐空间。

阶段2：条件联合动作-状态-力去噪

在阶段1中训练出稳健的视觉-触觉世界模型后，本文对控制策略进行优化，将动作生成形式化为条件流匹配过程。通过将动作、虚拟力和状态进行拼接，构建联合去噪目标：

其中，表示6自由度末端执行器位姿和1维夹爪宽度，为从变形中推导的虚拟力，为本体感受状态。

网络以当前状态表征为条件，预测联合速度场（其中，动作和力维度在条件处理时进行零填充）。本文为动作和状态分量定义流匹配目标，以跟踪其各自子空间的最优去噪轨迹：

随后，将上述目标与虚拟力正则化损失（公式5）融合，构成阶段2的完整目标。总损失通过最小化所有三个分量的速度匹配误差之和实现优化：

由于流匹配对归一化的速度场进行回归，而非原始数据值，因此动作、状态和力维度的目标方差自然保持缩放一致，避免了标准均方误差（MSE）回归中通常需要的激进超参数平衡。此外，联合状态预测引入了关键的动力学一致性约束，确保模型将控制预测锚定在一致的物理状态转换中，而非记忆孤立的动作轨迹。

4 实验

本文在真实世界的富接触操作任务中对VTAM进行评估，以验证视觉-触觉世界动作建模的有效性。实验旨在解答以下核心问题：

Q1 视觉-触觉世界动作建模的有效性：在需要细粒度力调制的场景中，VTAM是否优于纯视觉和多模态基线模型？
Q2 隐视频融合与后期注入的对比：在共享视频隐空间中建模视觉-触觉动力学，是否比在后期注入触觉信息具备性能优势？
Q3 虚拟力正则化的影响：接触感知的虚拟目标正则化能在多大程度上缓解模态坍缩，稳定多模态训练？

4.1 实验设置

所有实验均在配备平行夹爪的6自由度xArm6机器人操作器上进行（图3a）。夹爪指端安装GelSight Mini触觉传感器，以捕捉高分辨率的表面变形；通过双镜头配置的两台Intel RealSense D455 RGB-D相机获取视觉观测。数据采集和动作执行的频率均为30Hz。

为评估视觉-触觉世界动作建模的有效性，本文将VTAM与多个性能优异的基线模型进行对比：

视频-动作模型（Genie Envisioner）：一种最先进的视频基础模型，将指令条件视频扩散骨干网络与流匹配动作解码器相结合；
π（纯视觉）：π通用型VLA策略的官方实现，该模型对π架构进行扩展，以实现开放世界泛化。该基线模型用于验证在力敏感场景中，以语义为主的纯视觉表征的性能上限——这类场景中关键的接触状态存在视觉遮挡；
π+简单触觉注入：π架构的多模态扩展版本，将高维GelSight触觉流简单作为额外的视觉视角注入。该设置专门用于验证模态坍缩现象：在无正则化的联合训练中，主导性的视觉梯度会抑制局部触觉信号。

4.2 真实世界任务与数据采集

本文在三项富接触操作任务中对VTAM进行评估：

薯片抓取放置：抓取并搬运易碎的薯片且不使其破损，需要细粒度的力调制。任务的成功取决于在手部造成严重视觉遮挡的情况下，精确调节抓取力并检测接触起始时刻；策略在抬起和放置薯片的过程中，必须同时避免抓取力不足（滑动/掉落）和抓取力过大（薯片碎裂）；
黄瓜剥离：在剥离可变形蔬菜的过程中保持稳定接触，需要持续的剪切力控制。该任务要求对工具滑动过程中摩擦力和变形的微小变化保持敏感；
白板擦拭：使用刚性黑板擦擦拭平整或倾斜的表面，需要保持持续接触并进行精确的法向力调节，以防止抖动和脱离接触。

为开展评估，本文利用双相机系统和GelSight传感器，为上述任务采集了真实世界的视觉-触觉数据集（图3b）。该数据集包含100条薯片抓取放置、105条白板擦拭和61条物体剥离的轨迹，所有演示均通过手动远程操作完成，包含同步的多视角RGB流、触觉变形图像和机器人状态信息。

4.3 定量结果（Q1）

每项任务开展20次试验，包括薯片抓取放置、刚性黑板擦平整白板擦拭、倾斜白板擦拭和黄瓜剥离，所有模型共完成80次真实世界试验，推理频率为1Hz。表1报告了各模型在富接触操作任务中的性能对比，总体而言，VTAM的性能显著优于基线模型，在薯片抓取放置、黄瓜剥离和白板擦拭任务中的成功率分别达到90%、85%和95%。

在薯片抓取放置任务中，VTAM的成功率达到90%，证明其在易碎物体操作中具备强稳健性——这类任务需要准确的抓取验证和力控制；与之相反，基线模型往往无法检测到抓取失败，直接执行放置操作。

在黄瓜剥离任务中，VTAM的成功率达到85%，而所有基线模型均无法完成任务，这证实了在与可变形物体交互时，触觉反馈对于保持稳定接触和调节剪切力至关重要。

在白板擦拭任务中，VTAM在平整和倾斜表面上的成功率均达到95%，而基线模型要么施加不稳定的接触力，要么无法保持一致的表面跟随。这些结果表明，视觉-触觉世界动作建模对于富接触操作中稳健的力调节至关重要。

4.4 定性示例与失效模式分析

图4展示了三项任务的定性对比结果，本文通过分析不同方法的行为，探究VTAM如何解决富接触任务中的挑战（更多示例见附录）。

薯片抓取放置

纯视觉基线模型Genie Envisioner的主要失效原因是无法验证抓取是否成功：机器人常在薯片上方闭合夹爪，即使抓取失败，仍会继续执行向盘子放置的操作。带触觉输入和不带触觉输入的π变体表现出相似的行为，这表明未有效融合触觉信号的方法无法完成具备力感知的抓取操作。

与之相反，VTAM表现出触觉感知的行为特征：仅当触觉变形确认接触成功后，机器人才会抬起薯片，并保持稳定的夹爪宽度，防止搬运过程中薯片掉落；若抓取失败，策略能在抬起过程中检测到触觉信号的缺失，并立即返回薯片位置重新尝试抓取，而非继续向盘子移动并松开夹爪。

黄瓜剥离

Genie Envisioner基线模型和两种π变体表现出相似的运动模式：从黄瓜左侧开始，工具先向中心线移动，随后沿表面滑动并远离中心线。该轨迹符合视觉驱动的策略特征——模型试图跟随物体的曲率，而非调节接触力，导致工具频繁与黄瓜表面脱离接触。

与之相反，本文提出的VTAM策略能建立稳定的接触，并在沿表面移动的过程中保持合适的力；机器人可在同一位置执行重复的剥离动作，即使黄瓜的厚度发生变化，仍能准确感知接触状态。

白板擦拭

在平整和倾斜的白板上，两种π变体均施加过大的接触力，有时甚至会将支撑倾斜白板的书本推离原位。该行为的原因可能是训练数据同时包含平整和倾斜表面，模型仅通过视觉观测难以推断出正确的末端执行器高度；因此，策略无法可靠判断夹爪应向下移动以贴合更低的表面，还是保持较高位置以适应倾斜平面，进而通过施加过大的力来补偿，以维持接触。

对于Genie Envisioner基线模型，尽管其在平整表面上偶尔能完成轻柔的擦拭动作，但在倾斜板上的接触会变得不稳定，末端执行器的运动也会变得不规则。该策略倾向于遵循适用于平整表面的轨迹，导致末端执行器在倾斜板的较高区域过度挤压，而当表面高度变化时，无法保持稳定接触。

与之相反，VTAM在平整和倾斜表面上均能保持适中且稳定的接触力，实现持续的擦拭并有效去除污渍。这反映出VTAM能有效利用触觉信息，处理视觉上模糊的富接触任务。

4.5 预测可视化

本文在图5中对骨干视频模型的预测结果进行了可视化，对于每个视角和触觉预测，上排为真实帧，下排为模型预测帧。模型保留了视角间的时间一致性和视角内的动力学特征，仅在与操作无关的细节处存在轻微模糊，表明其为动作生成提供了可靠的视觉-触觉世界建模能力。

4.6 薯片抓取放置任务的消融实验（Q2 & Q3）

为评估VTAM的架构组件，本文在对接触敏感的薯片抓取放置任务中开展消融实验，推理频率限制为1Hz（表2）。完整的VTAM模型利用预测性世界建模，在低频传感更新之间预测交互状态，成功率达到90%；与之相反，所有消融变体均无法可靠抓取易碎的薯片。

纯视觉基线模型的成功率为0%，原因是在最终接近阶段，视觉深度估计受到严重遮挡，无法感知细微的接触转换；仅在动作头引入触觉信号（后期融合）的成功率也为0%（Q2），这表明若无本文的分层视觉-触觉世界建模，单纯的力注入是远远不够的；最后，移除虚拟力正则化后，模型性能降至10%（Q3），原因是出现了“视觉模态主导”现象，这证实了该辅助损失对于防止表征坍缩、确保触觉信号影响整个去噪过程至关重要。

5 结论

本文提出VTAM，一种面向富接触操作的视觉-触觉世界动作模型。VTAM训练预测性骨干网络，对多视角视频和高分辨率触觉信号的联合演化过程进行建模，因此策略可利用在视觉中难以观测或被遮挡的接触动力学。这种预测性设计无需接触事件的显式标签，即可学习时间一致性的接触特征，且避免了单纯依赖下游的反应式触觉融合。

为解决动作训练中常见的失效模式——模型默认依赖视觉线索，抑制触觉信息，本文增加了从变形中推导的虚拟力预测目标，让触觉监督贯穿整个控制通路。在需要精确力调节的真实机器人任务（包括薯片抓取放置和黄瓜剥离）中，VTAM相较于纯视觉和简单触觉融合基线模型，大幅提升了任务成功率和交互稳定性，这表明直接对接触动力学进行建模，对于实现可靠的物理交互至关重要。

最终，本文的框架为具身智能提供了一种可扩展的、物理锚定的方法，证明了预测性联合建模对于在复杂物理交互中实现可靠执行至关重要。

附录A 训练细节

VTAM世界模型

VTAM模型在4块NVIDIA A100 GPU（每块40GB显存）上采用两阶段训练，使用DeepSpeed ZeRO Stage 2，并采用bf16混合精度。

阶段1：纯视频预训练：视频预测骨干网络从预训练的Genie Envisioner（GE-base）检查点初始化，该模型为包含28层、32个注意力头、隐藏维度为2048的LTX-Video变换器；随后利用纯视频目标（train_mode=video_only）微调50000步。本文遵循预训练LTX-Video骨干网络的默认配置，设置，该选择确保了与预训练架构的兼容性，并能保持稳定的训练行为。优化器采用AdamW（，，权重衰减），经过1000步的热身阶段后，学习率保持为恒定，同时采用梯度裁剪（），每块GPU的批次大小为16；
阶段2：动作头训练：在冻结的视频骨干网络后附加一个Action Expert，该Action Expert实现为并行的变换器分支，包含28层，与视频骨干网络的深度一致。每层包含：（i）针对动作-状态表征的自注意力模块；（ii）关注对应层视频隐状态的交叉注意力模块；（iii）前馈网络。所有模块均通过基于扩散时间步的自适应层归一化（AdaLN）进行调制。该阶段利用动作全目标训练20000步，学习率降至（经过1000步热身后保持恒定），其余超参数与阶段1保持一致。训练基于Flow Matching实现，采用欧拉离散调度器，每个优化步的耗时约为3.4秒。

对于薯片抓取放置、黄瓜剥离和白板擦拭任务，视频输入被调整为192×256的分辨率，时间分块大小为9帧，Action Chunking大小为54；动作以绝对关节空间表示（即目标关节位置，而非增量值），并利用预计算的维度统计量进行归一化；为实现正则化，采用标题丢弃（）和首帧噪声注入（缩放系数0.1）策略。

优化细节

所有实验中，总损失的系数设置为。由于三个目标均采用相同的Flow Matching公式，在归一化的隐空间中对预测的速度场进行均方误差计算，因此各目标的量级保持在可比范围内。因此，等权重设置是一种稳定且简洁的选择，无需引入额外的超参数。

GE-Act基线模型

纯视觉GE-Act基线模型遵循与VTAM相同的两阶段训练pipeline：

阶段1中，LTX-Video变换器骨干网络从GE-base检查点初始化，利用纯视频目标微调50000步，优化器采用AdamW（，，权重衰减），1000步热身后续以的恒定学习率，梯度裁剪（），每块GPU批次大小为16；
阶段2中，附加随机初始化的Action Expert，利用动作全目标训练20000步，学习率为（1000步热身後恒定）。

其余所有设置均与VTAM训练一致，包括视频分辨率（192×256）、时间分块大小（9帧）、Action Chunking大小（54）、bf16精度、DeepSpeed ZeRO Stage 2，以及基于欧拉离散调度器的Flow Matching。

π策略

π策略从预训练的π基础检查点微调，训练在4块NVIDIA A100 GPU（每块40GB显存）上进行，采用全分片数据并行（FSDP）和bfloat16混合精度。优化器采用AdamW（，），峰值学习率为，采用余弦衰减调度，1000步热身后续以的学习率训练30000步；采用梯度裁剪（），全局批次大小为64，并使用指数移动平均（EMA），衰减系数为0.999。动作维度为32，动作视野为50；输入图像调整为224×224的分辨率；状态和动作利用预计算的数据集统计量，通过分位数归一化处理；所有任务专用模型均训练10000个优化步。

附录B 实验细节

评估协议

本文通过多次独立试验的真实世界成功率，对每个策略进行评估。所有任务中，机器人在随机初始条件下执行策略，并根据任务特定的标准判定是否成功。

薯片抓取放置

对策略开展20次连续试验，每次试验中，薯片被放置在随机的初始位置；机器人需要移动至薯片上方，无损伤地抓取薯片，并将其放置到目标盘子中。若机器人抓取失败、薯片碎裂或搬运过程中掉落，则判定试验失败。

白板擦拭

在两种白板倾斜角度下评估擦拭任务：0°（平整）和45°（倾斜）；每次试验开始时，随机绘制一处黑色污渍，机器人最多可执行5次擦拭动作；若污渍被完全清除，且未扰动白板或其支撑物，则判定任务成功；每种角度各开展20次试验。

黄瓜剥离

剥离任务中，机器人在固定的切割位置执行20次连续动作；随着黄瓜被剥离，其高度逐渐降低，要求机器人动态调整接触力。如图6所示，20次试验中有17次（85%的成功率）剥离出的瓜条长度超过10厘米，证明VTAM能够在几何形状变化的情况下保持稳定接触。

附录C 视频预测示例

本文对两项富接触操作任务（黄瓜剥离和白板擦拭）的视频预测结果进行定性可视化。为评估视觉保真度，对比了后置相机（图7、图10）和前置相机（图8、图11）的预测帧与真实帧；此外，通过预测触觉流（图9、图12），评估模型预测接触动力学的能力。触觉图中的黄色箭头为估计的接触力大小和方向的可视化结果，需注意的是，该箭头仅用于可视化，模型处理的是原始触觉表征，无显式的力输入。结果表明，VTAM能有效捕捉跨模态的视觉运动和细粒度接触动力学。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

具身智能 + AI 屏幕系统深度融合：数字人告别空壳，真正拥有 “肉身交互”

实测魔珐星云的这段时间，我一直在思考一个问题：为什么我们一定要把数字人做得这么“复杂”？直到我看到那个能感知我说话语气、会因为思考而微微侧头的智能体时，我找到了答案。我们需要的从来不是一张完美的 3D 皮囊，而是一个能与我们产生“连接”的灵魂。魔珐星云通过云端大脑、多模态感知和表达引擎的打通，实际上是为大模型交付了一具完美的“身体”。它降低了开发者的接入门槛，也打破了硬件算力的枷锁。如果你也厌倦了