从“看起来像”走向“能够被物理引擎使用”的生成式三维资产

论文:PhysX-Omni: Unified Simulation-Ready Physical 3D Generation for Rigid, Deformable, and Articulated Objects

来源:arXiv:2605.21572v1

三维生成正在从视觉资产生产,继续走向机器人、具身智能、仿真训练与数字内容创作中的物理交互场景。PhysX-Omni 这篇论文关注的核心问题是:生成的 3D 对象不仅要有可观察的外观,还要能进入物理仿真系统,具备与刚体、形变体和铰接体相匹配的结构、材质与动力学属性。论文标题中的 “Simulation-Ready Physical 3D Generation” 正是这一目标的集中表达:它希望输出的不是孤立网格,而是可以被物理引擎读取、配置并参与交互的对象描述。[1]

与传统只强调几何或纹理质量的 3D 生成任务相比,PhysX-Omni 将对象的物理类型作为统一问题处理。论文明确把刚体、形变体与铰接物体纳入同一框架,尝试缓解不同对象类别之间表征、数据组织与评估标准分散的问题。对于需要大规模构造仿真环境的研究者而言,这种统一化方向的价值在于:生成结果可以直接服务于交互、控制、抓取、装配、折叠、拉伸、打开、关闭等更贴近真实任务的流程。[1][2]

Figure 1:PhysX-Omni 总览图,展示 PhysXVerse、PhysX-Bench、PhysX-Omni 与下游仿真应用之间的关系
图 1:Figure 1:PhysX-Omni 总览图,展示 PhysXVerse、PhysX-Bench、PhysX-Omni 与下游仿真应用之间的关系。图片由论文 PDF 页面自动渲染提取。
Figure 2:PhysX-Omni 的整体生成范式与多轮 VLM 生成流程
图 2:Figure 2:PhysX-Omni 的整体生成范式与多轮 VLM 生成流程。图片由论文 PDF 页面自动渲染提取。
Figure 3:PhysX-Omni 的几何表示与 template-based 2D RLE 架构
图 3:Figure 3:PhysX-Omni 的几何表示与 template-based 2D RLE 架构。图片由论文 PDF 页面自动渲染提取。

Figure 1 总览:数据、基准、模型与应用的闭环

论文 Figure 1 将 PhysX-Omni 的整体定位集中放在一张图中:上方展示 PhysXNet、PhysX-Mobility 与 PhysXVerse 等数据来源和资产覆盖;中部连接 PhysX-Bench、PhysX-Omni 与 simulation-ready physical 3D assets;右侧明确呈现刚体、形变体和铰接体三类生成对象;下方则展示机器人策略学习与仿真就绪场景生成等下游应用。论文图注指出,借助 PhysXVerse 的高多样性,PhysX-Omni 能生成覆盖 rigid、deformable、articulated objects 的详细通用 3D 资产,并产出适合下游应用的 simulation-ready physical assets。

这张总览图实际上给出了全文的技术主线:PhysXVerse 解决数据多样性问题,PhysX-Bench 解决物理属性评估问题,PhysX-Omni 负责把图像输入转化为具备几何、材料、运动学、尺度和语义描述的物理 3D 资产,最终服务机器人操作、场景生成和仿真训练。相比只展示单个模型结构的图,Figure 1 更像是论文的路线图,说明作者希望把数据、生成、评估和应用放在同一闭环中讨论。

核心方法流程:从整体理解到局部几何生成

论文 Figure 2 给出了 PhysX-Omni 的核心生成范式:系统以完整或部分遮挡的单张图像作为输入,先由视觉语言模型进行整体理解,输出对象名称、类别、尺寸、部件层级、材料、运动关系等高层结构化信息;随后进入多轮生成过程,针对每个部件进一步生成详细的 part-level geometry,最终把整体信息、局部几何和物理属性整合为 simulation-ready physical 3D asset。论文图注明确说明,PhysX-Omni 先推断 high-level overall information,再通过 multi-turn generation 生成 detailed part-level geometry,并利用全局与局部表征的一致性直接集成到仿真就绪物理 3D 资产中。[1][3]

这张流程图里最关键的设计,是把“整体语义理解”和“局部几何生成”拆成前后衔接的两个阶段。第一阶段负责建立对象级蓝图,包括绝对尺度、部件列表、分组关系、材料属性和潜在运动学信息;第二阶段围绕具体部件展开,以文本提示和内容记忆作为上下文,让模型逐步补全细粒度几何。这样的 coarse-to-fine、global-to-local 过程,使系统可以同时覆盖刚体、形变体和铰接体三类对象,并把输出组织为 XML、URDF、网格、辐射场或 3DGS 等可进入仿真流程的资产组件。[1]

论文 Figure 3 进一步解释了为什么 PhysX-Omni 要设计新的几何表示。图中左侧比较了 PhysX-Anything 与 PhysX-Omni 在 3D 建模中的几何表现,右侧给出 PhysX-Omni 的表示细节:系统先对 part-level voxel grid 沿 z 轴切片,把三维体素变为一系列 2D mask;随后对每个 2D mask 应用 run-length encoding,把二值图像转换为紧凑文本;为了进一步提升压缩效率,论文引入 template layers,使其他层可以表达为相对于模板层的变化。论文图注指出,这种表示有助于直接建模高分辨率 3D 结构,并提升细粒度结构与运动学准确性。[1][3]

问题背景:生成式 3D 为什么需要“物理就绪”

近年来,文本到 3D、图像到 3D、单视图重建、多视图重建等方向持续提升了三维资产的视觉质量,但论文所讨论的物理仿真场景要求资产具备更多信息:刚体需要合理的碰撞形状、质量与惯性;形变体需要可用于形变模拟的结构与材料参数;铰接体则需要关节、运动轴、运动范围以及部件之间的层级关系。若这些信息缺失,外观看似完整的 3D 模型仍然难以在仿真环境中承担可交互对象的角色。[1]

PhysX-Omni 的切入点并不是单独追求某一种物体类型,而是把不同物理对象都纳入“可仿真资产生成”的范式中。论文强调的统一性体现在任务定义、对象表示、生成流程与评估设置等多个层面:同一个系统需要理解对象外观,也需要输出物理属性;需要面对椅子、柜门、抽屉等可能包含关节的对象,也需要面对布料、软体或其他可形变物体,还需要保持刚体对象在碰撞和运动中的稳定表达。[1][2]

这种设定让 3D 生成从静态内容生产向动态交互内容生产推进。文章后文将围绕论文中给出的统一框架、数据构造、模型设计、实验呈现和潜在应用展开,尽量用技术文章的方式把论文脉络拆开,同时所有结论均基于论文文本、图表与 PDF 页面信息。[1]

核心目标:统一生成三类物理对象

论文标题直接点出了三个对象类型:Rigid、Deformable 和 Articulated Objects,分别对应刚体、形变体和铰接体。刚体对象在仿真中保持形状稳定,重点是几何、碰撞、质量和刚体动力学属性;形变体会随外力发生形状变化,重点是可模拟结构和材料;铰接体由多个部件以及关节连接组成,重点是运动学结构、自由度和关节约束。[1]

把三类对象放入统一生成框架的难点在于,它们需要的输出字段并不完全一致。刚体资产关注碰撞几何与物理参数;形变体还需要支持变形的网格或粒子/有限元相关表征;铰接体需要部件分解和关节定义。PhysX-Omni 的论文将这些差异视作统一物理资产描述的一部分,而不是三个互不相关的任务。[1][2]

这种任务设定对下游系统非常直接。机器人仿真训练希望环境中有可操作、可碰撞、可变形、可开合的对象;数字孪生与合成数据生成需要大量具备物理属性的场景资产;交互式内容创作也需要模型在游戏引擎或仿真引擎中表现出合理的物理行为。论文所提出的统一化方向,正是围绕这些需求组织技术方案。[1]

方法概览:从输入条件到物理资产

从论文页面信息可以看到,PhysX-Omni 的方法围绕“生成仿真就绪物理 3D 对象”展开。系统需要把输入条件转化为包含几何、结构与物理参数的资产描述;这些描述再进入仿真环境进行验证或使用。相比只输出可渲染网格的流程,这里需要把生成结果与物理引擎约定的对象格式对齐。[1][3]

论文中的框架图展示了系统如何在统一流程下处理不同对象类型。对于刚体,资产需要在碰撞和动态运动中保持稳定;对于形变体,资产需要支持形变求解;对于铰接体,资产需要表达部件连接、关节轴和运动范围。统一流程的意义在于减少针对单一类别定制的工程分叉,使不同物体可以在同一套数据和模型视角下被生成、评估和部署。[1][3]

在技术文章视角下,可以把 PhysX-Omni 理解为一个跨越三层的系统:第一层是视觉与几何层,保证对象外观和三维形状;第二层是物理结构层,保证对象能被物理引擎解析;第三层是交互行为层,保证对象在仿真中具有符合类别的运动或变形表现。论文的贡献集中在这三层之间的衔接。[1]

PhysXVerse 类别词云:展示数据集中对象类别覆盖情况
图 4:PhysXVerse 类别词云:展示数据集中对象类别覆盖情况。

数据与标注:物理信息是生成任务的关键燃料

对于仿真就绪生成而言,数据不只是一批三维模型。论文所处理的数据需要包含对象类别、几何、部件、关节、材料或动力学相关信息,并能映射到刚体、形变体和铰接体的物理描述。也就是说,训练数据必须让模型看到“外观”和“可仿真属性”之间的对应关系。[1][2]

在刚体对象中,数据需要支持碰撞体和动力学属性的估计;在铰接对象中,部件分割与关节信息会影响可操作性;在形变对象中,材料或可变形结构会影响仿真响应。论文将这些信息放入统一数据管线,使模型可以学习不同物理类型的共同表达和专属属性。[1]

这也是 PhysX-Omni 与纯视觉 3D 数据集之间的关键差异。纯视觉数据可以帮助模型学习形状和纹理,但难以单独支撑仿真环境需要的物理字段。论文的资料显示,作者围绕 simulation-ready 的目标组织数据和评估,使生成结果可以在物理系统中被进一步检验。[1][3]

刚体生成:从形状到碰撞与动力学

刚体对象通常是仿真系统中最基础的资产类型。它们在运动过程中不发生内部形变,因此重点不在柔性求解,而在于几何形状、碰撞代理、质量、惯性和稳定接触。PhysX-Omni 把刚体作为统一框架中的一个分支,使生成结果能够对接物理仿真中的刚体动力学设定。[1]

对于机器人抓取或场景交互任务,刚体对象的碰撞几何尤其关键。若碰撞体过于粗糙,手爪接触、堆叠、推拉和放置都会受到影响;若碰撞体过于复杂,仿真成本又会增加。论文所讨论的仿真就绪资产,正是在视觉形状和物理可用性之间寻找可操作的表示方式。[1]

在统一生成场景中,刚体并不是孤立存在的基线任务,而是与形变体、铰接体共享输入、生成和评估框架的一部分。这让系统可以服务于更完整的仿真世界:桌上的杯子、抽屉柜的主体、机械部件、工具、容器等,都可以作为刚体元素与其他物体共同构成交互环境。[1][2]

形变体生成:让对象在外力下拥有可模拟响应

形变体是 PhysX-Omni 论文中特别值得关注的对象类型。与刚体不同,形变对象在受力时会发生形状变化,其仿真行为取决于几何结构、材料属性和求解方式。若生成模型只输出表面网格,就很难直接得到可信的变形行为;因此,形变体生成需要更深入地连接三维表示和物理参数。[1]

论文将 Deformable Objects 放入统一标题中,说明作者希望系统不仅能生成可看的柔性对象,还能生成可被仿真器处理的物理对象。这样的对象可以覆盖布料、软性物体或其他具备形变行为的资产类别。对于具身智能训练而言,形变体让场景交互更接近真实任务,例如折叠、按压、拉伸和拖拽等操作。[1]

从技术难度看,形变体比刚体更依赖材料与拓扑信息。不同材料会产生不同变形响应,网格质量也会影响数值模拟稳定性。PhysX-Omni 的统一框架把这些因素纳入生成目标,使可视形状和可仿真结构不再分离。[1][2]

铰接体生成:结构、关节与可操作性的统一

铰接物体是日常环境中高度常见、也高度重要的一类对象。柜门、抽屉、剪刀、笔记本电脑、机械臂部件等都需要通过部件和关节来描述运动。论文把 Articulated Objects 与刚体、形变体并列,说明其关注点不仅是外观重建,还包括对象内部的运动学结构。[1]

对于铰接体而言,部件划分、关节类型、关节轴、关节范围和层级关系会直接决定对象能否被正确交互。一个外观看似完整的柜子,如果没有柜门与主体之间的转动关节,就无法在仿真中执行开门操作;一个抽屉如果缺少平移关节,也无法完成拉出动作。PhysX-Omni 的目标正是让生成结果包含这些可操作信息。[1]

统一生成铰接体还带来数据与表示挑战。系统需要同时理解整体形状和局部部件,既要保持视觉一致性,又要保证关节定义与几何结构相匹配。论文中对铰接对象的纳入,使 PhysX-Omni 面向的是更完整的交互资产生成,而不是单纯静态模型生成。[1][2]

实验呈现:从可视结果到物理可用性

论文实验部分围绕生成结果的质量和物理可用性展开。对于这类任务,可视化结果通常需要同时展示对象外观、结构拆分、物理属性配置以及仿真行为。PDF 中的实验页面给出了多种对象结果,用于说明统一框架可以覆盖不同物理类型的生成场景。[1][3]

与二维图像生成或静态三维重建不同,仿真就绪 3D 生成的评估不应只停留在“像不像”。更重要的问题是:模型能否被加载到仿真环境中,碰撞与运动是否稳定,关节能否按预期运动,形变体是否具备可求解结构。这些维度共同构成 PhysX-Omni 论文中 simulation-ready 的技术语义。[1]

从论文插图可以看出,作者通过页面展示和实验对比呈现模型能力。本文插入的页面截图保留了论文原始图表的上下文,便于读者在阅读解读时回看图中流程、结果和指标说明。[3]

论文评估雷达图:比较几何、材料、运动、描述等维度
图 4:论文评估雷达图:比较几何、材料、运动、描述等维度。[3]

为什么统一框架重要:减少从模型到仿真的断点

在实际工作流中,三维模型从生成到仿真常常需要多步转换:网格清理、碰撞体生成、物理参数配置、关节标注、材质设置、格式导入和仿真调试。任何一步缺失,都会让生成资产停留在展示阶段。PhysX-Omni 论文将这些问题前置到生成目标中,使模型输出更接近仿真系统的输入要求。[1]

统一框架的另一层意义,是让不同物理类型共享一套工程入口。对于大规模场景构建而言,环境中不会只有刚体,也不会只有铰接体或形变体;真实交互环境往往是多类对象混合存在。统一处理三类对象,有助于构建更丰富的仿真资产库。[1][2]

这种方向也使评估更具整体性。系统不只需要回答某个单一类别上的指标表现,还需要展示跨类别生成的稳定性和可迁移性。论文中对刚体、形变体和铰接体的并列讨论,为后续仿真就绪 3D 生成研究提供了清晰问题定义。[1]

与机器人和具身智能的关系

机器人学习依赖大量交互数据,而真实世界采集成本高、可控性有限。仿真环境可以为抓取、导航、操作、装配等任务提供可重复、可扩展的数据来源。PhysX-Omni 关注的仿真就绪资产,正好面向这类需求:让生成对象能够被放进仿真器中,并与智能体发生物理交互。[1]

对于具身智能任务,物体是否可操作往往比外观细节更关键。杯子需要能被拿起,抽屉需要能被拉开,布料需要能被折叠,工具需要能与其他物体接触。论文提出的统一物理生成目标,为这些任务提供了资产层面的基础。[1]

当然,论文资料本身主要讨论模型和实验,不把下游系统效果无限外推。本文只基于论文目标说明其与机器人仿真、具身智能训练之间的任务关联:两者都需要可交互、可配置、可扩展的物理对象资产。[1][2]

技术拆解:PhysX-Omni 带来的三点启发

第一,3D 生成的输出格式正在变得更结构化。过去很多生成系统把三维网格或辐射场作为终点,而 PhysX-Omni 所代表的问题设定把物理属性也纳入输出。这意味着未来的 3D 生成模型可能越来越像“资产生成器”,不仅生成表面,还生成可被引擎使用的对象包。[1]

第二,物体类别知识与物理知识需要更紧密结合。刚体、形变体和铰接体的物理属性并非独立于语义类别存在;柜门、抽屉、布料、工具等类别天然暗示不同结构和运动方式。论文把多类对象统一建模,体现出语义、几何和物理之间的耦合关系。[1]

第三,评估标准会从视觉相似度走向交互可用性。对于仿真就绪对象,能否稳定加载、能否正确碰撞、能否按照关节约束运动、能否产生合理形变,都是与任务价值直接相关的指标。PhysX-Omni 的论文主题为这一评估方向提供了明确案例。[1]

论文图片素材预览:由 PDF 内嵌图像自动提取后生成的 Figure 拼图
图 7:论文图片素材预览:由 PDF 内嵌图像自动提取后生成的 Figure 拼图。[3]

应用展望:从资产生成到可交互世界构建

基于论文目标,PhysX-Omni 所服务的直接方向是可交互三维资产生成。它可以为仿真环境、机器人训练、数字内容创作和合成数据构建提供对象级基础。这里的关键不是简单增加资产数量,而是让资产具备可被物理系统使用的结构和属性。[1]

在大规模虚拟环境中,资产的多样性和可操作性同样重要。仅有静态模型的场景可以用于视觉识别或渲染展示,但对于操作学习、任务规划和交互式应用,系统需要知道哪些对象可以移动、哪些对象可以变形、哪些对象包含关节。PhysX-Omni 将这三类对象纳入统一生成范式,为这种场景构建提供了技术参考。[1]

需要强调的是,本文不对论文之外的商业化进展或产品落地做延展判断。所有描述都围绕论文提出的问题、方法和展示材料展开,应用部分只说明这些技术目标与相关场景之间的直接关系。[1][2]

小结:仿真就绪,是 3D 生成的下一层语义

PhysX-Omni 的核心价值,在于把 3D 生成的目标从“生成一个可看的对象”推进到“生成一个可进入物理世界的对象”。刚体、形变体和铰接体分别代表了物理交互中的三类重要资产,论文尝试用统一框架同时覆盖它们,使生成模型能够输出更适合仿真使用的三维对象。[1]

从技术路线看,论文强调几何、结构、物理属性和仿真可用性的结合;从任务意义看,它回应了机器人、具身智能和交互式三维内容对物理资产的需求;从研究趋势看,它提示 3D 生成未来需要更多关注对象在动态环境中的行为,而不仅是静态外观。[1]

如果把视觉生成看作第一步,那么物理就绪可以视作三维生成走向真实交互任务的关键一步。PhysX-Omni 这篇论文提供了一个清晰的统一问题定义,也给后续研究留下了继续完善数据、表示、生成质量和仿真评估的空间。[1][2]

进一步展开:从论文系统看仿真资产生成的工程闭环

如果把一件三维资产放进物理引擎,系统首先面对的并不是渲染,而是对象能否以规范结构被读取。PhysX-Omni 论文围绕 simulation-ready physical 3D assets 展开,意味着生成结果需要包含足够明确的物理语义:对象属于刚体、形变体还是铰接体;几何如何参与碰撞;部件之间是否存在运动约束;材料和形变相关参数如何服务于动力学求解。这样的目标把生成式 3D 的终点从“图形文件”推进到“可运行资产”。[1]

在刚体场景里,工程闭环相对清晰:生成形状之后,需要形成碰撞代理、质量属性和与世界交互的刚体配置。论文把刚体纳入统一框架,说明其并非只把刚体作为常规三维重建结果,而是把它放在可仿真对象集合中,与其他物理类型共享统一任务定义。对于真实场景构建而言,这一点很重要,因为多数环境资产都需要至少具备稳定碰撞和可移动属性。[1]

在形变体场景里,闭环更依赖对象内部结构。柔性对象的可用性不只取决于外表面是否逼真,还取决于仿真器能否根据材料和结构计算出合理形变。论文标题把 Deformable Objects 明确列入统一生成目标,显示系统关注的是可以在物理仿真中出现动态响应的资产,而不是只用于展示的软体外观。本文插入的形变对象图像来自论文 PDF,用于辅助读者观察论文展示的生成结果。[1][3]

铰接体则把三维生成带入运动学结构层面。一个对象是否可操作,常常取决于关节是否存在、关节方向是否正确、运动范围是否与几何部件匹配。PhysX-Omni 将 Articulated Objects 纳入统一范式,使生成系统必须关注部件、连接和自由度。对于机器人任务,这类结构信息直接关系到拉门、开盖、推拉抽屉、操作工具等行为能否在仿真环境中被表达。[1]

论文资料中的 PhysXVerse 相关图像和类别词云,展示了数据侧的多样性。多样数据对于统一框架非常关键,因为模型需要在不同类别、不同物理类型和不同结构复杂度之间建立映射关系。若数据只覆盖单一对象类型,系统就很难学习三类物理资产之间的共性和差异;而论文把刚体、形变体和铰接体并列组织,正是为了支持更广泛的仿真就绪生成任务。[1][3]

从研究方法看,PhysX-Omni 的意义还在于把“物理属性”变成生成任务的显式组成部分。传统流程中,物理属性常由人工后处理补充,例如手动标注关节、调整碰撞体、配置质量和材料。论文提出的统一生成思路则把这些要素前移,让模型直接面向仿真资产需求。这样可以缩短从生成结果到可交互环境之间的距离,也使评估更容易围绕物理可用性展开。[1]

具身智能&世界模型blog: https://jinxindeep.github.io/blog/blog2026.html

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐