IS-FUSION: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

此外，与最近的一些多模态检测工作(如FocalFormer3D[9]、SparseFusion[66]和CMT[69])相比，IS-FUSION表现出了优越的性能，在mAP方面分别比它们高出1.4%、1.0%和1.0%。这突出了实例表示的关键作用。在表3 (e)中，我们的完整模型同时使用HSF和IGF，获得了72.8% mAP和74.0% NDS的最佳性能，显示了实例-场景协同的效果。然而，BEV

weixin_45932474

671人浏览 · 2025-06-08 20:36:49

weixin_45932474 · 2025-06-08 20:36:49 发布

IS-FUSION: Instance-Scene Collaborative Fusion for Multimodal 3D Object Detection

多模态3D目标检测的实例-场景协同融合

代码： https://github.com/yinjunbo/IS-Fusion

摘要

在自动驾驶场景中，鸟瞰(BEV)表示已成为描述3D空间的主要解决方案。然而，BEV表示中的对象通常具有较小的尺寸，并且相关的点云上下文本质上是稀疏的，这给可靠的3D感知带来了巨大的挑战。在本文中，我们提出了一种创新的多模态融合框架IS-FUSION，它可以联合捕获实例级和场景级上下文信息。IS-FUSION与现有的只关注BEV场景级融合的方法本质上不同，它明确地结合了实例级多模态信息，从而促进了以实例为中心的任务，如3D物体检测。它包括一个分层场景融合(HSF)模块和一个实例引导融合(IGF)模块。 HSF应用点到网格和网格到区域转换来捕获不同粒度的多模态场景上下文。IGF挖掘候选实例，探索它们之间的关系，并为每个实例聚合本地多模态上下文。然后，这些实例作为指导来增强场景特征并产生实例感知的BEV表示。在具有挑战性的nuScenes基准测试中，IS-FUSION优于迄今为止所有已发表的多模式作品。

图1 IS-FUSION的动机。(a)在多模态编码期间，以前的方法通常侧重于整个场景级别的融合。(b)相比之下，IS-FUSION更加强调实例级的融合，并探索实例到场景的协作，以增强整体表现。

BEV表示将复杂的3D空间简化为2D平面，使其更容易理解场景。然而，从整个BEV场景级别执行融合忽略了前景实例和背景区域之间的固有差异，这可能会影响性能。例如，与在自然图像中观察到的对象相比，在BEV中表示的对象实例通常表现出更小的尺寸。此外，前景实例占用的BEV网格单元数明显低于背景实例占用的BEV网格单元数，导致两者之间存在严重的不平衡。因此，上述方法很难捕获对象实例周围的局部上下文，或者主要依赖于解码阶段的其他网络来迭代地改进检测[1,72]。在这项工作中，我们提出了一个新的多模态检测框架，IS-FUSION，以解决上述挑战。如图1所示，IS-FUSION同时探索了实例级和场景级融合，并鼓励实例和场景特征之间的交互，以加强整体表征。它由两个关键组件组成:分层场景融合(HSF)模块和实例引导融合(IGF)模块。HSF的目标是利用点到网格和网格到区域的变换来捕捉不同粒度的场景特征。这还支持生成对IGF至关重要的高质量实例级特性。在IGF中，前景候选实例由场景特征的热图分数确定;同时，采用实例间自关注来捕获实例间的关系。

然后，这些实例通过可变形的注意力从多模态上下文中聚合必要的语义信息。此外，我们还结合了一个实例到场景转换注意，以强制本地实例特征与全局场景特征协作。这产生了一个增强的BEV表示，更适合于实例感知任务，如3D对象检测。

总之，IS-FUSION为专注于场景级融合的现有多模态3D检测方法提供了新的见解。通过结合HSF和IGF，它明确地促进了场景级和实例级特征之间的协作，从而确保了全面的表示并产生了改进的检测结果。在竞争的nuScenes[2]数据集上进行的大量实验表明，IS-FUSION在所有已发表的3D目标检测工作中达到了最佳性能。

图2。IS-FUSION框架概述。包括点云和多视图图像的多模态输入首先由模态特定的编码器处理以获得初始特征。然后，配备点到网格和网格到区域变压器的HSF模块利用这些特征生成具有分层上下文的场景级特征。此外，IGF模块识别前k个显著实例并聚合每个实例的多模态上下文。最后，实例到场景转换器使用这些实例将有价值的信息传播到场景，从而产生具有改进实例感知的最终BEV表示。

1.总体框架

如图2所示，每个场景都由一个LiDAR点云P以及同步的RGB图像I =

，由N台摄像机捕获，这些摄像机与激光雷达传感器进行了很好的校准。我们的目标是设计一个检测模型，能够在给定多模态输入(P, I)的情况下产生精确的3D边界框Y。形式上，本文提出的is - fusion模型定义为:

其中fpoint(·)和fig(·)作为输入编码模块，fenc(·)表示多模态编码器(由HSF和IGF组成)，fdec(·)为解码器。

Multimodal Input Encoding. （多模态输入编码）

为了处理来自异构模态的输入，我们首先利用模态特定的编码器来获得它们各自的初始表示，即BP = fpoint(P)和FI = fig (I)。接下来[42,72]，我们用VoxelNet实例化fpoint(·)[85]，用SwinTransformer实例化fpoint(·)[41]。这产生了点云BEV特征BP和图像透视视图(PV)特征FI。其中，BP∈RW×H×C是根据[85]对三维体素特征的高度维度进行压缩得到的，其中W和H为BEV在x轴和y轴上的网格单元数，C为通道维度。

Multimodal Encoder. （多模态编码）

多模态编码器feng(·)在BP和FI之间进行跨模态特征融合，得到融合的BEV特征

。与之前只关注整个场景级融合的多模态编码器不同[42,72]，我们开发了实例级和场景级表示。为此，我们使用HSF模块fHSF(·)和IGF模块fIGF(·)两个模块来设计fenc(·):

。其中fHSF(·)生成多粒度场景特征，fIGF(·)进一步集成前景实例的关键信息。

Multimodal Decoder.（多模态编码器）

多模态解码器的目标是基于BEV表示(

)产生最终的3D检测Y，由

给出。在我们的工作中，fdec(·)是基于变压器架构[75]，其中包含几个注意层和一个前馈网络作为检测头。在训练过程中，使用匈牙利算法[25]来匹配预测框和groundtruth边界框。同时，采用Focal loss[38]进行分类，采用L1 loss进行三维边界盒回归。

2.分层场景融合

考虑到点云BEV特征BP和图像PV特征FI，我们提出了分层场景融合(Hierarchical Scene Fusion, HSF)模块fHSF(·)对BP和FI进行融合，得到融合后的场景表示

。具体而言，fHSF(·)由点到网变压器fP2G(·)和网到区域变压器fG2R(·)组成，由下式给出:

在这里，fP2G(·)考虑了每个BEV网格中的点/像素间相关性，而fG2R(·)进一步挖掘了网格间和区域间的多模态场景上下文。直觉是，不同的特征粒度在不同的层次上捕捉场景上下文。例如，在点级别，每个元素提供关于对象的特定组件的详细信息。相比之下，网格/区域级别的特征能够捕获更广泛的场景结构和物体分布。HSF充分利用了各种表示粒度，如图3所示。

图3。HSF模块示意图。首先利用点到网格变压器将点级特征聚合为网格级特征，然后通过网格到区域变压器探索网格间和区域间的特征交互。

Point-to-Grid Transformer. （点到网格变压器）

令

为将点云场景P离散为如下柱得到的BEV网格单元[26]。每个单元网格

是一个柱包含L个点

，点到网格转换器为每个点分配相应的图像特征，并将它们聚合为BEV网格特征。

具体地说，我们投影柱内的L个点

到图像特征图FI上，检索其像素级特征:

式中，fproj(·)表示点云到多视图图像的投影过程，产生图像平面上的二维坐标

， finterp(·)是非整数坐标下计算特征的双线性插值函数。通过这种方法，我们得到了逐点特征

。

为了处理激光雷达和相机之间潜在的校准噪声，我们的点到网格变压器比较了柱子内的所有点。这使得每个点能够考虑更大的接受场，并隐式地校正噪声点。之后，我们将逐点信息与最大池化操作fmax(·)合并:

其中，fMSA(·)为多头自关注[57]，grid为将分配给图像BEV特征的网格智能特征。然后，我们将BI与点云BEV特征

结合，计算出多模态BEV特征BF:

其中[.,.]表示拼接， fconv(·)由3×3卷积层实现。

Grid-to-Region Transformer. （网格到区域变压器）

除了对点间依赖关系进行建模的点到网格转换器之外，我们还通过网格到区域转换器进一步探索了网格间和区域间的关系，以捕获全局场景上下文。可以表示为

，其中

为增强的BEV特征。

直观地，fG2R(·)可以通过对所有网格特征

应用全局自关注来实现。然而，由于大量的网格单元，这在计算上可能会很昂贵。因此，我们选择将这些网格特征分组到不同的区域[12]。每个区域是一个子集，由M×M网格单元

描述。接下来，我们将每个区域视为一个整体，并通过网格间关注在区域内的网格之间交换信息。更具体地说，这是通过在一组网格特征

上操作的多头注意力fMSA(·)来实现的:

，其中

为关注网格细胞。

然后，我们用区域间注意力捕捉不同区域之间的相互作用。为此，我们将每个区域移动(M/2, M/2)个网格单元，并对包含M×M网格特征的每个移动区域进行自关注(必要时使用填充)。公式为

. 其中，fS-MSA(·)表示[41]中偏移窗口的自注意力，

表示偏移后的新栅格指标。这允许每个网格在转移之前与来自不同区域的网格进行交互，( 通过将每个区域移动(M/2, M/2)个网格单元，可以将每个区域与其他区域进行重叠。这样做的目的是为了在转移之前，让每个网格与来自不同区域的网格进行交互。), 从而捕获远程依赖关系。然后，我们重新排列所有关注的网格特征

，得到富集的BEV特征图

。

通过利用层次表示，HSF可以将信息从单个点传播到不同的BEV区域。这有利于局部和全局多模式场景上下文的整合。

3. Instance-Guided Fusion（Instance-Guided 融合）

图4。IGF模块示意图。首先根据BVE热图初始化候选实例。然后，我们对这些实例进行推理，同时从图像特征中聚合丰富的语义上下文。最后，这些实例通过实例到场景转换器注意机制将上下文信息传递给BEV场景特征。

IGF的基本思想是挖掘每个对象实例周围的多模态上下文(例如，车辆旁边的车道)，同时将必要的实例级信息集成到场景特征中。例如，如果一个物体在场景特征中被错误地归类为背景的一部分，我们可以通过将其与所有相关实例进行比较来纠正这一错误。形式上，给定HSF产生的场景特征B'F，式(2)中的fIGF(·)表示为:

其中fsel(·)选择top-K显著实例特征

聚合了每个实例的多模态上下文，fI2S(·)合并了增强的实例特征

到BEV场景特征B'F。我们在图4中给出了IGF的整体流水线，并对fsel(·)、fagg(·)和fI2S(·)进行了如下解释。

Instance Candidates Selection. (实例候选人选择）

为了有效地生成实例特征，我们实现了fsel(·)跟随center point[79]，它在场景特征B'F上应用关键点检测头来预测实例的中心度。在训练过程中，为每个实例定义一个二维高斯分布作为目标，峰值位置由地面真值三维中心的BEV投影确定。利用焦损来优化该预测头。在推理过程中，我们保留具有最高中心度分数的top-K对象来表示相应的实例。同时，一个额外的线性层被用来嵌入每个实例，产生一组实例特征

。

Instance Context Aggregation.（实例上下文融合）

我们将fagg(·)设计为计算实例到实例和实例到上下文的交互。在典型的驾驶场景中，经常观察到行人往往成群或成群出现，车辆通常在路边共存。因此，研究实例之间的相关性至关重要。为此，我们在选定的实例

上使用了自关注fMSA(·)：

此外，我们的目标是挖掘每个实例的语义上下文。这是通过比较每个实例q'ins和多模态特征B'F中的相应部分来实现的。

具体来说，只考虑q'ins附近的一小部分相邻位置(例如D网格单元)以节省计算成本，遵循[87]中的可变形注意:

其中fconv(·)是一个3×3卷积操作，用于对齐

之间的特征空间，并且

为丰富的实例特征。

Instance-to-Scene Transformer.（Instance-to-Scene Transformer变压器）

最后，fI2S(·)使每个BEV网格特征能够从潜在的相关实例中获取有价值的信息。为此，我们构建了具有互感器交叉注意机制的fI2S(·)。具体来说，将

扁平化为一组网格特征

，我们使用每个网格g'grid作为查询来关注实例级特征

其中fMCA(·)表示多头交叉注意，而

是一个注意网格单元。在所有的网格单元应用fMCA(·)后，我们重新排列得到的网格特征

返回到BEV特征

，该特征将在随后的解码阶段使用，以产生最终的3D检测。

实验

实验设置

数据集：Nuscenes

网络体系结构

实验遵循开源框架MMDetection3D[11]。具体来说，点云沿X、Y轴覆盖[-54m, 54m]，沿Z轴覆盖[-5m, 3m]，体素大小为(0.075m, 0.075m, 0.2m)。在点对电网变压器中，我们将柱尺寸设置为(0.6m, 0.6m, 8.0m)。多视图图像的输入分辨率设置为384×1056。BEV特征图的大小为180×180。在HSF中，我们定义点数L为20，区域大小M为6。在IGF中，实例候选数K设置为200。多模态特征上的采样位置数D设置为16。

对于模型集成，使用多个模型，体素大小从(0.05m, 0.05m, 0.2m)到(0.125m, 0.125m, 0.2m)，间隔为0.025m。为了增加测试时间，我们在输入点云上应用双翻转和旋转(即{0◦，±22.5◦，±180◦})。

训练

图像编码器按照当前的方法[1,42,72]在nuImage数据集[2]上进行预训练。

完整模型使用AdamW优化器端到端训练10个epoch[43]。同时，采用一次循环学习策略[55]，最大学习率为1e−3。训练时采用CBGS[86]的类平衡采样策略和AutoAlignV2[10]的跨模态数据增强。3D解码器的设计遵循了主流方法的常见做法，如BEVFusion[42]，其中我们解码了前200个边界框。

表1。nuScenes测试集上的3D目标检测性能。“L”是激光雷达，“C”是摄像头。的简历”、“T.L.”、“开国元勋之一B.R.安贝德卡对”、“M.T.”、“Ped。和“T.C.”’分别表示施工车辆、拖车、护栏、摩托车、行人、交通锥。'†'表示采用测试时间增强和模型集成技术的模型。每一列中最好的结果都用粗体标出。

与所有其他已发布的3D检测作品相比，IS-FUSION实现了卓越的性能。

图5。基于nuScenes验证集的3D物体检测示例。在多视图图像中，我们将汽车、行人和自行车的三维边界框用橙色、蓝色和红色进行可视化。在点云中，预测是灰色的，gt是绿色的。

表2。nuScenes验证集上的性能比较。IS-FUSION实现了卓越的3D检测性能，同时保持了相当的推理速度。

表3。在nuScenes验证集上对IS-FUSION中每个模块进行消融研究。基线- l表示仅lidar基线，而基线- lc指的是不使用HSF或IGF模块的ISFUSION的简单变体。

Performance Benchmarking性能基准测试

在表1中，我们将模型的性能与nuScenes测试集中当前领先的基于lidar的(用“L”表示)和多模态(用“L+C”表示)3D物体检测器进行了基准测试。这表明IS-FUSION优于所有现有的最先进的(SOTA) 3D检测算法。具体来说，is - fusion的激光雷达基线是建立在输血- l基础上的[1]。通过探索实例-场景协同融合，IS-FUSION在mAP和NDS方面分别显著提高了7.5%和5.0%。此外，与最近的一些多模态检测工作(如FocalFormer3D[9]、SparseFusion[66]和CMT[69])相比，IS-FUSION表现出了优越的性能，在mAP方面分别比它们高出1.4%、1.0%和1.0%。值得注意的是，ISFUSION在一些标记实例较少的类别中获得了最高的结果，即摩托车和拖车(仅占数据集的1.08%和2.13%)。这表明IS-FUSION即使从有限的实例中也能捕获基本信息。通过应用测试时间增强和模型集成，IS-FUSION†在竞争激烈的nuScenes排行榜上取得了新的SOTA。

如表2所示，IS-FUSION在nuScenes验证集上也获得了最好的检测精度同时保持相当的推理速度。特别是在mAP上，它比CMT和SparseFusion等SOTA探测器分别高出2.5%和1.8%。在图5中，我们还提供了一些关于nuScenes验证集的定性检测结果，以展示IS-FUSION的性能。可视化显示，ISFUSION能够准确地检测到各种类型的物体，即使在遥远的距离和不同的尺度。

总体而言，IS-FUSION的良好性能可归因于多模态实例级和场景级上下文的联合建模，以及它们在增强BEV表示方面的有效协作。

消融实验

Component-wise Ablation特定组件的消融

在本节中，我们将研究模型中每个组件的贡献。我们首先介绍IS-FUSION的基线框架。具体来说，我们的纯激光雷达基线来源于输血- l[1]，在这里被重新实现为基线- l。对于多模态基线，表示为baseline - lc，我们采用了一种简单的方法，通过卷积层将点云和图像BEV特征结合起来(见Eq.(6))。为了获得图像的BEV特征，我们通过求和运算来总结每个柱子中的点特征，其中点特征由公式4中介绍的图像特征确定. 由表3 (a)-(b)可知，该直观融合方案的mAP和NDS分别达到69.4%和71.6%，mAP和NDS分别优于Baseline-L 4.0%和1.5%。通过利用HSF增强场景特征，从表3 (b)-(c)可以看出，mAP和NDS分别提高了2.2%和1.6%。为了验证实例级建模的效果(即表3 (b)(d))，它显示IGF在mAP和NDS中分别比Baseline-LC高1.5%和1.2%。这突出了实例表示的关键作用。在表3 (e)中，我们的完整模型同时使用HSF和IGF，获得了72.8% mAP和74.0% NDS的最佳性能，显示了实例-场景协同的效果。

此外，在表4(a)中，我们探讨了不同图像编码器和输入分辨率的影响。结果表明，swwin - t[41]优于ResNet-50[21]和CSPNet[60]等其他图像编码器。这表明利用更强大的图像编码器可以潜在地提高IS-FUSION的检测性能。此外，使用更大的输入图像分辨率(例如，384 × 1056)也可以略微提高性能。

图6。在具有交通锥的挑战性场景中可视化纯电动汽车的特征。我们展示了模型w/和w/o IGF的BEV特征。结果表明，IGF可以产生响应更高、模式更完整的实例表示。

Analysis of HSF（HSF的分析)

HSF模块旨在分层提取各种粒度的多模态特征，促进对场景上下文的全面描述。因此，我们检验了在HSF中使用不同特征粒度的有效性。根据表4(b)，关注点向和网格向特征的point- to - grid变压器在mAP和NDS方面比Baseline-LC分别提高了0.5%和0.3%。通过探索网格间和区域间的特征，电网到区域变压器将基线- lc在mAP中提高1.8%，在NDS中提高1.2%。这表明，更大的接受野对于3D物体检测更为重要。完整的HSF使mAP提高了2.2%，NDS提高了1.6%，突出了跨不同粒度的特征集成的好处。

Analysis of IGF（IGF的分析)

IGF模块聚合每个实例周围的局部多模态特征，并将必要的实例级信息合并到BEV场景特征中。在IGF中，需要确定两个超参数，即多模态特征中的实例数K和采样邻居数D。根据表4(c)，我们发现设置K = 200和D = 16可以获得更好的性能，达到70.9%的mAP和72.8%的NDS。

进一步增加K或D不会导致额外的改善，这表明实例之间的自我注意已经有效地探索了一个合适的接受场。

此外，我们还提供了具有和不具有IGF的模型的BEV特征图的可视化。如图6所示，没有IGF的特征映射往往模式不完整，响应较低，而IGF模块由于与实例级特征的交互协作，显著提高了特征映射的质量。

结论

这项工作提出了一个创新的融合框架，ISFUSION，用于多模态3D目标检测。它由两个基本模块组成，即层次场景融合(HSF)模块和实例引导融合(IGF)模块。特别是，在HSF中设计了点到网格和网格到区域的变压器关注，以捕获分层场景上下文。此外，还引入IGF来挖掘实例，探索实例间的关系，并结合实例周围丰富的多模态上下文。我们还提出了一个实例到场景转换注意，以鼓励实例和场景表示之间的协作。IS-FUSION在具有竞争力的nuScenes基准上实现了卓越的性能。它通过强调实例级上下文，为当前基于bev的感知模型提供了一个新的视角，这可能有利于一系列以实例为中心的任务。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

国家发改委点名具身智能训练基础设施：机器人为什么要从赛场跑向工厂、商场和家庭？

过去几年，大模型让 AI 具备了很强的理解、生成、推理能力。但多数大模型仍然主要活在数字世界里：你输入文字，它输出答案；你输入图片，它输出描述；你输入需求，它生成代码或方案。具身智能不同。它强调 AI 必须绑定一个“身体”，比如人形机器人、机械臂、四足机器人、轮式机器人、无人车等。这个身体有摄像头、雷达、触觉、关节、电机、执行器，能够感知环境、理解任务、做出动作，并从真实物理反馈中学习。这意味着具

魔珐星云开发社区

TVA凭什么成为”数字AI“通往”物理AI“的关键桥梁（4）

魔珐星云开发社区

金融贸易之外，香港能成为具身智能创新策源地吗？

在5月12日的首届香港具身智能产业峰会上，多家参会企业创始人都表示，将香港定为其全球化布局的第一站。那，为什么是香港？可以从四个维度解释：人才、资本、场景以及背靠大湾区的供应链优势。首先，香港在人才和科研上优势明显。QS2026年世界大学排名中，香港有5所高校进入全球百强——香港大学第11名、香港中文大学32名、香港科技大学44名、香港理工大学54名、香港城市大学63名。这种高密度的学术集群全球都