IF 2025 | COMO：跨Mamba交互与偏移引导融合的多模态目标检测方法

单模态目标检测任务在面对复杂场景时常出现性能下降的问题。相比之下，多模态目标检测通过融合来自不同传感器的数据，能够提供更全面的对象特征信息。当前的多模态检测方法普遍采用传统神经网络或基于Transformer的模型进行特征融合，但由于多模态图像由不同传感器采集，常存在空间对齐偏差，导致跨模态匹配困难。本文提出一种新颖的框架——CrOss-Mamba交互与偏移引导融合（COMO），用于解决多模态目标

terrygim_123

914人浏览 · 2026-04-14 21:41:22

terrygim_123 · 2026-04-14 21:41:22 发布

COMO：跨Mamba交互与偏移引导融合的多模态目标检测方法

在这里插入图片描述

作者：刘畅^a, 马鑫^b, 杨晓晨^c, 张宇翔^d, 董艳妮^a,*
^a 武汉大学资源与环境科学学院，武汉 430079，中国
^b 武汉大学测绘遥感信息工程国家重点实验室，武汉 430079，中国
^c 格拉斯哥大学数学与统计学院，格拉斯哥 G12 8QQ，英国
^d 中国地质大学（武汉）地球物理与空间信息学院，武汉 430074，中国
* 通讯作者：dongyanni@whu.edu.cn
论文链接：https://doi.org/10.1016/j.inffus.2025.103414
代码地址：https://github.com/luluyuu/COMO

摘要

单模态目标检测任务在面对复杂场景时常出现性能下降的问题。相比之下，多模态目标检测通过融合来自不同传感器的数据，能够提供更全面的对象特征信息。当前的多模态检测方法普遍采用传统神经网络或基于Transformer的模型进行特征融合，但由于多模态图像由不同传感器采集，常存在空间对齐偏差，导致跨模态匹配困难。

本文提出一种新颖的框架——CrOss-Mamba交互与偏移引导融合（COMO），用于解决多模态目标检测中的上述挑战。COMO利用Mamba架构构建跨模态特征交互方程，实现高效的序列化状态计算，在减少计算开销的同时提升效率。此外，该方法利用受偏移影响较小的高层特征促进模态间信息互补，有效应对因拍摄角度和时间差异引起的定位偏差。同时引入全局与局部扫描机制，以捕捉遥感图像中具有局部相关性的特征；并通过偏移引导融合机制保留低层特征，构建多尺度融合数据立方体，从而显著提升检测性能。

实验在三个包含RGB与红外图像对的基准数据集上进行，结果表明COMO在多模态目标检测任务中达到了最先进的性能水平，特别适用于遥感应用场景。

关键词：目标检测；多模态融合；Mamba模型；遥感

1. 引言

目标检测任务旨在快速解析图像并识别物体位置，是计算机视觉中的关键技术，广泛应用于自动驾驶、遥感监测和医学影像等领域。然而，在低光照、恶劣天气或部分遮挡等复杂环境中，单模态检测由于特征提取能力有限，性能往往大幅下降。

多模态视觉数据（如RGB相机、红外传感器、激光雷达、雷达等）提供了更丰富的特征属性。通过融合多源数据，可充分利用各模态间的互补性，提高检测精度与鲁棒性。

近年来，多模态融合技术取得了显著进展，主要包括像素级融合、特征级融合和决策级融合三种策略。尽管如此，仍面临两大核心挑战：

模态间的空间错位问题：由于传感器视角、采集时间或硬件特性的差异，同一物体在不同模态下的成像位置存在偏差；
高计算成本：尤其是双分支结构与多尺度融合机制显著增加了资源消耗，不利于实时部署。

为此，我们提出COMO框架，其主要贡献如下：

提出一种新的多模态目标检测框架，采用跨Mamba交互机制实现高效模态间信息交换；
设计偏移引导融合模块，利用高层语义信息指导低层特征融合，缓解偏移带来的负面影响；
在三个基准数据集上的实验证明，COMO在多种场景下均取得最优性能，具备良好的实际应用潜力。

2. 相关工作

在这里插入图片描述

2.1 视觉多模态融合

单模态数据易受环境变化影响，例如RGB图像在夜间表现不佳。引入额外模态（如红外）可显著增强感知系统的鲁棒性。

多模态融合方法可分为两类：

变换域方法：如小波变换、拉普拉斯金字塔等，通过频域分解保留细节信息；
空间域方法：直接处理原始像素值，利用梯度、空间频率等进行融合。

随着深度学习的发展，卷积神经网络（CNN）、生成对抗网络（GAN）和Transformer逐渐成为主流。例如，Liu等人首次将CNN用于红外与可见光图像融合；Rao等人则成功应用GAN实现高质量图像融合。

然而，深度学习模型普遍存在训练耗时长、需大量标注数据、可解释性差等问题。

2.2 多模态目标检测

不同于以可视化为目的的图像融合，多模态目标检测是任务导向型的，旨在提升检测准确性。根据融合阶段的不同，可分为：

像素级融合：直接拼接或多通道输入，但缺乏精细调控；
特征级融合：目前最受关注的方向，可通过拼接、注意力机制等方式融合深层特征；
决策级融合：独立检测后合并结果，灵活性强但依赖个体性能。

现有方法如CFT首次将Transformer引入多模态检测；ICAFusion使用交叉注意力机制；CMADet尝试解决模态错位问题；OAFA通过共享子空间估计精确偏移值。

然而，大多数方法对模态错位敏感，且计算量大，难以满足实时需求。

2.3 Mamba模型

Mamba是一种新兴的序列建模架构，其核心思想是在状态空间模型（SSM）基础上引入选择性机制，平衡建模能力和计算效率。相比RNN和Transformer，Mamba在处理长序列时保持线性时间复杂度，适合大规模视觉任务。

Vision Mamba首次将Mamba引入视觉领域，采用双向扫描机制实现全局注意力；ChangeMamba将其应用于遥感变化检测；U-Mamba结合CNN与SSM用于医学图像分割；FusionMamba探索了其在图像融合中的潜力。

Mamba家族展现出轻量化、强泛化能力的优势，为高效视觉模型设计开辟新路径。

3. 方法

3.1 整体结构

给定一对可见光与红外图像 ${x_{rgb}, x_{ir}\}$ ，COMO通过跨模态交互与融合获得超越单一模态的检测结果。具体流程如下：

分别通过两个相同结构的CNN主干网络提取多尺度特征 $\{S^3_{ir}, S^4_{ir}, S^5_{ir}, S^3_{rgb}, S^4_{rgb}, S^5_{rgb}\}$ ；
仅选取最高层特征 $S^5_{ir}, S^5_{rgb}$ 输入 Mamba交互块（MIB） 进行跨模态交互；
将其余低层特征与MIB输出一同送入 偏移引导融合模块（OGF）；
最终由检测头输出结果。

为兼顾实时性与精度，选择高层特征进行交互的原因在于：高层特征包含更强的语义信息，且其感受野较大，固定偏移对其交集区域的影响较小。可用以下公式表示：

$A_{\text{intersection}} = |w_{blk} - \Delta x| \times |h_{blk} - \Delta y| \quad \text{(1)}$

其中 $\Delta x$ 、 $\Delta y$ 为固定偏移量， $w_{blk}$ 、 $h_{blk}$ 为不同层级特征块的宽高。增大特征块尺寸有助于扩大交集面积。

此外，仅使用高层特征交互可显著降低计算负担，提升实时性能。

在这里插入图片描述

3.2 Mamba交互块（Mamba Interaction Block）

MIB包含两个模块：单模态Mamba块 和 跨模态Mamba块。

（1）单模态Mamba块

首先对CNN输出的高层特征 $S_{in}$ 进行自适应最大池化与平均池化，构造统一维度的特征矩阵 $F_{in} \in \mathbb{R}^{H\times W\times C}$ ：

$F_{in} = \mathcal{P}_{avg}(S_{in}) + \mathcal{P}_{max}(S_{in}) \quad \text{(2)}$

接着进行深度映射并加入Dropout以增强适应性：

$F_m = \mathrm{Drop}\left(\mathcal{F}_{h\to C}\left(\mathrm{SiLU}\left(\mathcal{F}_{C\to h}(F_{in})\right)\right)\right) \quad \text{(3)}$

其中 $h$ 为隐藏层通道数， $\mathcal{F}(\cdot)$ 为线性映射， $\mathrm{Drop}(\cdot)$ 表示随机丢弃神经元， $\mathrm{SiLU}(\cdot)$ 为非线性激活函数。

随后将 $F_m$ 展平为序列 $I_{in} \in \mathbb{R}^{HW\times C}$ ，模拟序列数据输入SSM。引入可学习的位置编码 $\in \mathbb{R}^{HW\times C}$ 以弥补二维空间信息损失。

最后通过四向扫描（cross-scan）与逆向恢复（reverse-scan）操作增强数据分布：

$\begin{cases} x_i = \mathrm{crossscan}_i(I_{in}) \\ y_i = \mathrm{S6}_i(x_i) \\ I_{out} = \sum_{i=1}^4 \mathrm{reversescan}_i(y_i) \end{cases} \quad i = 1,2,3,4 \quad \text{(4)}$

这里 $\mathrm{S6}$ 是Mamba中的状态空间模型（SSM）结构。

连续系统的SSM定义如下：

$\begin{cases} h'(t) = Ah(t) + Bx(t) \\ y(t) = Ch(t) + Dx(t) \end{cases} \quad \text{(5)}$

其中 $A$ 为演化参数， $B, C$ 为投影参数， $D$ 为跳跃连接。

离散化时引入时间尺度参数 $\Delta$ ，利用零阶保持（ZOH）算法转换：

$\begin{cases} \bar{A} = \exp(\Delta A) \\ \bar{B} \approx \Delta B \end{cases} \quad \text{(6)}$

得到离散形式：

$\begin{cases} h_t = \bar{A}h_{t-1} + \bar{B}x_t \\ y_t = Ch_t + Dx_t \end{cases} \quad \text{(7)}$

最终输出所有状态的结果集合：

$Y_s = [y_1, y_2, ..., y_L], \quad L = H \times W \quad \text{(8)}$

重复 $n$ 次上述结构以深入提取序列特征。

（2）跨模态Mamba块（Cross-Mamba Block）

受FusionMamba启发，设计跨模态交互模块。输入为两个模态的高层特征 $F^1_s, F^2_s$ ，计算过程为：

$\begin{cases} x^1_i, x^2_i = \mathrm{crossscan}_i(F^1_s, F^2_s) \\ y_i = \mathrm{CS6}_i(x^1_i, x^2_i) \\ I_{out} = \sum_{i=1}^6 \mathrm{reversescan}_i(y_i) \end{cases} \quad i=1,...,6 \quad \text{(9)}$

其中 $\mathrm{CS6}$ 为核心交互单元：

$\begin{cases} h_t = Ah_{t-1} + Bx^1_t \\ y_t = Ch_t + Dx^2_t \end{cases} \quad \text{(10)}$

核心思想是将第一个模态的输入作为历史状态，驱动第二个模态的状态更新，从而建立深层次的跨模态关联。

最终输出拼接后得到 $F^{rgb}_5$ 和 $F^{ir}_5$ 。

在这里插入图片描述

3.3 全局与局部扫描机制

标准Mamba擅长处理一维因果序列，但在图像中简单全局扫描会削弱局部空间关系的学习能力，尤其在遥感图像中，局部对象的相关性更为重要。

为此，提出局部扫描方法（Local Scan, LS）：将图像划分为多个窗口，在每个窗口内顺序扫描，既能捕捉局部依赖，又能维持全局视野。

如图所示，LS将图像分成若干窗口，窗口大小为超参数，设定不超过图像尺寸的三分之一，确保有效捕获局部特征。

我们在Cross-Mamba Block中增加两个方向的局部扫描，形成全局与局部扫描机制，使Mamba交互块能同时建模局部与全局空间关系。

在这里插入图片描述

3.4 偏移引导融合（Offset-Guided Fusion）

高层特征虽抗偏移能力强，但缺乏纹理细节；低层特征细节丰富却易受偏移干扰。为此设计偏移引导融合模块，利用高层交互后的特征指导低层特征融合。

该模块集成于FPN（特征金字塔网络）与PAN（路径聚合网络）结构中，避免冗余组件，降低参数量与计算开销。

具体流程包括：

自顶向下路径（FPN）：高层特征逐级上采样并与低层特征融合；
自底向上路径（PAN）：加强浅层特征传播。

融合公式如下：

$\mathcal{F}(x) = \sum_{i=1}^N \left( \mathrm{ConvBlock}_i(x) + \mathrm{RepBlock}(\mathrm{ConvBlock}_i(x)) \right) \quad \text{(11)}$

其中 $x$ 为拼接后的输入特征， $\mathrm{ConvBlock}_i(\cdot)$ 为卷积残差保留块， $\mathrm{RepBlock}(\cdot)$ 为通道重构块。

通过通道重建与残差保留，构建双分支融合模型，最大化信息流，实现偏移引导下的高效多尺度融合。

在这里插入图片描述

4. 实验

4.1 实验设置

选用三个代表性数据集作为基准：

在这里插入图片描述

对比方法包括：YOLOrs、CFT、SuperYOLO、GHOST、MFPT、ICAFusion、GM-DETR、DaFF、CMADet。

实现平台：NVIDIA RTX3090 GPU；输入尺寸统一为640×640；使用COCO预训练权重初始化；采用mosaic数据增强；测试batch size=32，未启用FP16/TensorRT加速。

4.2 评价指标

采用MS-COCO标准的 平均精度（mAP） 作为主要指标：

mAP50：IoU阈值为0.5时的平均精度；
mAP75：IoU阈值为0.75时的平均精度；
整体mAP：多个IoU阈值下的平均值。

表格中加粗表示最佳结果，下划线表示第二佳。

4.3 实验1：DroneVehicle数据集

DroneVehicle是一个大规模无人机采集的RGB-红外图像对数据集，涵盖昼夜多种场景，存在明显的模态偏移问题。

实验结果见表2：
COMO在YOLOv8s基线上达到 86.1% mAP50 和 65.5% mAP，优于所有对比方法。

此外，模型参数量仅为20.27M，FLOPs为19.36G，FPS高达227.2 Hz，显示出色实时性能。

在这里插入图片描述

4.4 实验2：LLVIP数据集

LLVIP为道路监控下的低光行人检测数据集，仅含一个类别，但可见光模态信息极弱。

结果如表4所示：
COMO在mAP50上达到 97.2%，接近饱和性能，证明其在低光条件下的强大检测能力。
在这里插入图片描述

在这里插入图片描述

4.5 实验3：VEDAI数据集

VEDAI为航空遥感小目标检测基准，目标极小，挑战性强。

COMO在YOLOv5s基线下取得 81.7% mAP50 和 50.3% mAP，全面领先其他方法。

特别是对小型车辆（如皮卡、拖拉机）检测效果优异，验证了多尺度融合的有效性。

在这里插入图片描述

4.6 消融实验

为验证各模块有效性，在DroneVehicle上开展消融研究：
结果表明：

MIB贡献最大（+2.4% mAP50），体现跨模态交互的重要性；
局部扫描进一步提升局部特征关联；
OGF有效缓解偏移影响，并保留低层细节。

在这里插入图片描述

4.7 Mamba vs Transformer 对比

我们将MIB替换为基于Transformer的交叉注意力模块进行比较：

MIB在mAP50上达 85.3%，Transformer为 83.6%；
MIB仅需 14.03 GFLOPs，Transformer为 15.31 GFLOPs；
模型体积：MIB 56.31 MB，Transformer 146.09 MB。

表明Mamba在多模态任务中不仅性能更优，且效率更高。

在这里插入图片描述

4.8 局部扫描机制分析

调整patch size与local window size的影响：
最优配置为 8×8 patch 与 2×2 local window，说明局部扫描能有效增强邻近patch间的关联。

在这里插入图片描述

5. 结论

本文提出了COMO框架，一种基于跨Mamba交互与偏移引导融合的多模态目标检测新方法。该方法通过高效的状态空间建模实现跨模态信息交互，利用高层特征抑制偏移影响，并通过局部扫描机制强化空间关联。

在三个基准数据集上的实验表明，COMO在检测精度、计算效率和实时性方面均达到先进水平，尤其适用于遥感、无人机、夜间监控等实际场景。

未来工作将进一步拓展至其他多模态任务，并持续优化模型轻量化程度。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

开源聚势·具身启智，杭州这场沙龙给出中国具身智能产业化新答案

魔珐星云开发社区

AI情报——2026年5月19日

AIDevBoard数据显示8720个AI岗位中，LLM相关岗位2602个（均薪24.3万美元），Agent岗位2440个（均薪23万美元），两者合计超5000个岗位。我是AI方向的猎头Felix，我这边有优质的AI公司，base在北京、上海、深圳等一线城市，AI+社交领域，具身智能领域等都有涉猎，福利待遇完善，具备和大厂同台竞技的能力。联合中兴、中国电信、中国联通等发布，可实现跨平台智能体身份互