IF 2025 | COMO:跨Mamba交互与偏移引导融合的多模态目标检测方法
单模态目标检测任务在面对复杂场景时常出现性能下降的问题。相比之下,多模态目标检测通过融合来自不同传感器的数据,能够提供更全面的对象特征信息。当前的多模态检测方法普遍采用传统神经网络或基于Transformer的模型进行特征融合,但由于多模态图像由不同传感器采集,常存在空间对齐偏差,导致跨模态匹配困难。本文提出一种新颖的框架——CrOss-Mamba交互与偏移引导融合(COMO),用于解决多模态目标
COMO:跨Mamba交互与偏移引导融合的多模态目标检测方法

作者:刘畅a, 马鑫b, 杨晓晨c, 张宇翔d, 董艳妮a,*
a 武汉大学资源与环境科学学院,武汉 430079,中国
b 武汉大学测绘遥感信息工程国家重点实验室,武汉 430079,中国
c 格拉斯哥大学数学与统计学院,格拉斯哥 G12 8QQ,英国
d 中国地质大学(武汉)地球物理与空间信息学院,武汉 430074,中国
* 通讯作者:dongyanni@whu.edu.cn
论文链接:https://doi.org/10.1016/j.inffus.2025.103414
代码地址:https://github.com/luluyuu/COMO
摘要
单模态目标检测任务在面对复杂场景时常出现性能下降的问题。相比之下,多模态目标检测通过融合来自不同传感器的数据,能够提供更全面的对象特征信息。当前的多模态检测方法普遍采用传统神经网络或基于Transformer的模型进行特征融合,但由于多模态图像由不同传感器采集,常存在空间对齐偏差,导致跨模态匹配困难。
本文提出一种新颖的框架——CrOss-Mamba交互与偏移引导融合(COMO),用于解决多模态目标检测中的上述挑战。COMO利用Mamba架构构建跨模态特征交互方程,实现高效的序列化状态计算,在减少计算开销的同时提升效率。此外,该方法利用受偏移影响较小的高层特征促进模态间信息互补,有效应对因拍摄角度和时间差异引起的定位偏差。同时引入全局与局部扫描机制,以捕捉遥感图像中具有局部相关性的特征;并通过偏移引导融合机制保留低层特征,构建多尺度融合数据立方体,从而显著提升检测性能。
实验在三个包含RGB与红外图像对的基准数据集上进行,结果表明COMO在多模态目标检测任务中达到了最先进的性能水平,特别适用于遥感应用场景。
关键词:目标检测;多模态融合;Mamba模型;遥感

1. 引言
目标检测任务旨在快速解析图像并识别物体位置,是计算机视觉中的关键技术,广泛应用于自动驾驶、遥感监测和医学影像等领域。然而,在低光照、恶劣天气或部分遮挡等复杂环境中,单模态检测由于特征提取能力有限,性能往往大幅下降。
多模态视觉数据(如RGB相机、红外传感器、激光雷达、雷达等)提供了更丰富的特征属性。通过融合多源数据,可充分利用各模态间的互补性,提高检测精度与鲁棒性。
近年来,多模态融合技术取得了显著进展,主要包括像素级融合、特征级融合和决策级融合三种策略。尽管如此,仍面临两大核心挑战:
- 模态间的空间错位问题:由于传感器视角、采集时间或硬件特性的差异,同一物体在不同模态下的成像位置存在偏差;
- 高计算成本:尤其是双分支结构与多尺度融合机制显著增加了资源消耗,不利于实时部署。
为此,我们提出COMO框架,其主要贡献如下:
- 提出一种新的多模态目标检测框架,采用跨Mamba交互机制实现高效模态间信息交换;
- 设计偏移引导融合模块,利用高层语义信息指导低层特征融合,缓解偏移带来的负面影响;
- 在三个基准数据集上的实验证明,COMO在多种场景下均取得最优性能,具备良好的实际应用潜力。
2. 相关工作

2.1 视觉多模态融合
单模态数据易受环境变化影响,例如RGB图像在夜间表现不佳。引入额外模态(如红外)可显著增强感知系统的鲁棒性。
多模态融合方法可分为两类:
- 变换域方法:如小波变换、拉普拉斯金字塔等,通过频域分解保留细节信息;
- 空间域方法:直接处理原始像素值,利用梯度、空间频率等进行融合。
随着深度学习的发展,卷积神经网络(CNN)、生成对抗网络(GAN)和Transformer逐渐成为主流。例如,Liu等人首次将CNN用于红外与可见光图像融合;Rao等人则成功应用GAN实现高质量图像融合。
然而,深度学习模型普遍存在训练耗时长、需大量标注数据、可解释性差等问题。
2.2 多模态目标检测
不同于以可视化为目的的图像融合,多模态目标检测是任务导向型的,旨在提升检测准确性。根据融合阶段的不同,可分为:
- 像素级融合:直接拼接或多通道输入,但缺乏精细调控;
- 特征级融合:目前最受关注的方向,可通过拼接、注意力机制等方式融合深层特征;
- 决策级融合:独立检测后合并结果,灵活性强但依赖个体性能。
现有方法如CFT首次将Transformer引入多模态检测;ICAFusion使用交叉注意力机制;CMADet尝试解决模态错位问题;OAFA通过共享子空间估计精确偏移值。
然而,大多数方法对模态错位敏感,且计算量大,难以满足实时需求。
2.3 Mamba模型
Mamba是一种新兴的序列建模架构,其核心思想是在状态空间模型(SSM)基础上引入选择性机制,平衡建模能力和计算效率。相比RNN和Transformer,Mamba在处理长序列时保持线性时间复杂度,适合大规模视觉任务。
Vision Mamba首次将Mamba引入视觉领域,采用双向扫描机制实现全局注意力;ChangeMamba将其应用于遥感变化检测;U-Mamba结合CNN与SSM用于医学图像分割;FusionMamba探索了其在图像融合中的潜力。
Mamba家族展现出轻量化、强泛化能力的优势,为高效视觉模型设计开辟新路径。
3. 方法
3.1 整体结构
给定一对可见光与红外图像 { x r g b , x i r } \{x_{rgb}, x_{ir}\} {xrgb,xir},COMO通过跨模态交互与融合获得超越单一模态的检测结果。具体流程如下:
- 分别通过两个相同结构的CNN主干网络提取多尺度特征 { S i r 3 , S i r 4 , S i r 5 , S r g b 3 , S r g b 4 , S r g b 5 } \{S^3_{ir}, S^4_{ir}, S^5_{ir}, S^3_{rgb}, S^4_{rgb}, S^5_{rgb}\} {Sir3,Sir4,Sir5,Srgb3,Srgb4,Srgb5};
- 仅选取最高层特征 S i r 5 , S r g b 5 S^5_{ir}, S^5_{rgb} Sir5,Srgb5 输入 Mamba交互块(MIB) 进行跨模态交互;
- 将其余低层特征与MIB输出一同送入 偏移引导融合模块(OGF);
- 最终由检测头输出结果。
为兼顾实时性与精度,选择高层特征进行交互的原因在于:高层特征包含更强的语义信息,且其感受野较大,固定偏移对其交集区域的影响较小。可用以下公式表示:
A intersection = ∣ w b l k − Δ x ∣ × ∣ h b l k − Δ y ∣ (1) A_{\text{intersection}} = |w_{blk} - \Delta x| \times |h_{blk} - \Delta y| \quad \text{(1)} Aintersection=∣wblk−Δx∣×∣hblk−Δy∣(1)
其中 Δ x \Delta x Δx、 Δ y \Delta y Δy 为固定偏移量, w b l k w_{blk} wblk、 h b l k h_{blk} hblk 为不同层级特征块的宽高。增大特征块尺寸有助于扩大交集面积。
此外,仅使用高层特征交互可显著降低计算负担,提升实时性能。

3.2 Mamba交互块(Mamba Interaction Block)
MIB包含两个模块:单模态Mamba块 和 跨模态Mamba块。
(1)单模态Mamba块
首先对CNN输出的高层特征 S i n S_{in} Sin 进行自适应最大池化与平均池化,构造统一维度的特征矩阵 F i n ∈ R H × W × C F_{in} \in \mathbb{R}^{H\times W\times C} Fin∈RH×W×C:
F i n = P a v g ( S i n ) + P m a x ( S i n ) (2) F_{in} = \mathcal{P}_{avg}(S_{in}) + \mathcal{P}_{max}(S_{in}) \quad \text{(2)} Fin=Pavg(Sin)+Pmax(Sin)(2)
接着进行深度映射并加入Dropout以增强适应性:
F m = D r o p ( F h → C ( S i L U ( F C → h ( F i n ) ) ) ) (3) F_m = \mathrm{Drop}\left(\mathcal{F}_{h\to C}\left(\mathrm{SiLU}\left(\mathcal{F}_{C\to h}(F_{in})\right)\right)\right) \quad \text{(3)} Fm=Drop(Fh→C(SiLU(FC→h(Fin))))(3)
其中 h h h 为隐藏层通道数, F ( ⋅ ) \mathcal{F}(\cdot) F(⋅) 为线性映射, D r o p ( ⋅ ) \mathrm{Drop}(\cdot) Drop(⋅) 表示随机丢弃神经元, S i L U ( ⋅ ) \mathrm{SiLU}(\cdot) SiLU(⋅) 为非线性激活函数。
随后将 F m F_m Fm 展平为序列 I i n ∈ R H W × C I_{in} \in \mathbb{R}^{HW\times C} Iin∈RHW×C,模拟序列数据输入SSM。引入可学习的位置编码 P ∈ R H W × C P \in \mathbb{R}^{HW\times C} P∈RHW×C 以弥补二维空间信息损失。
最后通过四向扫描(cross-scan)与逆向恢复(reverse-scan)操作增强数据分布:
{ x i = c r o s s s c a n i ( I i n ) y i = S 6 i ( x i ) I o u t = ∑ i = 1 4 r e v e r s e s c a n i ( y i ) i = 1 , 2 , 3 , 4 (4) \begin{cases} x_i = \mathrm{crossscan}_i(I_{in}) \\ y_i = \mathrm{S6}_i(x_i) \\ I_{out} = \sum_{i=1}^4 \mathrm{reversescan}_i(y_i) \end{cases} \quad i = 1,2,3,4 \quad \text{(4)} ⎩ ⎨ ⎧xi=crossscani(Iin)yi=S6i(xi)Iout=∑i=14reversescani(yi)i=1,2,3,4(4)
这里 S 6 \mathrm{S6} S6 是Mamba中的状态空间模型(SSM)结构。
连续系统的SSM定义如下:
{ h ′ ( t ) = A h ( t ) + B x ( t ) y ( t ) = C h ( t ) + D x ( t ) (5) \begin{cases} h'(t) = Ah(t) + Bx(t) \\ y(t) = Ch(t) + Dx(t) \end{cases} \quad \text{(5)} {h′(t)=Ah(t)+Bx(t)y(t)=Ch(t)+Dx(t)(5)
其中 A A A 为演化参数, B , C B,C B,C 为投影参数, D D D 为跳跃连接。
离散化时引入时间尺度参数 Δ \Delta Δ,利用零阶保持(ZOH)算法转换:
{ A ˉ = exp ( Δ A ) B ˉ ≈ Δ B (6) \begin{cases} \bar{A} = \exp(\Delta A) \\ \bar{B} \approx \Delta B \end{cases} \quad \text{(6)} {Aˉ=exp(ΔA)Bˉ≈ΔB(6)
得到离散形式:
{ h t = A ˉ h t − 1 + B ˉ x t y t = C h t + D x t (7) \begin{cases} h_t = \bar{A}h_{t-1} + \bar{B}x_t \\ y_t = Ch_t + Dx_t \end{cases} \quad \text{(7)} {ht=Aˉht−1+Bˉxtyt=Cht+Dxt(7)
最终输出所有状态的结果集合:
Y s = [ y 1 , y 2 , . . . , y L ] , L = H × W (8) Y_s = [y_1, y_2, ..., y_L], \quad L = H \times W \quad \text{(8)} Ys=[y1,y2,...,yL],L=H×W(8)
重复 n n n 次上述结构以深入提取序列特征。
(2)跨模态Mamba块(Cross-Mamba Block)
受FusionMamba启发,设计跨模态交互模块。输入为两个模态的高层特征 F s 1 , F s 2 F^1_s, F^2_s Fs1,Fs2,计算过程为:
{ x i 1 , x i 2 = c r o s s s c a n i ( F s 1 , F s 2 ) y i = C S 6 i ( x i 1 , x i 2 ) I o u t = ∑ i = 1 6 r e v e r s e s c a n i ( y i ) i = 1 , . . . , 6 (9) \begin{cases} x^1_i, x^2_i = \mathrm{crossscan}_i(F^1_s, F^2_s) \\ y_i = \mathrm{CS6}_i(x^1_i, x^2_i) \\ I_{out} = \sum_{i=1}^6 \mathrm{reversescan}_i(y_i) \end{cases} \quad i=1,...,6 \quad \text{(9)} ⎩ ⎨ ⎧xi1,xi2=crossscani(Fs1,Fs2)yi=CS6i(xi1,xi2)Iout=∑i=16reversescani(yi)i=1,...,6(9)
其中 C S 6 \mathrm{CS6} CS6 为核心交互单元:
{ h t = A h t − 1 + B x t 1 y t = C h t + D x t 2 (10) \begin{cases} h_t = Ah_{t-1} + Bx^1_t \\ y_t = Ch_t + Dx^2_t \end{cases} \quad \text{(10)} {ht=Aht−1+Bxt1yt=Cht+Dxt2(10)
核心思想是将第一个模态的输入作为历史状态,驱动第二个模态的状态更新,从而建立深层次的跨模态关联。
最终输出拼接后得到 F 5 r g b F^{rgb}_5 F5rgb 和 F 5 i r F^{ir}_5 F5ir。

3.3 全局与局部扫描机制
标准Mamba擅长处理一维因果序列,但在图像中简单全局扫描会削弱局部空间关系的学习能力,尤其在遥感图像中,局部对象的相关性更为重要。
为此,提出局部扫描方法(Local Scan, LS):将图像划分为多个窗口,在每个窗口内顺序扫描,既能捕捉局部依赖,又能维持全局视野。
如图所示,LS将图像分成若干窗口,窗口大小为超参数,设定不超过图像尺寸的三分之一,确保有效捕获局部特征。
我们在Cross-Mamba Block中增加两个方向的局部扫描,形成全局与局部扫描机制,使Mamba交互块能同时建模局部与全局空间关系。

3.4 偏移引导融合(Offset-Guided Fusion)
高层特征虽抗偏移能力强,但缺乏纹理细节;低层特征细节丰富却易受偏移干扰。为此设计偏移引导融合模块,利用高层交互后的特征指导低层特征融合。
该模块集成于FPN(特征金字塔网络)与PAN(路径聚合网络)结构中,避免冗余组件,降低参数量与计算开销。
具体流程包括:
- 自顶向下路径(FPN):高层特征逐级上采样并与低层特征融合;
- 自底向上路径(PAN):加强浅层特征传播。
融合公式如下:
F ( x ) = ∑ i = 1 N ( C o n v B l o c k i ( x ) + R e p B l o c k ( C o n v B l o c k i ( x ) ) ) (11) \mathcal{F}(x) = \sum_{i=1}^N \left( \mathrm{ConvBlock}_i(x) + \mathrm{RepBlock}(\mathrm{ConvBlock}_i(x)) \right) \quad \text{(11)} F(x)=i=1∑N(ConvBlocki(x)+RepBlock(ConvBlocki(x)))(11)
其中 x x x 为拼接后的输入特征, C o n v B l o c k i ( ⋅ ) \mathrm{ConvBlock}_i(\cdot) ConvBlocki(⋅) 为卷积残差保留块, R e p B l o c k ( ⋅ ) \mathrm{RepBlock}(\cdot) RepBlock(⋅) 为通道重构块。
通过通道重建与残差保留,构建双分支融合模型,最大化信息流,实现偏移引导下的高效多尺度融合。

4. 实验
4.1 实验设置
选用三个代表性数据集作为基准:

对比方法包括:YOLOrs、CFT、SuperYOLO、GHOST、MFPT、ICAFusion、GM-DETR、DaFF、CMADet。
实现平台:NVIDIA RTX3090 GPU;输入尺寸统一为640×640;使用COCO预训练权重初始化;采用mosaic数据增强;测试batch size=32,未启用FP16/TensorRT加速。
4.2 评价指标
采用MS-COCO标准的 平均精度(mAP) 作为主要指标:
- mAP50:IoU阈值为0.5时的平均精度;
- mAP75:IoU阈值为0.75时的平均精度;
- 整体mAP:多个IoU阈值下的平均值。
表格中加粗表示最佳结果,下划线表示第二佳。
4.3 实验1:DroneVehicle数据集
DroneVehicle是一个大规模无人机采集的RGB-红外图像对数据集,涵盖昼夜多种场景,存在明显的模态偏移问题。
实验结果见表2:
COMO在YOLOv8s基线上达到 86.1% mAP50 和 65.5% mAP,优于所有对比方法。
此外,模型参数量仅为20.27M,FLOPs为19.36G,FPS高达227.2 Hz,显示出色实时性能。



4.4 实验2:LLVIP数据集
LLVIP为道路监控下的低光行人检测数据集,仅含一个类别,但可见光模态信息极弱。
结果如表4所示:
COMO在mAP50上达到 97.2%,接近饱和性能,证明其在低光条件下的强大检测能力。


4.5 实验3:VEDAI数据集
VEDAI为航空遥感小目标检测基准,目标极小,挑战性强。
COMO在YOLOv5s基线下取得 81.7% mAP50 和 50.3% mAP,全面领先其他方法。
特别是对小型车辆(如皮卡、拖拉机)检测效果优异,验证了多尺度融合的有效性。


4.6 消融实验
为验证各模块有效性,在DroneVehicle上开展消融研究:
结果表明:
- MIB贡献最大(+2.4% mAP50),体现跨模态交互的重要性;
- 局部扫描进一步提升局部特征关联;
- OGF有效缓解偏移影响,并保留低层细节。



4.7 Mamba vs Transformer 对比
我们将MIB替换为基于Transformer的交叉注意力模块进行比较:
- MIB在mAP50上达 85.3%,Transformer为 83.6%;
- MIB仅需 14.03 GFLOPs,Transformer为 15.31 GFLOPs;
- 模型体积:MIB 56.31 MB,Transformer 146.09 MB。
表明Mamba在多模态任务中不仅性能更优,且效率更高。

4.8 局部扫描机制分析
调整patch size与local window size的影响:
最优配置为 8×8 patch 与 2×2 local window,说明局部扫描能有效增强邻近patch间的关联。

5. 结论
本文提出了COMO框架,一种基于跨Mamba交互与偏移引导融合的多模态目标检测新方法。该方法通过高效的状态空间建模实现跨模态信息交互,利用高层特征抑制偏移影响,并通过局部扫描机制强化空间关联。
在三个基准数据集上的实验表明,COMO在检测精度、计算效率和实时性方面均达到先进水平,尤其适用于遥感、无人机、夜间监控等实际场景。
未来工作将进一步拓展至其他多模态任务,并持续优化模型轻量化程度。
更多推荐



所有评论(0)