Arxiv 2025 | 16G显存也能跑高分多模态！DFENet登顶SOTA，傅里叶变换让AI视觉更轻更快

本文提出了一种创新的深度傅里叶嵌入网络DFENet，用于RGB与热红外显著性目标检测。该网络首次采用纯傅里叶变换架构，设计了模态协同感知注意力、频率分解边缘感知块和傅里叶残差通道注意力块三个核心模块，并创新性地提出共聚焦频率损失函数。DFENet在标准GPU上即可高效处理高分辨率双模态输入，在四个主流基准数据集上超越15个现有模型，为多模态密集预测任务提供了高效精准的新范式。

AI模块工坊

875人浏览 · 2025-10-17 18:15:58

AI模块工坊 · 2025-10-17 18:15:58 发布

1. 基本信息

标题: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection (深度傅里叶嵌入网络用于RGB与热红外显著性目标检测)
论文来源:https://arxiv.org/pdf/2411.18409

2. 核心创新点

提出纯傅里叶变换模型 (DFENet) ：首次为显著性目标检测任务设计了一个完全基于快速傅里叶变换 (FFT) 的监督模型，有效降低了高分辨率双模态特征融合的计算和内存开销。
设计多个频域核心模块：引入了三个创新的傅里叶域模块，包括用于多维表示增强和模态融合的模态协同感知注意力 (MPA) 、用于澄清对象边缘的频率分解边缘感知块 (FEB) ，以及用于优先处理高频信息的傅里叶残差通道注意力块 (FRCAB) 。
首创共聚焦频率损失 (CFL) ：提出一种在傅里叶域操作的新型损失函数，通过交叉参考原始双模态的边缘频率信息，动态加权难以学习的“硬频率”，显著提升了边缘重建的精度。
实现高分辨率处理与SOTA性能：该模型在标准16GB显存的GPU上即可处理高达512x512分辨率的双模态输入，并在四个主流RGB-T SOD基准数据集上超越了15个现有的SOTA模型。

➔➔➔➔点击查看原文，获取本文及其他精选即插即用模块集合https://mp.weixin.qq.com/s/dd2JS1jZJvTKDErhUmEClQ

3. 方法详解

整体结构概述： DFENet采用双流编码器-解码器架构。首先，一个基于FFT的CDFFormer-m双流编码器分别从RGB和热红外图像中提取多尺度特征。随后，模态协同感知注意力 (MPA) 模块在各个尺度上对双模态特征进行深度融合。在解码阶段，傅里叶残差通道注意力块 (FRCAB) 逐层优化融合特征，并结合由频率分解边缘感知块 (FEB) 提供的精细边缘特征，最终生成高质量的显著性图。整个模型训练由空间域损失和频率域的共聚焦频率损失 (CFL) 共同监督。

DFENet整体框架图

步骤分解：

双流编码器 (Dual-stream Encoder) ：使用两个并行的CDFFormer-m网络，分别处理RGB和热红外输入，生成四层特征金字塔 {ri}4i=1 和 {ti}4i=1。
模态协同感知注意力 (MPA) ：该模块是实现高效双模态融合的核心。它采用“重嵌入”策略，首先对空间维度进行傅里叶变换，然后在通道维度上再次进行傅里叶变换，从而在空间和通道两个维度上对齐和融合特征，有效捕捉全局依赖关系并整合互补信息。

MPA模块架构图

**频率分解边缘感知块 (FEB)**：为了给解码器提供清晰的边缘引导，FEB对编码器的浅层特征进行处理。它通过深度分解特征的频率成分，利用相位增强过程 (PEP) 突显边界，并结合自适应高通滤波器来提取纯净的边缘信息 {ei}3i=1，有效抑制了背景噪声。

EFEB模块架构图

解码器与傅里叶残差通道注意力块 (FRCAB) ：解码器采用金字塔结构，自顶向下逐步融合多尺度特征。在每个解码层，FRCAB被用来优化特征。该模块受RCAB启发，在频率域进行通道注意力计算，使模型能够优先关注对精细细节至关重要的高频信息，同时自适应地调整通道特征，增强模型的判别力。

FRCAB模块架构图

双域学习 (Bi-domain Learning) ：
- 频率域：使用创新的共聚焦频率损失 (CFL) 来监督FEB生成的边缘图。它在傅里叶域计算预测边缘与真值边缘之间的距离，并通过引入原始图像的相位信息作为参考，动态地为难以拟合的频率分量分配更高的权重。其中，权重矩阵 w 综合了预测误差和原始模态的频率信息，以聚焦于“硬频率”：
- 空间域：使用标准的二元交叉熵损失 (BCE) 和交并比损失 (IoU) 来监督最终的显著性图和中间的边缘图，确保像素级的准确性。

4. 即插即用模块作用

【此处分析的核心模块是DFENet整体体现的傅里叶变换思想及其带来的模块，特别是CFL损失函数】

适用场景

计算机视觉任务:
- 显著性目标检测 (SOD): 包括RGB-T, RGB-D以及传统的RGB SOD。
- 密集预测任务: 如语义分割、实例分割，特别是需要精确边界和高效全局上下文建模的场景。
- 多模态数据融合: 可用于任何需要融合两种或多种图像模态（如医学影像中的MRI和CT）的任务。
行业场景:
- 自动驾驶: 在恶劣天气或夜间等低光照条件下，融合RGB和热红外信息以准确识别行人、车辆等。
- 安防监控: 全天候监控，准确识别异常目标。
- 机器人视觉: 增强机器人在复杂环境中的场景感知和目标抓取能力。

主要作用

替代高成本的Transformer: 提供一种计算和内存效率更高的全局关系建模范式，可作为Transformer中自注意力机制的有效替代方案，尤其适用于处理高分辨率输入。
大幅降低计算开销: 利用快速傅里叶变换的线性复杂度，显著降低了模型在处理高分辨率特征图时的计算量和显存占用。
增强模型对细节的表达: 通过FRCAB和FEB模块，专门强化高频信息（如边缘、纹理）的学习，有效解决了深度网络中细节信息易丢失的问题。
优化困难样本学习: 创新的CFL损失函数从频率域入手，引导模型关注那些难以重建的边缘频率成分，改善了传统空间域损失函数平等对待所有像素的局限性。