Arxiv 2025 | 16G显存也能跑高分多模态!DFENet登顶SOTA,傅里叶变换让AI视觉更轻更快
本文提出了一种创新的深度傅里叶嵌入网络DFENet,用于RGB与热红外显著性目标检测。该网络首次采用纯傅里叶变换架构,设计了模态协同感知注意力、频率分解边缘感知块和傅里叶残差通道注意力块三个核心模块,并创新性地提出共聚焦频率损失函数。DFENet在标准GPU上即可高效处理高分辨率双模态输入,在四个主流基准数据集上超越15个现有模型,为多模态密集预测任务提供了高效精准的新范式。
1. 基本信息

-
标题: Deep Fourier-embedded Network for RGB and Thermal Salient Object Detection (深度傅里叶嵌入网络用于RGB与热红外显著性目标检测)
-
论文来源:https://arxiv.org/pdf/2411.18409
2. 核心创新点
-
提出纯傅里叶变换模型 (DFENet) :首次为显著性目标检测任务设计了一个完全基于快速傅里叶变换 (FFT) 的监督模型,有效降低了高分辨率双模态特征融合的计算和内存开销。
-
设计多个频域核心模块:引入了三个创新的傅里叶域模块,包括用于多维表示增强和模态融合的模态协同感知注意力 (MPA) 、用于澄清对象边缘的频率分解边缘感知块 (FEB) ,以及用于优先处理高频信息的傅里叶残差通道注意力块 (FRCAB) 。
-
首创共聚焦频率损失 (CFL) :提出一种在傅里叶域操作的新型损失函数,通过交叉参考原始双模态的边缘频率信息,动态加权难以学习的“硬频率”,显著提升了边缘重建的精度。
-
实现高分辨率处理与SOTA性能:该模型在标准16GB显存的GPU上即可处理高达512x512分辨率的双模态输入,并在四个主流RGB-T SOD基准数据集上超越了15个现有的SOTA模型。
➔➔➔➔点击查看原文,获取本文及其他精选即插即用模块集合
https://mp.weixin.qq.com/s/dd2JS1jZJvTKDErhUmEClQ
3. 方法详解
整体结构概述: DFENet采用双流编码器-解码器架构。首先,一个基于FFT的CDFFormer-m双流编码器分别从RGB和热红外图像中提取多尺度特征。随后,模态协同感知注意力 (MPA) 模块在各个尺度上对双模态特征进行深度融合。在解码阶段,傅里叶残差通道注意力块 (FRCAB) 逐层优化融合特征,并结合由频率分解边缘感知块 (FEB) 提供的精细边缘特征,最终生成高质量的显著性图。整个模型训练由空间域损失和频率域的共聚焦频率损失 (CFL) 共同监督。

DFENet整体框架图
步骤分解:
-
双流编码器 (Dual-stream Encoder) :使用两个并行的CDFFormer-m网络,分别处理RGB和热红外输入,生成四层特征金字塔 {ri}4i=1 和 {ti}4i=1。
-
模态协同感知注意力 (MPA) :该模块是实现高效双模态融合的核心。它采用“重嵌入”策略,首先对空间维度进行傅里叶变换,然后在通道维度上再次进行傅里叶变换,从而在空间和通道两个维度上对齐和融合特征,有效捕捉全局依赖关系并整合互补信息。

MPA模块架构图
-
**频率分解边缘感知块 (FEB)**:为了给解码器提供清晰的边缘引导,FEB对编码器的浅层特征进行处理。它通过深度分解特征的频率成分,利用相位增强过程 (PEP) 突显边界,并结合自适应高通滤波器来提取纯净的边缘信息 {ei}3i=1,有效抑制了背景噪声。

EFEB模块架构图
-
解码器与傅里叶残差通道注意力块 (FRCAB) :解码器采用金字塔结构,自顶向下逐步融合多尺度特征。在每个解码层,FRCAB被用来优化特征。该模块受RCAB启发,在频率域进行通道注意力计算,使模型能够优先关注对精细细节至关重要的高频信息,同时自适应地调整通道特征,增强模型的判别力。

FRCAB模块架构图
- 双域学习 (Bi-domain Learning) :
-
频率域:使用创新的共聚焦频率损失 (CFL) 来监督FEB生成的边缘图。它在傅里叶域计算预测边缘与真值边缘之间的距离,并通过引入原始图像的相位信息作为参考,动态地为难以拟合的频率分量分配更高的权重。 其中,权重矩阵
w综合了预测误差和原始模态的频率信息,以聚焦于“硬频率”: -
空间域:使用标准的二元交叉熵损失 (BCE) 和交并比损失 (IoU) 来监督最终的显著性图和中间的边缘图,确保像素级的准确性。
-
4. 即插即用模块作用
【此处分析的核心模块是DFENet整体体现的傅里叶变换思想及其带来的模块,特别是CFL损失函数】
适用场景
- 计算机视觉任务:
-
显著性目标检测 (SOD): 包括RGB-T, RGB-D以及传统的RGB SOD。
-
密集预测任务: 如语义分割、实例分割,特别是需要精确边界和高效全局上下文建模的场景。
-
多模态数据融合: 可用于任何需要融合两种或多种图像模态(如医学影像中的MRI和CT)的任务。
-
- 行业场景:
-
自动驾驶: 在恶劣天气或夜间等低光照条件下,融合RGB和热红外信息以准确识别行人、车辆等。
-
安防监控: 全天候监控,准确识别异常目标。
-
机器人视觉: 增强机器人在复杂环境中的场景感知和目标抓取能力。
-
主要作用
-
替代高成本的Transformer: 提供一种计算和内存效率更高的全局关系建模范式,可作为Transformer中自注意力机制的有效替代方案,尤其适用于处理高分辨率输入。
-
大幅降低计算开销: 利用快速傅里叶变换的线性复杂度,显著降低了模型在处理高分辨率特征图时的计算量和显存占用。
-
增强模型对细节的表达: 通过FRCAB和FEB模块,专门强化高频信息(如边缘、纹理)的学习,有效解决了深度网络中细节信息易丢失的问题。
-
优化困难样本学习: 创新的CFL损失函数从频率域入手,引导模型关注那些难以重建的边缘频率成分,改善了传统空间域损失函数平等对待所有像素的局限性。
总结
DFENet将傅里叶变换从一种数学工具提升为深度学习模型的构建基石,通过在频率域中进行特征融合、细节增强和损失优化,为解决多模态密集预测任务提供了一个既高效又精准的全新范式。
➔➔➔➔点击查看原文,获取本文及其他精选即插即用模块集合
https://mp.weixin.qq.com/s/dd2JS1jZJvTKDErhUmEClQ
更多推荐




所有评论(0)