1. BaseInfo

Title RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundation model
Adress https://arxiv.org/abs/2306.16269
Journal/Time TGRS 2024
Author 北航
Code https://github.com/KyanChen/RSPrompter
Read 250427

2. Creative Q&A

遥感图像的实例分割

  1. SAM 应用于遥感。 SAM 的缺陷:严重依赖于手动提供的先验指导。
    基于 SAM 利用提示学习来生成合适的提示,开发了自动化的遥感图像实例分割方法。
    基于锚点和基于查询的RSPrompter

3. Concrete

在这里插入图片描述
RSPrompter提取VIT backbone的特征,再经过轻量级的特征集合网络输入prompt编码器,经过Prompter后得到prompt embeding和类别,prompt embeding送入mask decoder中得到分割结果。
由四部分组成:

  • 图像编码器(Image Encoder)
  • 多尺度特征增强器(Multi-scale Feature Enhancer)
  • 提示生成器(Prompter)
    • 基于锚点的提示生成器(Anchor-based Prompter)
    • 基于查询的提示生成器(Query-based Prompter)
  • 掩码解码器(Mask Decoder)

3.1. Model

3.1.1. Input

遥感图像

3.1.2. Backbone

ViT

3.1.3. Neck

多尺度特征增强器:
  • 特征聚合网络:提取中间特征进行聚合
  • 特征分割器:将聚合后的特征分割成不同尺度的特征图。
    在这里插入图片描述

3.1.4. Decoder

设计了两种Prompter。

anchor-based prompter

anchor-based prompter的主要框架与Faster R-CNN的结构基本一致。

首先利用基于锚点的区域建议网络(RPN)生成候选对象框。
随后,通过RoI Pooling从位置编码的特征映射中提取每个对象的唯一视觉特征表示。
然后利用这个视觉特征得出三个感知头:语义头、定位头和提示头。语义头的作用是识别特定的对象类别,而定位头负责建立生成的提示表示与目标实例掩码之间的匹配标准,提示头为SAM掩码解码器生成必要的提示嵌入。为了确保生成的提示嵌入与SAM的提示编码器嵌入之间的一致性,利用正弦函数直接生成高频信息,而不是通过网络预测。

综合损失包括RPN内部的对象损失和定位损失、语义头的分类损失、定位头相关的回归损失和SAM解码器的分割损失。
在这里插入图片描述

query-based prompter

query-based prompter的主要框架与DETR的结构基本一致。

使用Transformer编码器提取高层次特征。
生成一组查询(learnable tokens),通过交叉注意力机制与图像特征进行互动。
将查询结果转换成提示嵌入,引导SAM进行分割。

综合损失包括匈牙利匹配损失、语义头的分类损失、和SAM解码器的分割损失。
在这里插入图片描述

3.2. Training

基于 MMDetection
通过了 AMP、DeepSpeed 等训练方式的测试

Name Value
batch size

3.2.1. Resource

3.2.2 Dataset

数据集名称 数据类型及概况 图像数量及相关信息 数据划分情况
WHU 航空图像子集,为不重叠RGB图像 8188张,每张512×512像素,空间分辨率0.0075 - 0.3米 训练集4736张,验证集1036张,测试集2416张
NWPU 光学遥感图像、泛锐化彩色红外图像,为目标检测数据集 共800幅(715幅光学 + 85幅泛锐化彩色红外 ) 80%训练,20%测试
SSDD SAR图像,为船舶检测数据集 1160张,含2540艘船舶实例,分辨率1 - 15米 80%训练,20%测试

3.3. Eval

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.4. Ablation

  1. 图像编码器中不同主干网络的影响:不同图像编码器影响模型推理速度和性能,实验对比SAM采用的不同版本ViT主干网络(base、large、huge )在NWPU数据集上实例分割性能,尺寸增大性能提升。
  2. 特征聚合器中不同多尺度语义特征的影响:研究输入特征聚合器的多尺度特征影响,确定最佳特征层选择以平衡提示生成效率和性能 。
  3. 聚合器中DownCom维度缩减的影响:为构建轻量级特征聚合网络,将不同ViT版本提取特征的通道维度统一缩减至32,性能未大幅下降 。
  4. 聚合器中不同架构设计的影响:实验不同架构(含残差连接、并行特征聚合结构等 )对分割效果影响,含残差连接结构影响最终分割效能。
  5. 提示器中查询数量和提示嵌入数量的影响:提示器为每张图像生成NpN_pNp组提示,每组含KpK_pKp个提示。
  6. 提示器中应用正弦正则化生成提示嵌入的影响:原始SAM提示编码器经傅里叶编码将坐标提示转换为高频嵌入控制掩码解码,提示器生成特征平滑,用正弦函数协调,实验表明正弦变换缺失会使性能指标下降。
  7. 冻结掩码解码器的影响:SAM掩码解码器为轻量级设计,消融实验发现冻结训练会使分割性能显著下降,建议微调下游任务 。
  8. 多尺度监督的影响:ViT生成特征统一尺度,设计简化分割器在解码过程提供多尺度特征图实现多尺度监督,实验验证其对性能提升有效。
  9. 不同知识基础对SAM - seg的影响:在不同预训练知识基础(如ImageNet、ViT - B等 )的模型上进行实验,发现SAM - seg基础模型提供的潜在知识更适合分割任务。
  10. 对SAM - cls性能低下的分析:SAM - cls依赖SAM进行遥感图像实例分割,再依训练和标注分类预测分割结果,性能受限于预分割表现 。
  11. 关于SAM - det的Oracle实验:SAM - det用探测器获取框提示用于掩码提取,实验表明尽管类别和框级分割准确,但掩码分割结果不一致,说明在遥感感知场景中存在显著差异 。
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

4. Reference

@article{chen2024rsprompter,
  title={RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundation model},
  author={Chen, Keyan and Liu, Chenyang and Chen, Hao and Zhang, Haotian and Li, Wenyuan and Zou, Zhengxia and Shi, Zhenwei},
  journal={IEEE Transactions on Geoscience and Remote Sensing},
  year={2024},
  publisher={IEEE}
}

5. Additional

  • 掩码解码器计算问题:SAM 的掩码解码器虽轻量,但输入令牌多,基于提示交互的特性使其处理多实例目标时计算量大,所以建议研究人员针对下游任务对分割头重新配置,以优化计算。
  • RSPrompter - query 的优劣:RSPrompter - query 因监督信息不足收敛慢,但结构简单轻量且性能好,这就为研究人员提出了优化其收敛速度的研究方向。
  • 提示学习方法优势:该提示学习方法在小数据集上泛化性佳,这意味着在数据匮乏的场景下,提示工程设计是基础模型应用的一个可行思路。
Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐