CVPR 2025 Highlight | 在分布偏移下对目标检测器和多模态大模型进行基准测试

我们的研究发现，尽管大型模型和广泛的预训练数据在分布内（In-Distribution，IID）场景中显著提升了性能，但在OOD场景中，目标检测器和MLLMs仍然存在显著的局限性和改进空间。实验结果表明，在test集上，现有模型的性能显著低于在validation集上的表现，揭示了当前主流视觉模型在处理分布外泛化任务时存在明显的性能退化，难以有效应对OOD场景下的识别挑战。从实验结果中可以进一步观

AITIME论道

1508人浏览 · 2025-06-25 18:32:47

AITIME论道 · 2025-06-25 18:32:47 发布

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看作者讲解回放！

个人信息

作者：李建晟，清华大学硕士生

项目简介

当前的目标检测器在现实世界应用中遇到分布偏移时，性能通常会显著下降。因此，目标检测器的分布外（Out-of-Distribution，OOD）泛化能力越来越受到研究人员的关注。尽管如此，目前仍缺乏一个大规模、全面且具有细粒度注释的数据集和评估基准，用于评估目标检测和定位等复杂任务的OOD泛化能力。为了填补这一空白，我们引入了COUNTS，这是一个具有对象级注释的大规模OOD数据集。COUNTS涵盖了14种自然分布偏移，包含超过22.2万个样本和超过119.6万个标记的边界框。利用COUNTS，我们引入了两个新的基准测试：O(OD)²和OODG。O(OD)²旨在通过在训练数据和测试数据之间利用受控的分布偏移，全面评估目标检测器的OOD泛化能力。而OODG则旨在评估多模态大语言模型（Multimodal Large Language Models，MLLMs）的定位能力的OOD泛化。我们的研究发现，尽管大型模型和广泛的预训练数据在分布内（In-Distribution，IID）场景中显著提升了性能，但在OOD场景中，目标检测器和MLLMs仍然存在显著的局限性和改进空间。在视觉定位任务中，即使是先进的GPT-4o和Gemini-1.5，其准确率也分别仅为56.7%和28.0%。我们希望COUNTS能够促进在分布偏移下保持高性能的稳健目标检测器和MLLMs的开发与评估。

论文链接：

https://arxiv.org/pdf/2504.10158

项目链接：

https://github.com/jiansheng-li/COUNTS_benchmark

Introduction

本研究旨在探讨多模态大模型在目标检测任务中的分布外泛化能力。已有研究表明，在分布内（In-Distribution, ID）与分布外（Out-of-Distribution, OOD）场景中，目标检测模型的性能存在显著差异。然而，我们在前期实验中发现，当前主流的多模态模型在目标检测任务中并未展现出良好的泛化能力。尽管如此，多模态大模型在部分任务中表现出较强的分布外泛化能力，其原因在于该类模型在生成预测时往往倾向于忽略视觉背景中的语义干扰信息，从而具备一定的鲁棒性。基于上述观察，为进一步提升模型在OOD场景下的检测能力，本研究提出构建一个专门面向OOD目标检测任务的数据集，以支持模型在训练阶段更有效地学习具有泛化能力的表征。

Related Works

现有研究在目标检测与多模态大模型方面已有一定探索，主要可以从以下几个维度进行概述。首先，在目标检测任务中，已有多种经典的模型框架作为基线方法使用，包括两阶段检测器如 Faster R-CNN，以及单阶段检测器如 RetinaNet 和 YOLO。此外，近年来也涌现出一批基于 Transformer架构的检测器，如 DINO 和 DERT 等，这些方法在多个下游任务中展现出优异性能。

在评估分布外泛化能力方面，目前较为常用的目标检测数据集主要包括 COCO-C 和 COCO-O。其中，COCO-C 是通过合成方法构造而成，因此其在语义和视觉自然性方面可能存在一定缺陷；而 COCO-O 则尝试在真实图像条件下构建更具挑战性的分布外环境。

另一方面，当前多模态大模型（MLLM）的主流评估基准仍然集中在单一任务上，尤其以视觉问答（Visual Question Answering, VQA）和图像问答（GQA）任务为主。这些评测方法虽然能够反映模型在多模态理解方面的表现，但对于模型在分布偏移（distribution shift）或分布外泛化（OOD generalization）场景下的鲁棒性考察仍较为不足。因此，目前多模态大模型在处理目标检测任务中的分布外泛化问题仍处于探索初期，亟需设计更具挑战性的数据集与评估框架以推动该方向的深入研究。

Details of the COUNTS Dataset

Details of the COUNTS Dataset

本研究提出的 COUNTS 数据集是一个大规模且高质量的目标检测数据集，专为支持多模态大模型在分布外泛化任务中的训练与评估而设计。该数据集涵盖 35 个对象类别与 14 个不同的领域（domains），共计 222,234 张图像，并配有超过 1,196,000 个精确标注的目标边界框（bounding boxes）。与现有的 COCO-C 和 COCO-O 等数据集相比，COUNTS 在数据规模和领域多样性上均具有显著优势，能够更好地满足多模态大模型在分布外目标检测场景中的训练需求。

尽管在图像分类任务中已有研究尝试引入多领域数据集以支持OOD泛化研究，但目前在目标检测领域仍缺乏类似规模和结构设计的数据集。COUNTS 数据集的提出在很大程度上弥补了该空白，不仅适用于多模态模型的预训练与微调，还能够支持多种下游任务的系统性评估。图像示例展示了14个不同领域下的图像分布及其对应的检测标注，充分体现了该数据集在样本多样性与标注密度方面的丰富性，为深入研究多模态大模型在复杂场景下的泛化能力提供了坚实的数据基础。

Benchmarks

本研究构建了系统性的基准评估方案，旨在深入探讨多模态大模型在分布外（Out-of-Distribution, OOD）环境中的泛化能力，具体划分为两个主要任务设定：OOD Object Detection（OODOD）和 OOD Generalization（OODG）。

在 OODOD 任务中，我们将构建的数据集划分为训练集与测试集，分别包含多个具代表性的视觉领域。其中训练集覆盖的领域包括 indoor、mountain、road、snow、sand、tree、painting 和 street；而测试集则选用 sky、occlusion、grass、water、dim 与 handmake 等在视觉特征或背景语义上存在显著分布差异的域。该设定旨在模拟真实场景中模型部署时所面临的分布偏移问题，从而评估多模态大模型在目标检测任务中的泛化表现。

针对 OODG 任务，我们进一步扩展了对多模态大模型分布外泛化能力的评估框架，聚焦于 in-context learning（ICL）场景下的泛化能力研究。由于大多数多模态大模型的预训练数据不透明且不可控，我们选择 ICL 作为评估的主要机制，从而在不干扰模型参数的前提下，通过精心设计的上下文输入探索模型对不同分布变化的响应行为。

我们设计了三个典型的测试场景以全面覆盖模型能力的不同方面：

（1）Visual Grounding：给定一个候选框与多个选项，要求模型识别框中对象；

（2）Recognition and Localization：输入为一张图像与查询目标的自然语言描述，模型需返回目标对应的边界框；

（3）Visual and Semantic Mapping：要求模型区分图中多个框中的对象，并正确生成语义标签。

在上述每个场景中，我们进一步定义了五种分布偏移设定，包括：

（1）Zero-shot Generalization，即模型在完全无上下文学习的情况下进行预测；

（2）I.I.D. ICL，即上下文样本与测试样本来自同一分布；

（3）Covariate Shifts，指上下文与测试样本在图像分布上存在偏移，主要表现为领域转移（domain shift）；

（4）Label Shifts，即上下文与测试样本在类别分布上不一致；

（5）Spurious Correlation Shifts，即上下文中存在伪相关性，而测试集中则被打破。

Experiments and Conclusion

我们在本研究中首先对OOD对象检测（OODOD）任务进行了实验评估。该部分实验主要基于MMDetection平台，分别在独立同分布（I.I.D.）和分布外（OOD）条件下进行性能验证。在设置中，validation集用于模拟I.I.D.环境，test集则代表OOD环境。实验结果表明，在test集上，现有模型的性能显著低于在validation集上的表现，揭示了当前主流视觉模型在处理分布外泛化任务时存在明显的性能退化，难以有效应对OOD场景下的识别挑战。

在进一步探索多模态大模型在OOD场景下的泛化能力（OOD Generalization，简称OODG）时，我们设计了更具挑战性的实验设置。具体而言，我们将目标的bounding box按照尺度划分为small、medium和large三类，并将图像统一resize为48×48像素，以确保多模态模型能够更准确地感知目标的空间尺度，从而提升bounding box的预测精度。在模型选择上，我们引入了五种代表性多模态大模型，分别为GPT-4o、Gemini-1.5-Flash、Gemini-1.5-Pro（附录版本）、GLaMM（zero-shot）和Qwen2-VL（zero-shot，开源版本）。其中，Gemini-1.5-Flash的结果展示于附录，而GLaMM与Qwen2-VL仅参与了有限的zero-shot实验，原因在于我们在In-Context Learning（ICL）测试中观察到这两者几乎不具备ICL能力，推理能力较弱。

从OODG任务的整体结果来看，现有多模态模型在zero-shot条件下的视觉定位表现已趋于成熟，部分模型在分类精度上甚至可达到接近100%的准确率。然而，在object detection任务中，尽管模型能够对目标位置进行一定程度的预测，其平均精度均值（mAP）表现仍较低，普遍存在显著的性能不足。由此我们可以初步得出结论：尽管当前多模态大模型在图文理解与匹配等任务上表现优异，但在处理分布外的object detection任务时，尤其是在zero-shot设置下，仍面临较大的挑战，亟需进一步的建模改进与能力提升。

从实验结果中可以进一步观察到，在涉及协变量偏移的设置下，多模态大模型的性能明显低于在零样本或独立同分布的场景中所达到的水平。具体而言，通过对比实验设置2（I.I.D. in-context learning）与设置3（Covariate Shifts），我们发现后者的性能表现显著劣于前者。这一现象表明，模型在面对输入分布发生偏移的情况下，其对上下文信息的建模与利用能力受到了较大影响。

该结果进一步揭示了一个核心挑战，即多模态大模型在上下文学习过程中，如何有效学习和利用知识仍是一个亟待突破的问题。在I.I.D.环境下，模型应能够充分挖掘类内样本所携带的细节信息，从而实现对图像特征的精确建模。然而，在分布外场景中，模型则需具备更强的选择性能力，能够区分关键信息与噪声，避免受到无关特征的干扰。

此外，不同模型在应对分布偏移时展现出不同的泛化能力。例如，Gemini模型在存在分布偏移的环境下表现出较高的性能波动，说明其对输入分布变化较为敏感；相较之下，GPT-4o展现出了更高的鲁棒性，其在分布外场景中的性能下降幅度较小。这一观察提示我们，在未来的研究中，应将重点聚焦于提升多模态大模型在ICL过程中的鲁棒性与泛化能力，尤其是在处理分布外任务时的适应能力，从而推动模型朝向更具稳定性与实用性的方向发展。

近期精彩活动

ICML 2025预讲会45位讲者相聚｜7大主题方向

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了2000多位海内外讲者，举办了逾800场活动，超1000万人次观看。

我知道你

在看

提出观点，表达想法，欢迎

留言

点击 阅读原文 观看作者讲解回放！

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

TVA凭什么成为”数字AI“通往”物理AI“的关键桥梁（4）

魔珐星云开发社区

分布式具身智能系统平台Embodied Multi-Agent Intelligence-从UGV集群+UAV集群 → 走向空地协同系统Air-Ground Collaborative Autono

🚀几何定精度，距离控漂移，语义做跨域对齐建议：Local Map Frame（各自）Shared Anchor Frame（关键）

魔珐星云开发社区

金融贸易之外，香港能成为具身智能创新策源地吗？

在5月12日的首届香港具身智能产业峰会上，多家参会企业创始人都表示，将香港定为其全球化布局的第一站。那，为什么是香港？可以从四个维度解释：人才、资本、场景以及背靠大湾区的供应链优势。首先，香港在人才和科研上优势明显。QS2026年世界大学排名中，香港有5所高校进入全球百强——香港大学第11名、香港中文大学32名、香港科技大学44名、香港理工大学54名、香港城市大学63名。这种高密度的学术集群全球都