Qwen3-VL-Embedding and Qwen3-VL-Reranker: A Unified Framework for State-of-the-Art Multimodal Retrieval and Ranking


论文地址:https://www.arxiv.org/abs/2601.04720

项目页面:https://github.com/QwenLM/Qwen3-VL-Embedding

进 Q 学术交流群:922230617 或加 CV_EDPJ 进 W 交流群


目录

1. 引言

2. 模型

3. 数据

3.1 数据集格式

3.2 数据合成

3.3 正样本优化与难负样本挖掘

4. 训练策略

4.1 三阶段训练

4.2 实现细节

5. 训练目标

5.1 嵌入模型的损失函数

5.2 重排模型的损失函数

6. 评估

7. 分析


1. 引言

现代数字生态系统中充斥着图像、文本、信息图、截图和视频等多样数据模态,这要求检索系统能够跨模态理解和匹配语义概念。多模态搜索已成为从电商产品发现到科学文献探索等应用的关键能力。

在多模态检索架构中,嵌入模型(Embedding)重排模型(Reranker)是两个核心模块。CLIP 等工作证明了通过大规模图像-文本对比学习可以产生强大的对齐表示。随着 Qwen-VL、GPT-4o 等基础模型的发展,基于视觉语言模型训练统一的多模态嵌入模型成为趋势,具有跨模态对齐、捕捉细粒度交互、处理复杂多模态文档以及继承多语言/多领域知识等优势。

(2025|阿里,增强的位置编码/交错式 MRoPE,DeepStack 跨层融合,显式视频时间戳)Qwen3-VL 技术报告

本文介绍了基于 Qwen3-VL 基础模型构建的最新系列模型:Qwen3-VL-Embedding 和 Qwen3-VL-Reranker

  • 两者共同构成了一个高精度多模态检索的端到端流水线,能够将文本、图像、文档图像和视频等多种模态映射到一个统一的表示空间中。
  • Qwen3-VL-Embedding 采用从大规模对比预训练到重排模型蒸馏的多阶段训练范式,生成语义丰富的高维向量。它支持嵌套表示学习(Matryoshka Representation Learning),允许灵活的嵌入维度,并能处理高达 32k token 的输入。
  • Qwen3-VL-Reranker 采用交叉编码器架构和交叉注意力机制,对查询-文档对进行细粒度相关性评估。

【注:既然提到了多模态检索了,那必然能适配到检索增强生成(RAG)

图 1:统一多模态表征空间示意图。 

  • Qwen3-VL-Embedding 模型系列将多源数据(文本、图像、视觉文档及视频)映射至一个共同的表征流形(representation manifold)。
  • 通过对齐跨模态的语义概念(例如文本 “城市建筑” 与其对应图像),该模型实现了对复杂视觉与文本信息的整体理解。

两个系列均继承了 Qwen3-VL 的多语言能力,支持超过 30 种语言,并发布 2B 和 8B 参数版本以满足不同部署需求。

实验评估表明,Qwen3-VL-Embedding 系列在各类多模态嵌入基准测试中取得了领先成果。

2. 模型

Qwen3-VL-Embedding 和 Qwen3-VL-Reranker 旨在对多模态实例进行任务感知的相关性判断。

两者均基于 Qwen3-VL 主干网络构建,使用因果注意力。在大规模多模态、多任务相关性数据上训练后,它们保留了主干网络的世界知识、多模态感知和指令遵循能力,并额外获得了相关性评估能力。

模型类型 规模 层数 序列长度 嵌入维度 量化支持 MRL 支持 指令感知
Qwen3-VL-Embedding 2B/8B 28/36 32K 2048/4096
Qwen3-VL-Reranker 2B/8B 28/36 32K - - -

本文训练了 2B 和 8B 两种规模(如上表所示)。

嵌入模型(embedding model)为多模态输入提取任务感知的密集向量。

  • 输入遵循 Qwen3-VL 上下文结构,指令作为系统消息传入,默认指令为 “Represent the user‘s input”。
  • 待表示的多模态实例(instance)作为用户(user)消息传入,可以是文本、图像、视频或其组合。
  • 最后在输入后附加一个 "PAD" token (<|endoftext|>),并将该 token 对应的最后一个隐藏状态用作实例的密集(dense)向量表示。

重排模型(reranking model)采用逐点排序方法,根据指令提供的相关性定义评估一对多模态实例之间的相关性。

  • 输入同样遵循 Qwen3-VL 上下文结构,相关性定义指令(relevance-defining instruction)和待评估的多模态实例对(the pair of multimodal instances)均作为用户(user)消息传入。
  • 最终通过计算模型预测下一个输出 token为 “是” 或 “否” 的概率来得到配对的相关性估计。

3. 数据

为了赋予模型跨越不同模态、任务与领域的通用表征能力,构建了一个大规模数据集。图 3 展示了该数据集中各类别的分布情况。

3.1 数据集格式

为了让模型具备跨模态、任务和领域的通用表示能力,本文构建了一个大规模数据集。数据格式定义为

分别代表:指令(Instruction)查询集合(Queries)文档语料库(Corpus)QC 相关性标签(Relevance Labels)

3.2 数据合成

无论是公开数据还是内部专有数据,在不同模态维度上都存在显著的不均衡性,且在特定场景下表现出明显的稀缺性。为解决这些问题,本文利用数据合成技术构建了一个均衡的训练语料库,以确保对所有模态、任务和领域实现全面且稳健的覆盖。

合成基于一个高质量、多样化的原始图像和视频种子池(Seed Pool)。

  • 收集 大量公开及内部的高质量原始图像和视频数据。

  • 进行 粗粒度过滤,剔除低分辨率、异常比例的数据。

  • 进行 结构精炼,对视频进行场景切割检测,移除静态或损坏片段。

  • 利用 Qwen3-VL-32B 为剩余数据生成细粒度的类别标签。

  • 实施 严格对齐过滤,使用现有的嵌入模型(如 GME)计算图文相似度,剔除置信度低或图文不匹配的样本。

  • 进行 类别重平衡(category-wise rebalancing),确保最终种子池在预设的语义类别上分布均衡,为后续合成打下坚实基础。

基于种子池,利用 Qwen3-VL-32B 为每张图片或每个视频片段合成多种任务的数据。为确保质量,采用两步法:

  • 首先要求模型生成该视觉内容的详细文本描述;
  • 然后基于此描述生成具体的任务数据。

图像任务:

  • 图像分类:查询 = 图像 + 分类指令,文档 = 类别标签。模型需生成正确的类别标签,并提供一个语义相近但错误的 “迷惑性” 负标签。

  • 图像问答:查询 = 图像 + 基于图像的问题,文档 = 答案。模型需生成事实型、推理型、OCR读取型等多种问题,并提供正确答案和一个似是而非的错误答案。

  • 图像检索:查询 = 文本描述,文档 = 图像。模型需生成不同语义层次的描述,从具体物体描述到抽象场景叙述,作为检索查询。

视频任务

  • 视频分类:查询 = 视频 + 分类指令,文档 = 活动/场景/情感类别标签。

  • 视频问答:查询 = 视频 + 问题,文档 = 答案。问题可涉及事实、时序、因果推理等。

  • 视频检索:查询 = 文本描述,文档 = 视频。描述涵盖实体、动作、事件、主题等。

  • 时刻检索:查询 = 文本描述(可含关键帧),文档 = 视频的特定片段。模型需定位出相关时间段,并明确标定一个时间上不重叠的无关片段作为负样本。

在合成任务特定标注前,模型会为每个图像或视频生成描述性标题以提供上下文。

3.3 正样本优化与难负样本挖掘

难负(hard negative)样本在对比表示学习中至关重要。为提高正样本对的质量并筛选出有效的难负例,本文设计了一个自动化的两阶段挖掘流程:

1)召回(recall):使用嵌入模型为所有查询和文档提取表示,并基于余弦相似度为每个查询检索 Top-K 候选文档。

2)相关性过滤

  • 正样本精练:仅保留那些至少有一个正样本文档得分超过阈值的查询。

  • 难负样本选择:对于有效查询,计算其精练后正样本的平均得分 s+。只有得分 s 满足下式的非正样本文档才会被选为难负样本。其中,δ⁻ 是一个微小的安全裕度,用于避免将 "假负例" 纳入其中。

4. 训练策略

为了将强大的 Qwen3-VL 基模型和海量多模态数据有效转化为卓越的检索与排序能力,本文设计并实施了一套 “多阶段渐进式” 训练流水线。

该策略的核心思想是:让数据质量和模型能力在迭代中相互促进,逐步从一个具有广泛语义理解的基础模型,精炼为一个精通跨模态相关性判断的专家模型。

注:模型合成数据,数据训练模型。通俗点说,就是左脚踩右脚上天。

当然,本研究在训练时有注入新的外部数据,这是一种常用的数据扩充/增强方法。

此外,还有另一个问题。人不能想象出自己未见过的事物,那么模型可以吗?即使在不断精练后。(这种能力通常被称为 泛化能力。爱因斯坦的相对论和各种预言,在我看来不属于这种能力。虽然他 “想象” 出来了他未见过的事物,但是这是基于已有知识的推理,还是处于他自身所属的领域范畴,所以不能称之为泛化。)

一种测试方法是,封闭模型和训练数据(与模型知识处于相同领域),然后使用上述的迭代方法不断精练,看最后模型具有什么样的能力。

(2024|ICLR,MAD,真实数据与合成数据,自吞噬循环)自消耗生成模型变得疯狂​​​​​​

上文指出,仅使用合成数据对 图像生成模型 进行迭代训练,会导致模型的性能退化,例如,生成的质量和多样性下降。

那么按照上述方法,仅使用合成数据对大模型和 agent 进行迭代训练,又会有什么样的结果?生成和推理能力是否会退化?

另一方面,上文也没有指出退化的原因。直觉上,多轮训练,即使不提升能力,起码能够保持应有的水准吧(当然,过拟合可能是一个原因)。那么,大模型和 agent 经过多轮迭代训练,假如能力无法提升,是否还能保持应有的水准?】

4.1 三阶段训练

本文采用多阶段训练流水线,来缓解弱 高质量标注数据稀缺与弱监督/合成数据丰富之间的不平衡 问题,并通过“模型提升 → 数据提纯 → 模型再提升” 的迭代循环实现性能突破。

阶段 1:对比预训练

  • 在大规模多模态、多任务合成数据上对嵌入模型进行对比学习,使用 InfoNCE 损失,得到初始版本的嵌入模型 Qwen3-VL-Embedding: s0
  • 它具备了初步的多模态对齐能力,为下一阶段更高质量的数据挖掘(data mining)提供了基础工具。

阶段 2:多任务对比学习与监督微调

  • 结合精选的公共数据集、内部数据和采样的合成数据,使用改进后的嵌入模型(s0)进行数据挖掘以保障质量,然后进行多任务对比学习,得到嵌入模型 Qwen3-VL-Embedding: s1
  • 同时,在新挖掘数据中检索特定(retrieval-specific)子集(如图文检索、视频检索、时刻检索),训练重排模型 Qwen3-VL-Reranker。该模型直接学习判断 “是/否” 相关性,在精排任务上开始展现优势。
  • 此阶段实现了 模型与数据的第一次协同进化。更好的 s0 模型产生了更干净的数据,进而训练出更强的 s1 模型和首个重排专家。

阶段 3:蒸馏与模型合并

  • 从训练好的重排模型中蒸馏相关性判别知识来增强嵌入模型,得到 Qwen3-VL-Embedding: s2
  • 由于 s2 在检索任务上提升但在分类 / QA 任务上略有下降,本文将其与 s1 合并,得到最终模型 Qwen3-VL-Embedding: s3,在所有评估任务上达到最优且平衡的性能。

4.2 实现细节

采用低秩适配(LoRA)进行训练,模型参数从 Qwen3-VL-Instruct 初始化。这带来了三大好处:

  • 大幅降低显存消耗,允许使用更大的批次大小,提升训练稳定性。

  • 有利于模型泛化,减少过拟合风险。

  • 使最终的模型合并操作变得非常高效和稳定,这是实现阶段三成功融合的关键前提。

支持动态分辨率和帧率:图像最大 token 消耗为 1,280;视频采样 1 FPS,最多 64 帧,所有帧总 token 预算为 4,500。

5. 训练目标

5.1 嵌入模型的损失函数

本文针对不同类型数据使用不同的损失函数:

1)检索数据:在 训练的第一阶段,使用 改进的 InfoNCE 损失

其中,Z_i 不仅包含正样本 d_i 和难负样本的相似度,还引入了 batch 内负样本:其他查询 q_j​、其他文档 d_j​(分别与当前查询 q_i ​或正样本 d_i ​对比)。这种设计能更充分地利用批次数据,提供更丰富的对比信号。s 表示相似度函数,例如,余弦相似度。

为避免将语义上实际相关但未被标注的文档误判为负样本(即 “假负例”)而对训练产生干扰,本文引入了掩码因子 m_ij​。如果某个 batch 内文档与查询的相似度高于当前正样本相似度一个安全边际(如 +0.1),则该样本很可能是一个假负例,会将其从负样本中掩去(m_ij ​= 0),从而提升训练稳定性。

训练的第二阶段,当使用更高质量的数据时,移除了查询-查询(q,q)和文档-文档(d,d)的对比项(上式 Z 的第 3 和第 4 项)。经验表明,这种简化后的目标函数能使模型在高质量多模态检索数据上收敛到更好的性能,更专注于学习查询与文档之间的直接关联。

2)分类数据

  • 将分类任务视为对比学习,查询为待分类实例,正样本为其类别标签,负样本仅限于同一查询的显式错误标签。
  • batch 中其他实例的标签不会被用作当前查询的负样本,以此避免引入潜在的假负例(例如,“狗” 的图片与 “猫” 的文本标签在语义上并非完全不相关)。

3)语义文本相似性(Semantic Textual Similarity)数据:该任务(如判断两个句子的语义相似度)的监督信号是连续的分值(如 0 到 5),而非二元的 “相关/不相关”。为了利用这种细粒度的排序信息,采用 CoSent 损失

该损失鼓励模型输出的余弦相似度 cos⁡(q,d) 的排序,与真实相似度分数 ^s(q,d) 的排序保持一致。这使得模型能学习更精细的语义差异程度。

4)蒸馏数据:在 训练的第三阶段,利用强大的 Qwen3-VL-Reranker 作为 “教师”,对嵌入模型进行知识蒸馏,以提升其判别能力。具体步骤:

  • 从数据中采样一个高质量子集。

  • 使用教师重排模型为每个查询 q 计算其与一个正样本和 K 个负样本的精细相关性分数,并转换为概率分布 P_reranker​(d∣q)。

  • 训练学生嵌入模型,使其基于余弦相似度计算出的概率分布 P_embedding​(d∣q) 尽可能接近教师模型的分布。

损失函数为标准交叉熵:

高效推理的辅助技术:在实际部署中,嵌入模型需要为海量文档库生成并存储向量。因此,存储开销 和 检索速度 至关重要。本文在训练目标中集成了两项技术来直接优化这两点。

1)嵌套表示学习(Matryoshka Representation Learning,MRL)

  • 在训练计算上述所有损失时,不仅使用完整的嵌入向量(如 2048 维)计算一次损失,还同时使用该向量的 多个低维前缀(如取前 1024 维、前 512 维……)分别计算损失,并将这些损失加权求和。

  • 这使得模型学会生成一种 “嵌套结构” 的表示:最重要的语义信息编码在前几个维度中。因此,即使截断到低维,性能下降也微乎其微,实现了存储、计算成本与检索精度之间的灵活权衡。

2)量化感知训练

  • 在训练的前向传播中,不仅计算全精度嵌入下的损失,还模拟推理时的量化过程:将嵌入向量量化到目标精度(如 INT8),再反量化回浮点数,并用这个量化-反量化后的向量计算另一份损失。两部分损失共同指导模型更新。

  • 该方法采用 可学习步长量化 技术。将量化过程中的缩放因子作为一个可训练参数,与模型权重一同通过反向传播优化。同时,使用 直通估计器(Straight-Through Estimator)绕过量化操作的不可导性,实现端到端训练。

  • 该方法使模型学会生成对量化噪声鲁棒的嵌入。在部署时,可以直接使用低精度(INT8)嵌入建立索引,存储空间减少 75%,同时检索速度提升,且精度损失几乎可以忽略。

5.2 重排模型的损失函数

重排任务被形式化为一个二分类问题。给定一个查询-文档对,模型需要判断其是否相关。

损失函数:使用标准的负对数似然损失,鼓励模型为相关对赋予高概率 “yes”,为不相关对赋予高概率 “no”:

其中 I 是任务指令。

推理得分:在推理时,不直接取 “yes” 的概率,而是计算一个更稳定的分数:

这个分数能更好地反映模型对相关性的置信度。

6. 评估

多模态基准测试:在  MMEB-v2基准测试中,Qwen3-VL-Embedding-8B 取得了 77.8 的平均分,比之前最好的开源模型提升了 6.7%,在图像、视频、视觉文档三个领域均表现出色。

视觉文档基准测试:在 JinaVDR和ViDoRe-v3 等最新视觉文档检索基准上,本文的嵌入模型性能与计算成本高得多的 ColPali 类模型相当,而重排模型则大幅超过同等参数规模的 ColPali 模型。

纯文本评估:在 MTEB 多语言文本嵌入基准上,Qwen3-VL-Embedding-8B 取得了 67.9 的平均任务得分,与同类纯文本嵌入模型性能相当。

重排模型评估:在 MMEB-v2、MMTEB 等多种重排任务上,Qwen3-VL-Reranker 模型均一致优于基础嵌入模型和基线重排器,其中 8B 版本在多数任务中表现最佳。

7. 分析

嵌套表示学习与嵌入量化的有效性:在文本检索(MSMARCO)和图文检索(VL3-Syn)任务上的实验表明:

  • 降低嵌入维度会带来性能下降,但在合理范围内,鉴于存储和检索速度的大幅提升,这种下降是可接受的。
  • int8 量化能几乎无损地保持性能,而二值量化则对检索效果有显著损害,且维度越低损害越明显。

空间与时间粒度的影响:实验表明,模型性能随着视觉资源(图像 token 数、视频帧数、总 token 预算)消耗的增加而提升,但存在明显的收益递减效应,在消耗最高时甚至出现轻微性能下降,可能与处理过长上下文时的性能下降有关。

各训练阶段的性能:

  • 多阶段训练产生了四个嵌入模型。
  • 蒸馏重排模型知识显著提升了嵌入模型在检索导向任务上的性能。
  • 虽然在此过程中其他任务类别略有下降,但最终的模型合并阶段成功调和了这些权衡,在所有基准上取得了稳健且优越的整体性能。
Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐