😯 TL;DR UniME提出一个两阶段框架,利用多模态大模型(MLLM)学习通用的多模态嵌入。通过知识蒸馏和困难负样本增强的指令微调,显著提升了嵌入的判别力和组合性。

今日AI论文✈️ https://arxiv.org/pdf/2504.17432

📚 研究背景 现有CLIP等模型在多模态表示学习上存在文本长度限制、编码分离、组合性差等问题。MLLM虽强大,但其自回归特性限制了嵌入学习。需要更有效的框架来学习高质量、可迁移的多模态表示。

🧠 方法与实验 UniME框架包含两个阶段:

1️⃣ 文本判别知识蒸馏:利用强大的LLM嵌入模型 (NV-Embed V2) 作为教师,提升MLLM语言组件的嵌入能力。

2️⃣ 困难负样本增强指令微调:首先过滤掉训练批次中的伪负样本,然后针对每个样本采样多个困难负样本进行对比学习,强化模型的判别力和指令遵循能力。 实验在MMEB基准和多种检索任务 (短/长文本、组合性检索) 上进行。

🔍 关键结果 UniME在各项任务中均取得显著提升: * 在MMEB基准测试中,全面超越E5-V和VLM2Vec等基线模型 (例如,基于LLaVA-1.6时,整体得分提升3.3%)。 * 在零样本短/长文本图文检索和组合性检索任务 (如SugarCrepe) 上表现优异,展示了更强的判别能力和组合理解能力。

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐