统一多模态Embedding, 通义实验室开源GME系列模型
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。
背景
随着多媒体应用的迅猛发展,用户产生的数据类型日益多样化,不再局限于文本,还包含大量图像、音频和视频等多模态信息。这为信息检索带来了前所未有的挑战与机遇。传统的信息检索模型多关注单一模态,如仅对文本或图像进行分析和搜索。然而,实际应用中,用户的查询往往涉及多种模态的信息。例如,用户可能上传一张图片并附上一段文字说明,期望找到类似的多模态内容。
当前,多模态检索主要依赖于Embedding模型,如文本领域的BGE、GTE、E5,以及跨模态的CLIP模型。这些模型在单模态和跨模态相关性建模方面表现出色,但在复杂场景和组合搜索需求下,往往需要部署多个独立模型,或通过OCR和生成模型将视觉素材转换为文本,再进行检索。这不仅增加了系统的复杂度,还可能导致信息丢失。
GME统一多模态表征
为解决上述问题,通义实验室推出了GME(General MultiModal Embedding)统一多模态表征模型。GME将各种模态的数据整合到一个共享的语义空间中,使不同模态的数据能够直接比对和检索,显著提升了信息检索的效率和精准度。
GME

图1 不同模态数据高维空间统一表征示意图
GME基于Qwen2-VL多模态大语言模型构建,采用对比学习的方法进行训练。每个训练样本包含一个查询、一个相关候选项及多组无关候选项,覆盖文本、图像及图文组合等多种数据类型。通过指令调优,GME能够适应不同的检索任务,比如视觉问答(VQA)等,进一步增强了模型的表征能力。
在训练数据方面,GME不仅利用了丰富的单模态和跨模态数据,还通过大模型生成技术,合成了海量的混合模态相关性数据。这种数据增强策略确保了GME在各种检索场景下的优异表现。

图2 基于MLLM的多模态Embedding模型架构
统一多模态检索评测 (UMRB)
为系统评估模型在多种模态检索场景下的表现,GME作者团队构建了一个统一多模态检索评测数据集,命名为“通用多模态检索基准”(Universal Multimodal Retrieval Benchmark,UMRB)。该Benchmark包含47个评测子集,覆盖广泛的多模态检索任务。这些子集主要来源于之前针对不同子场景或子任务构建的专用数据集。UMRB包括以下几类数据:
1、BEIR评测集[5]: 用于文本到文本的检索场景。
2、M-BEIR数据集: 聚焦于视觉相关的检索场景。
3、混合模态数据集: 涵盖M-BEIR未覆盖的检索任务。
4、文本到视觉文档搜索数据集(如ViDoRe[4]):扩展评测数据的覆盖范围,确保对模型通用性的全面评估。
在UMRB评测中,GME-Qwen2-VL系列模型表现优异。2B和7B规模的GME模型均超越了此前的基线模型,验证了其在单模态、跨模态及混合模态检索任务中的有效性。此外,GME在纯文本检索和富文本图片检索上也展现出强大的能力。在BEIR文本检索评测中,尽管多模态嵌入模型在文本任务上略逊于专门的纯文本模型,但GME在富文本图片检索(如论文PDF、财报等)中,无需经过OCR识别即可直接进行高效检索,取得了显著优势。

表3 UMRB评测结果

表4 ViDoRe LeaderBoard
模型使用方法
GME模型是通义基于多模态预训练大模型构建多模态Embedidng模型进行的初步探索,当前版本还有许多提升空间和技术改进方向。基于Qwen2-VL系列模型训练的General MultiModal Embedding(GME)系列模型现已在ModalScope平台开源,欢迎感兴趣的同学体验、交流和分享。通义实验室将继续致力于多模态信息处理与检索技术的创新与优化,推动信息检索、多模态RAG的发展与应用落地。
模型地址
gme-Qwen2-VL-2B-Instruct
https://modelscope.cn/models/iic/gme-Qwen2-VL-2B-Instruct
gme-Qwen2-VL-7B-Instruct
https://modelscope.cn/models/iic/gme-Qwen2-VL-7B-Instruct
阿里云多模态Embedding模型服务
通义实验室也在阿里云百炼大模型平台上推出推理性能更佳、垂直领域检索效果更优秀的公共云多模态Embedding模型服务multimodal-embedding-v1, multimodal-embedding-v1模型服务提供文本、图片、视频三种模态的表征能力,详情参考阿里云百炼大模型服务平台模型服务:
多模态Embedding模型服务
https://help.aliyun.com/zh/model-studio/developer-reference/multimodal-embedding-api-reference?spm=a2c4g.11186623.0.0.321c1d1cqmoJ5C
最后的最后
感谢你们的阅读和喜欢,作为一位在一线互联网行业奋斗多年的老兵,我深知在这个瞬息万变的技术领域中,持续学习和进步的重要性。
为了帮助更多热爱技术、渴望成长的朋友,我特别整理了一份涵盖大模型领域的宝贵资料集。
这些资料不仅是我多年积累的心血结晶,也是我在行业一线实战经验的总结。
这些学习资料不仅深入浅出,而且非常实用,让大家系统而高效地掌握AI大模型的各个知识点。如果你愿意花时间沉下心来学习,相信它们一定能为你提供实质性的帮助。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
大模型知识脑图
为了成为更好的 AI大模型 开发者,这里为大家提供了总的路线图。它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
经典书籍阅读
阅读AI大模型经典书籍可以帮助读者提高技术水平,开拓视野,掌握核心技术,提高解决问题的能力,同时也可以借鉴他人的经验。对于想要深入学习AI大模型开发的读者来说,阅读经典书籍是非常有必要的。

实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

面试资料
我们学习AI大模型必然是想找到高薪的工作,下面这些面试题都是总结当前最新、最热、最高频的面试题,并且每道题都有详细的答案,面试前刷完这套面试题资料,小小offer,不在话下

640套AI大模型报告合集
这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多推荐




所有评论(0)