李沐强推的方向：多模态预训练！新成果霸榜A会！模型准确率飙升47.7％！

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。这里给大家精心整理了一份全面的AI大模型学习资源，包括：AI大模型全套学习路线图（从入门到实战）、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等，资料免费分享！

Android老皮

946人浏览 · 2024-10-25 10:43:49

Android老皮 · 2024-10-25 10:43:49 发布

前段时间，李沐在上交大演讲谈到，多模态是AI领域的下一个趋势，其中多模态预训练尤其值得关注！

实际上，不仅李沐看好，北大高文院士团队、微软亚洲研究院等也都在争先研究！各大顶会自然也少不了其身影。比如最新公布的NeurIPS24便有多篇成果！其中模型CMG，更是在跨模态事件定位任务中，实现了准确率提升47.7％的拔群效果！

主要在于，其能够利用文本、图像、音频等多种类型的数据模态，在海量无标注的数据上进行预训练。从而既能增强模型对不同类型数据的理解和处理能力，提升性能；又能缓解数据标注难题，提高数据的利用效率。且其在CV、NLP、多媒体处理、金融、医疗、交通等领域，都有着广泛应用。

Achieving Cross Modal Generalization with Multimodal Unified Representation

内容：论文介绍了一个新的任务叫做跨模态泛化，旨在学习从成对的多模态数据中预训练出一个统一的离散表示，以便在下游任务中实现对其他模态的零样本泛化能力。论文提出了一个名为Uni-Code的框架，包含两个关键贡献：双重跨模态信息解耦模块和多模态指数移动平均。这些方法促进了模态间的双向监督，并在共享的离散潜在空间中对齐了语义等价信息，实现了多模态序列的细粒度统一表示。

MAP:Multimodal Uncertainty-Aware Vision-Language Pre-training Model

内容：论文介绍了一个名为MAP（Multimodal Uncertainty-Aware Vision-Language Pre-training Model）的模型，它通过概率分布编码器（PDE）将多模态数据的表示视为概率分布，以捕捉数据中的不确定性。MAP模型结合了序列级和特征级交互，提出了三种基于分布的预训练任务：D-VLC、D-MLM和DITM，以处理大规模未标记数据集中的多模态不确定性。

Pre-trained multimodal large language model enhances dermatological diagnosis using SkinGPT-4

内容：文章介绍了一个基于多模态大型语言模型的交互式皮肤科诊断系统SkinGPT-4。该系统通过结合预训练的视觉变换器和名为Llama-2-13b-chat的大型语言模型，经过两步训练策略，能够在用户上传皮肤照片后自动评估图像，识别皮肤状况的特征和类别，进行深入分析，并提供交互式治疗建议。研究者们通过对150个真实病例的定量评估，展示了SkinGPT-4与董事会认证的皮肤科医生相比具有一致性的准确诊断能力。尽管SkinGPT-4并非医生的替代品，但它增强了用户对自己医疗状况的理解，改善了患者与医生之间的沟通，加快了皮肤科医生的诊断过程，并有可能推进以人为中心的护理和医疗公平，特别是在资源不足的地区。

在这里插入图片描述

Structural Information Guided Multimodal Pre-training for Vehicle-Centric Perception

内容：文章提出了一个名为VehicleMAE的新型车辆中心的预训练框架，它通过结合车辆外形信息中的空间结构和自然语言描述中的语义结构来有效地重建遮蔽的车辆外观。具体来说，该框架明确提取车辆的草图线条作为空间结构的表现形式，并利用基于CLIP大模型的知识蒸馏，通过分析配对/非配对车辆图像-文本样本的相似性，来帮助更好地理解车辆。研究者们构建了一个包含约100万辆车辆图片和12693条文本信息的大规模数据集Autobot1M来预训练模型，并通过在四个基于车辆的下游任务上的广泛实验验证了VehicleMAE的有效性。

BEVBert: Multimodal Map Pre-training for Language-guided Navigation ICCV23

内容：文章介绍了BEVBert，这是一个用于视觉和语言导航（VLN）任务的多模态预训练模型。BEVBert通过构建局部度量地图和全局拓扑地图的混合地图来平衡短期推理和长期规划的需求，并提出了一种新的预训练框架，通过跨模态变换器学习多模态地图表示，增强了空间感知的跨模态推理能力，从而促进了语言引导的导航目标。在四个VLN基准测试中，BEVBert实现了最先进的性能。