CVPR 2024敲门砖丨多模态大模型 + 跨域适配直接拿下顶会

多模态是一种融合文本、图像、音频、视频等异构数据形式进行智能处理的技术范式，通过整合不同感官模态的信息，模仿人类多维度认知世界的方式，旨在构建更完整、准确且贴近真实场景的智能系统。目前，多模态技术已深度渗透至生成式 AI、工业质检、医疗影像诊断、智慧教育等领域，展现出融合创新驱动通用人工智能发展的巨大潜力。

计算机sci论文精选

1237人浏览 · 2025-08-05 16:31:48

计算机sci论文精选 · 2025-08-05 16:31:48 发布

关注gongzhonghao【CVPR顶会精选】

多模态是一种融合文本、图像、音频、视频等异构数据形式进行智能处理的技术范式，通过整合不同感官模态的信息，模仿人类多维度认知世界的方式，旨在构建更完整、准确且贴近真实场景的智能系统。

目前，多模态技术已深度渗透至生成式 AI、工业质检、医疗影像诊断、智慧教育等领域，展现出融合创新驱动通用人工智能发展的巨大潜力。今天小图给大家精选3篇CVPR有多模态方向的论文，请注意查收！

论文一：MoST: Multi-modality Scene Tokenization for Motion Prediction

方法：

文章首先通过预训练的2D图像模型和3D点云模型对场景进行分解，将场景中的地面、代理和开放集对象转化为具有语义和几何信息的“标记”。接着，利用这些标记将多模态信息高效地表示为几百个标记，并将其输入到基于Transformer的运动预测模型中。最后，在Waymo Open Motion Dataset上进行实验，证明了该方法相比现有技术在性能上的显著提升。

创新点：

提出了将视觉世界分解为紧凑的场景元素集合，并利用预训练的图像基础模型和LiDAR神经网络以开放词汇的方式对场景元素进行编码。
增强了Waymo Open Motion Dataset，使其成为一个支持端到端学习研究的大规模多模态数据集。
在多种复杂场景下验证了模型的鲁棒性和准确性，提高了模型的性能。

论文链接：

https://arxiv.org/abs/2404.19531

图灵学术论文辅导

论文二：OVMR: Open-Vocabulary Recognition with Multi-Modal References

方法：

文章首先利用预训练的语言编码器和轻量级的视觉标记生成器，将文本描述和示例图像融合生成多模态分类器。接着，通过在示例图像上验证不同分类器的性能，动态生成融合权重，进一步优化分类器的性能。最后，该方法被灵活地应用于开放词汇分类和检测任务，在多个数据集上验证了其优越性能。

创新点：

提出了一个多模态分类器生成模块，通过动态融合文本描述和图像示例，生成更具鲁棒性的分类器。
引入了一种基于偏好的融合模块，有效缓解了低质量文本或图像示例带来的负面影响。
该方法是一个即插即用的模块，在多种场景和设置下均展现出优异的性能。

论文链接：

https://arxiv.org/abs/2406.04675

图灵学术论文辅导

论文三：Equivariant Multi-Modality Image Fusion

方法：

文章首先构建了一个基于U-Net结构的融合模块U-Fuser，用于从多模态输入中提取和融合信息。接着，通过伪感知模块将融合图像映射回源图像，模拟感知成像过程，并利用等变性先验约束学习过程。最后，通过设计的损失函数优化整个框架，确保融合图像在满足感知一致性和等变性的同时，能够有效地整合源图像的特征。