[认知计算] 多模态融合

多模态融合

静影ˇ屠苏

989人浏览 · 2025-12-09 12:27:47

静影ˇ屠苏 · 2025-12-09 12:27:47 发布

[认知计算] 多模态融合

个人导航

知乎：https://www.zhihu.com/people/byzh_rc

CSDN：https://blog.csdn.net/qq_54636039

注：本文仅对所述内容做了框架性引导，具体细节可查询其余相关资料or源码

参考文章：各方资料

多模态机器学习MMML

MMML: MultiModel Machine Learning

通过整合文本、图像、音频、传感器数据等多种信息模态，让 AI 系统实现更全面认知与决策的技术体系
-> 模拟人类 “视觉 + 听觉 + 触觉” 多感官协同感知的能力

“模态” 是信息的具体存在形式（如图像、语音）
“多模态” 则是多种信息形式的组合（如视频 = 图像 + 音频 + 文本）
-> “多模态机器学习” 是覆盖 “数据处理 - 特征学习 - 模态交互 - 任务落地” 全流程的技术集合

多模态预训练模型（CLIP、BLIP）
生成式 AI（Stable Diffusion、GPT-4V）
自动驾驶多传感器融合系统

多模态机器学习围绕 “如何处理不同模态信息的关系” 展开，包含五大核心任务

1.多模态表示学习(Multimodal Representation)

是所有多模态任务的基础

目标: 将不同模态数据（如图像、文本）映射到统一语义空间，让机器能 “读懂” 跨模态信息的关联

分类：分为联合表示（所有模态映射到同一向量空间）与协同表示（各模态保留独立空间，但通过约束保证相关性）
关键技术：视觉用 ViT 提取图像特征，文本用 BERT/GPT 提取语言特征，再通过注意力机制对齐两者维度（如 CLIP 模型通过对比学习让 “猫的图片” 与 “cat” 的文本向量距离更近）

2.模态转化(Translation)

“信息翻译”，即从一种模态生成另一种模态, 捕捉模态间的语义对应关系

典型场景：

文本生成图像（Stable Diffusion 根据 “宇航员骑自行车” 的文本生成对应画面）
语音转文字（语音识别）
图像生成字幕（视频自动标注）

3.模态对齐(Alignment)

解决 “哪部分视觉信息对应哪部分文本 / 音频信息” 的问题

举例：图文对齐（图像中 “小狗” 的区域与文本 “棕色小狗追蝴蝶” 中的 “小狗” 对应）、视听对齐（视频中 “人物说话的唇形” 与音频中 “对应的语音片段” 同步）
技术手段：显式对齐（人工标注对应关系）、隐式对齐（通过模型自动学习，如 Transformer 的交叉注意力机制）

4.多模态融合(Multimodal Fusion)

通过整合多种模态信息提升模型预测精度与鲁棒性

后文介绍具体细节

5.协同学习(Co-learning)

利用 “数据丰富的模态” 的知识，辅助 “数据稀缺的模态” 的建模，解决多模态数据不平衡问题

举例：

医疗 AI 中，用大量易得的 “CT 影像数据” 辅助训练稀缺的 “基因数据” 模型，提升癌症预测准确率
自动驾驶中，用摄像头的海量视觉数据优化激光雷达的点云分割模型

多模态信息融合Multimodal Fusion

多模态融合(Multimodal Fusion)也称多源信息融合(Multi-source Information Fusion)，多传感器融合(Multi-sensor Fusion)

综合来自两个或多个模态的信息以进行预测
-> 解决 “单一模态信息不完整” 的问题

信息补充：拓宽数据覆盖范围（如病历文本补充影像无法体现的 “患者过敏史”）
精度提升：减少单一模态噪声干扰（如语音识别中，嘴部视觉动图补充模糊语音的信息）
鲁棒性增强：某一模态缺失时仍能工作（如自动驾驶摄像头故障后，靠雷达数据临时支撑）

融合方法

根据融合发生在 “数据处理流程中的阶段”，多模态融合可分为三大类

1.早期融合（Early Fusion）—— 数据 / 特征级融合

在模型输入阶段，先将所有模态的原始数据或初步特征合并为 “融合数据 / 特征”，再输入单一模型进行预测

数据预处理：统一不同模态数据格式（如图像归一化、文本 token 化）
特征提取：各模态用专属编码器提取特征（图像用 CNN、文本用词嵌入）
特征合并：通过 “元素相加 / 相乘”“向量拼接”“编码器 - 解码器结构” 等方式整合特征（如将 1×256 的图像特征与 1×64 的问卷特征拼接为 1×320 的融合特征）
降维优化：融合特征维度较高，需用 PCA（主成分分析）、LDA（线性判别分析）降低计算复杂度

缺点：不同模态数据格式差异大（如图像像素 vs 文本向量），直接融合易引入噪声；单一模态异常（如影像模糊）会影响整体模型性能

适用场景：模态数据相关性强、对实时性要求高的任务，如自动驾驶多传感器原始数据融合、语音识别（声音 + 唇形视觉数据）

2.中期融合（Mid Fusion）—— 特征级融合

各模态先通过独立神经网络提取 “高质量特征”（而非原始数据或初步特征），再将这些特征合并后输入决策层

视觉 CNN 提取人脸表情特征、语音 RNN 分析语调特征、文本 BERT 处理字幕特征，三者融合后判断人物情绪（如 “皱眉 + 低沉语调 + 负面文本”= 悲伤）

缺点：需训练多个特征提取模型，训练成本较高；特征提取器的设计需匹配模态特性（如语音用 RNN、图像用 CNN），技术门槛高

适用场景：对特征质量要求高的任务，如视频内容分析、多模态情感计算、智能安防（人脸 + 步态 + 语音识别）

3.晚期融合（Late Fusion）—— 决策级融合

不同模态数据分别训练独立模型，得到各模态的 “独立预测结果”，再通过规则融合这些结果，得到最终决策

简单规则：最大值结合（取各模型预测概率最高值）、平均值结合（取各模型预测概率的均值）
概率规则：贝叶斯规则结合（基于各模态模型的概率分布计算联合概率）
集成学习：投票法（多数投票、加权投票，如医疗诊断中 “影像模型权重 0.6、病历模型权重 0.4”）

缺点：未利用特征层面的模态关联，信息融合深度浅（如仅结合 “影像模型预测癌症概率 0.8” 与 “病历模型预测概率 0.7”，未分析两者关联）；需训练多个模型，实现复杂度高

适用场景：模态数据相对独立、对鲁棒性要求高的任务，如医疗诊断（CT 影像模型 + 病历文本模型 + 基因模型融合决策）、金融风控（交易数据模型 + 用户行为文本模型融合判断欺诈）

4.混合融合（Hybrid Fusion）—— 多阶段融合

结合早期、中期、晚期融合的优势，在模型不同阶段多次融合(主流选择)

“早期特征融合 + 晚期决策融合”—— 部分模态先进行特征级融合（如 CT 影像 + X 光影像融合特征），再与其他模态（如病历文本）的独立模型预测结果进行决策级融合

缺点：模型结构复杂，需设计多阶段优化目标；训练难度高，对算力要求大

适用场景：对精度要求极高的复杂任务，如长时程肺部病灶良恶性预测（CT 影像传统特征 + 深度特征融合，再结合 LSTM 时序分析）、多模态大模型（GPT-4V 的 “视觉特征融合 + 语言模型决策”）

主流模型

1.双流网络架构

两条独立网络流分别处理视觉和文本 / 音频模态，在高层通过注意力机制或全连接层实现融合

ViLBERT（视觉 - 语言 BERT）：视觉流用 Faster R-CNN 提取图像区域特征，语言流用 BERT 提取文本特征，通过 “协同注意力层” 实现跨模态交互；
自动驾驶多传感器网络：摄像头流用 CNN 处理视觉数据，激光雷达流用 PointNet 处理点云数据，两者特征在融合层拼接后输入决策模型。

2.统一多模态架构

用一套架构处理所有模态，将不同模态数据 “标记化” 后，通过统一的 Transformer 编码器处理

模型名称	核心架构	融合方式	能力特点
BLIP	ViT（视觉）+ BERT/GPT（语言）	端到端训练，多任务联合优化（图文匹配、图像描述）	基础图文对齐，适用于简单图文任务
BLIP-2	ViT + Q-Former（图文桥接）+ LLM	分阶段融合：先冻结视觉模型，用 Q-Former 将视觉特征转化为 LLM 可理解的 “语言标记”	结合视觉与大语言模型能力，支持复杂图文问答
GPT-4V	高分辨率视觉编码器 + GPT-4 语言模型	深度跨模态注意力：视觉特征直接输入 GPT-4，与文本特征协同建模	处理复杂图文任务（如分析图表、识别图像细节）
Gemini Pro	统一多模态编码器 + 解码器	原生支持 “图像 + 文本 + 语音”，所有模态共享语义空间	跨模态理解与生成（如根据图像生成语音描述）