[认知计算] 多模态融合

个人导航

知乎:https://www.zhihu.com/people/byzh_rc

CSDN:https://blog.csdn.net/qq_54636039

注:本文仅对所述内容做了框架性引导,具体细节可查询其余相关资料or源码

参考文章:各方资料

多模态机器学习MMML

MMML: MultiModel Machine Learning

通过整合文本、图像、音频、传感器数据等多种信息模态,让 AI 系统实现更全面认知与决策的技术体系
-> 模拟人类 “视觉 + 听觉 + 触觉” 多感官协同感知的能力

“模态” 是信息的具体存在形式(如图像、语音)
“多模态” 则是多种信息形式的组合(如视频 = 图像 + 音频 + 文本)
-> “多模态机器学习” 是覆盖 “数据处理 - 特征学习 - 模态交互 - 任务落地” 全流程的技术集合

多模态预训练模型(CLIP、BLIP)
生成式 AI(Stable Diffusion、GPT-4V)
自动驾驶多传感器融合系统

多模态机器学习围绕 “如何处理不同模态信息的关系” 展开,包含五大核心任务

1.多模态表示学习(Multimodal Representation)

是所有多模态任务的基础

目标: 将不同模态数据(如图像、文本)映射到统一语义空间,让机器能 “读懂” 跨模态信息的关联

  • 分类:分为联合表示(所有模态映射到同一向量空间)与协同表示(各模态保留独立空间,但通过约束保证相关性)
  • 关键技术:视觉用 ViT 提取图像特征,文本用 BERT/GPT 提取语言特征,再通过注意力机制对齐两者维度(如 CLIP 模型通过对比学习让 “猫的图片” 与 “cat” 的文本向量距离更近)
2.模态转化(Translation)

“信息翻译”,即从一种模态生成另一种模态, 捕捉模态间的语义对应关系

典型场景:

  • 文本生成图像(Stable Diffusion 根据 “宇航员骑自行车” 的文本生成对应画面)
  • 语音转文字(语音识别)
  • 图像生成字幕(视频自动标注)
3.模态对齐(Alignment)

解决 “哪部分视觉信息对应哪部分文本 / 音频信息” 的问题

  • 举例:图文对齐(图像中 “小狗” 的区域与文本 “棕色小狗追蝴蝶” 中的 “小狗” 对应)、视听对齐(视频中 “人物说话的唇形” 与音频中 “对应的语音片段” 同步)
  • 技术手段:显式对齐(人工标注对应关系)、隐式对齐(通过模型自动学习,如 Transformer 的交叉注意力机制)
4.多模态融合(Multimodal Fusion)

通过整合多种模态信息提升模型预测精度与鲁棒性

后文介绍具体细节

5.协同学习(Co-learning)

利用 “数据丰富的模态” 的知识,辅助 “数据稀缺的模态” 的建模,解决多模态数据不平衡问题

举例:

  • 医疗 AI 中,用大量易得的 “CT 影像数据” 辅助训练稀缺的 “基因数据” 模型,提升癌症预测准确率
  • 自动驾驶中,用摄像头的海量视觉数据优化激光雷达的点云分割模型

多模态信息融合Multimodal Fusion

多模态融合(Multimodal Fusion)也称多源信息融合(Multi-source Information Fusion),多传感器融合(Multi-sensor Fusion)

综合来自两个或多个模态的信息以进行预测
-> 解决 “单一模态信息不完整” 的问题

  • 信息补充:拓宽数据覆盖范围(如病历文本补充影像无法体现的 “患者过敏史”)
  • 精度提升:减少单一模态噪声干扰(如语音识别中,嘴部视觉动图补充模糊语音的信息)
  • 鲁棒性增强:某一模态缺失时仍能工作(如自动驾驶摄像头故障后,靠雷达数据临时支撑)

融合方法

根据融合发生在 “数据处理流程中的阶段”,多模态融合可分为三大类

1.早期融合(Early Fusion)—— 数据 / 特征级融合

在模型输入阶段,先将所有模态的原始数据或初步特征合并为 “融合数据 / 特征”,再输入单一模型进行预测

  1. 数据预处理:统一不同模态数据格式(如图像归一化、文本 token 化)
  2. 特征提取:各模态用专属编码器提取特征(图像用 CNN、文本用词嵌入)
  3. 特征合并:通过 “元素相加 / 相乘”“向量拼接”“编码器 - 解码器结构” 等方式整合特征(如将 1×256 的图像特征与 1×64 的问卷特征拼接为 1×320 的融合特征)
  4. 降维优化:融合特征维度较高,需用 PCA(主成分分析)、LDA(线性判别分析)降低计算复杂度

缺点:不同模态数据格式差异大(如图像像素 vs 文本向量),直接融合易引入噪声;单一模态异常(如影像模糊)会影响整体模型性能

适用场景:模态数据相关性强、对实时性要求高的任务,如自动驾驶多传感器原始数据融合、语音识别(声音 + 唇形视觉数据)

2.中期融合(Mid Fusion)—— 特征级融合

各模态先通过独立神经网络提取 “高质量特征”(而非原始数据或初步特征),再将这些特征合并后输入决策层

视觉 CNN 提取人脸表情特征、语音 RNN 分析语调特征、文本 BERT 处理字幕特征,三者融合后判断人物情绪(如 “皱眉 + 低沉语调 + 负面文本”= 悲伤)

缺点:需训练多个特征提取模型,训练成本较高;特征提取器的设计需匹配模态特性(如语音用 RNN、图像用 CNN),技术门槛高

适用场景:对特征质量要求高的任务,如视频内容分析、多模态情感计算、智能安防(人脸 + 步态 + 语音识别)

3.晚期融合(Late Fusion)—— 决策级融合

不同模态数据分别训练独立模型,得到各模态的 “独立预测结果”,再通过规则融合这些结果,得到最终决策

  • 简单规则:最大值结合(取各模型预测概率最高值)、平均值结合(取各模型预测概率的均值)
  • 概率规则:贝叶斯规则结合(基于各模态模型的概率分布计算联合概率)
  • 集成学习:投票法(多数投票、加权投票,如医疗诊断中 “影像模型权重 0.6、病历模型权重 0.4”)

缺点:未利用特征层面的模态关联,信息融合深度浅(如仅结合 “影像模型预测癌症概率 0.8” 与 “病历模型预测概率 0.7”,未分析两者关联);需训练多个模型,实现复杂度高

适用场景:模态数据相对独立、对鲁棒性要求高的任务,如医疗诊断(CT 影像模型 + 病历文本模型 + 基因模型融合决策)、金融风控(交易数据模型 + 用户行为文本模型融合判断欺诈)

4.混合融合(Hybrid Fusion)—— 多阶段融合

结合早期、中期、晚期融合的优势,在模型不同阶段多次融合(主流选择)

“早期特征融合 + 晚期决策融合”—— 部分模态先进行特征级融合(如 CT 影像 + X 光影像融合特征),再与其他模态(如病历文本)的独立模型预测结果进行决策级融合

缺点:模型结构复杂,需设计多阶段优化目标;训练难度高,对算力要求大

适用场景:对精度要求极高的复杂任务,如长时程肺部病灶良恶性预测(CT 影像传统特征 + 深度特征融合,再结合 LSTM 时序分析)、多模态大模型(GPT-4V 的 “视觉特征融合 + 语言模型决策”)

主流模型

1.双流网络架构

两条独立网络流分别处理视觉和文本 / 音频模态,在高层通过注意力机制或全连接层实现融合

  • ViLBERT(视觉 - 语言 BERT):视觉流用 Faster R-CNN 提取图像区域特征,语言流用 BERT 提取文本特征,通过 “协同注意力层” 实现跨模态交互;
  • 自动驾驶多传感器网络:摄像头流用 CNN 处理视觉数据,激光雷达流用 PointNet 处理点云数据,两者特征在融合层拼接后输入决策模型。
2.统一多模态架构

一套架构处理所有模态,将不同模态数据 “标记化” 后,通过统一的 Transformer 编码器处理

模型名称 核心架构 融合方式 能力特点
BLIP ViT(视觉)+ BERT/GPT(语言) 端到端训练,多任务联合优化(图文匹配、图像描述) 基础图文对齐,适用于简单图文任务
BLIP-2 ViT + Q-Former(图文桥接)+ LLM 分阶段融合:先冻结视觉模型,用 Q-Former 将视觉特征转化为 LLM 可理解的 “语言标记” 结合视觉与大语言模型能力,支持复杂图文问答
GPT-4V 高分辨率视觉编码器 + GPT-4 语言模型 深度跨模态注意力:视觉特征直接输入 GPT-4,与文本特征协同建模 处理复杂图文任务(如分析图表、识别图像细节)
Gemini Pro 统一多模态编码器 + 解码器 原生支持 “图像 + 文本 + 语音”,所有模态共享语义空间 跨模态理解与生成(如根据图像生成语音描述)

例题

在这里插入图片描述

在多模态中, 语音, 面部表情, 文本数据是三个不同的模态, 可以采用早期特征融合, 中期特征融合, 晚期决策融合这三种方法

  • 早期特征融合主要是将这三个模态凭借在一起输入同一个网络来学习
  • 中期特征融合先将这三个模态分别进独立的神经网络初步提取成高级特征, 再进行融合后学习
  • 晚期决策融合是将这三个模态分别在各自的网络中作出决策后, 再将决策进行融合得到最终的决策

语音: 时序特征, 有语义关联, 还有强度之分, 可以通过语音传达情绪特征
-> 采用RNN, LSTM, Transformer均可

面部表情: 图像特征, 有位置关联信息, 可以传达显式的愤怒或开心等基本表情
-> 采样卷积CNN, Transformer均可

文本数据: 时序特征, 且前后文关联性较强, 序列长度可长可短, 可以传递细腻的情感
-> 采用RNN, LSTM, Transfo

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐