ICML2025(Oral) | AffectGPT:面向多模态大型语言模型情感理解的新数据集、模型与基准测试
摘要:本文提出AffectGPT,一个针对多模态大语言模型(MLLMs)情感理解的新数据集、模型和基准。通过"模型主导、人工辅助"的众包策略构建了当前最大规模的描述性情感数据集MER-Caption(11.5万样本,2000+细粒度类别)。AffectGPT模型创新性地引入预融合操作(Q-Former或注意力机制)增强多模态信息融合。提出的MER-UniBench基准包含细粒度
| 标题 | AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models |
|---|---|
| 作者 | Zheng Lian 1 Haoyu Chen 2 Lan Chen 1 Haiyang Sun 3 Licai Sun 2 Yong Ren 1 Zebang Cheng 4 Bin Liu 1 Rui Liu 5 Xiaojiang Peng 6 Jiangyan Yi 7 Jianhua Tao 7 8 |
| 机构 | 1Institute of Automation, Chinese Academy of Sciences 2CMVS, University of Oulu 3Shanghai Jiao Tong University 4Shenzhen University 5Inner Mongolia University 6Shenzhen Technology University 7Department of Automation, Tsinghua University 8Beijing National Research Center for Information Science and Technology, Tsinghua University. |
| 邮箱 | Zheng Lian lianzheng2016@ia.ac.cn, Jianhua Tao jhtao@tsinghua.edu.cn |
| 论文 | https://arxiv.org/html/2501.16566v2 |
【注意】由于文本格式问题,此文章没有具体公式显示,完整版详细文章内容以及更多论文分享请关注公众号:ASEpochs
摘要
多模态大型语言模型(MLLMs)的出现,将多模态情感识别(MER)推向了新高度 —— 从简单的判别式任务,发展为具备先进视频理解能力与自然语言描述功能的复杂情感理解任务。然而,当前研究领域面临两大问题:一是缺乏带有丰富描述性情感标注的大规模数据集,二是缺少以多模态为核心的框架,难以充分发挥多模态大型语言模型在情感理解方面的潜力。为解决这些问题,本文构建了一个基于多模态大型语言模型的情感理解新基准,其中包含一个全新数据集(MER-Caption)和一个新模型(AffectGPT)。通过基于模型的众包数据收集策略,我们构建了目前规模最大的描述性情感数据集,涵盖 11.5 万个样本,包含 2000 多个细粒度情感类别。同时,我们提出 AffectGPT 模型,该模型通过预融合操作增强多模态信息的融合效果。最后,我们设计了 MER-UniBench 统一基准测试平台,针对典型的多模态情感识别任务以及多模态大型语言模型的自由形式自然语言输出特点,定制了相应的评估指标。大量实验结果表明,AffectGPT 在各类多模态情感识别任务中均表现出优异性能。
1. 引言
情感蕴含着人类的意图,准确识别情感状态对于提升人机交互质量至关重要(Minsky,1988)。情感可通过人类多种行为方式传递(Chen 等,2023;Pfister 等,2011),由此催生了多模态情感识别(MER)任务。该任务整合多模态信息,用于判断人类的情感状态。作为人工智能领域的关键方向,多模态情感识别具有广泛应用,涵盖教育领域(Schutz,2007)、心理咨询领域(Liu 等,2021a)以及共情型实体机器人领域(Spezialetti 等,2020)。
传统方法主要依赖判别式模型,将人类情感映射到预定义情感分类体系中最可能的类别。目前应用最广泛的分类体系是埃克曼理论(Ekman & Keltner,1970),该理论将所有情感划分为六大基本类别:悲伤、愉悦、恐惧、愤怒、惊讶和厌恶。然而,这类分类框架在刻画人类情感状态时存在局限性。例如,由于特定文化语境下的表达方式(Matsumoto,2001)、依赖上下文的隐喻(Kövecses,2003)以及高度个性化的行为模式(Izard 等,1993),人类的情感表达呈现出多样性与细微差异性。当前的闭集分类范式难以捕捉现实场景中情感表达的丰富多样性(Plutchik,1980)。同时,僵化的情感分类体系通过将离散标签(如愤怒或惊讶)强加于通常共存的细微情感状态上,过度简化了情感体验的连续谱系(Cowen & Keltner,2017)。图 1 展示了相关示例,其中(a)图和(b)图分别体现了情感的多样性与共存性问题。
近年来,多模态大型语言模型(MLLMs)的快速发展,使情感理解突破了传统判别式方法的局限,迈向更具生成性的框架(Liang 等,2024)。这一转变让模型能够以自然语言描述复杂且共存的情感状态。凭借庞大的词汇量,多模态大型语言模型可生成超越基本情感类别的多样化、描述性情感类别,为情感理解领域带来新机遇。然而,近期研究指出,多模态大型语言模型在情感理解方面仍存在不足(Lian 等,2024a;2024d)。为应对这些挑战,本文从数据集与模型两大核心角度出发,致力于推动情感理解技术的发展。最终,我们针对多模态大型语言模型的自由形式自然语言输出特点,构建了一个统一的基准测试平台。
image
1.1 数据集
当前研究领域仍缺乏带有丰富描述性情感标注的大规模数据集,无法充分发挥多模态大型语言模型的潜力。构建描述性情感数据集的标注策略主要分为三类:基于模型的策略、基于人工的策略以及人机协作策略。基于人工的策略是构建带有丰富描述性标注的情感数据集最常用的方法,但这种纯人工标注方式进行众包标注时成本高昂,难以扩大数据集规模。此外,人类标注者往往会聚焦于主要线索,导致标注描述简洁但不够完整(Liu 等,2022a)。因此,研究人员提出了基于模型的自动标注方法。然而,由于缺乏人工校对,这种方法可能导致标签质量不足(Cheng 等,2024)。近期,Lian 等(2024a)提出了一种人机协作策略,先由模型提供预标注线索,再由人类进行多轮检查,这本质上是一种 “人工主导、模型辅助” 的策略。尽管该方法能生成更全面的描述,但成本较高,且难以实现数据集的规模化扩展。为平衡标签质量与数据集规模,本文提出一种新的标注策略 ——“模型主导、人工辅助” 的基于模型的众包标注策略,用于构建包含多样化情感类别的大规模情感描述数据集。
1.2 模型
现有多模态大型语言模型通常由三大核心组件构成:模态编码器(将音频和视频转换为低维隐藏特征)、连接器(将这些特征转换为更适合大型语言模型处理的格式)以及基于大型语言模型的生成器(根据给定指令生成响应)。尽管多模态大型语言模型已取得不错的成果,但现有模型大多将多模态融合的全部任务交由大型语言模型处理,这对于强调多模态特性的多模态情感识别任务而言是不够的。本文提出 AffectGPT 模型,通过设计预融合操作,强化多模态信息的融合效果。
1.3 基准测试平台
尽管以自由形式的自然语言生成情感描述具有显著优势(详见附录 D),但这种方式为定量比较带来了挑战。为此,我们设计了专门适用于此类输出形式的评估指标。此外,为确保评估的公平性与全面性,我们提出 MER-UniBench 基准测试平台,该平台包含三大典型任务:细粒度情感识别、基本情感识别和情感倾向分析。我们相信,本研究能够提升多模态大型语言模型的情感理解能力,为复杂情感建模开辟新可能。
本文的主要贡献如下:
-
构建了大规模情感描述数据集 MER-Caption。该数据集采用 “模型主导、人工辅助” 的标注策略,在标签质量与数据集规模之间取得平衡。
-
研发了 AffectGPT 模型。该模型通过额外的预融合操作增强多模态信息融合效果,进而提升情感理解能力。
-
搭建了 MER-UniBench 基准测试平台。该平台涵盖典型的多模态情感识别任务,并配备定制化评估指标,可为基于多模态大型语言模型的情感理解提供全面的评估结果。
-
大量实验验证了 AffectGPT 的有效性,其性能相较于现有多模态大型语言模型提升了 9% 以上。
2. MER-Caption:数据集构建
表 1 总结了现有情感数据集,这些数据集大致可分为分类式数据集与描述性数据集两类。前者直接提供情感标签(如 “愉悦”),后者则提供与情感相关的文本描述。我们首先通过初步实验从描述性数据集中提取情感标签(详见附录 E)。由表 1 可见,描述性数据集包含更多样化的标签,具备捕捉复杂情感的潜力。因此,本文将研究重点放在描述性数据集上。根据标注方式的不同,描述性数据集可分为基于模型、基于人工和人机协作三种类型(见表 1)。尽管基于模型的方法易于扩大数据集规模,但该方法主要依赖经验选择模型,且缺乏人工干预,导致标签质量不足(Cheng 等,2024)。为提升标签质量,Liu 等(2022a)依靠人工标注者生成情感描述,但人类标注者往往关注主要线索,容易造成描述不完整。为此,Lian 等(2024a)提出 “人工主导、模型辅助” 的策略:先由模型生成预标注描述,再由多名标注者进行多轮检查。尽管该策略能生成更全面的描述,但标注成本高,且难以实现数据集规模化扩展。
image
本文在分析现有标注方法的基础上,提出 “模型主导、人工辅助” 的标注策略。如图 2 所示,我们利用人工先验知识指导描述生成与样本筛选,最终实现对未标注数据的自动标注。通过该策略,我们构建了 MER-Caption 数据集,其中包含 11.5 万个粗标注样本和 3.1 万个精标注样本,为当前描述性数据集领域做出重要贡献。MER-Caption 的原始数据来源于 MER2024 数据集(Lian 等,2024b)的未标注部分,且已获得数据集所有者的明确授权。因此,本文不涉及新数据的采集,仅为现有数据集补充标注信息。附录 H 提供了该数据集与现有数据集的更多对比信息。
image
2.1 描述生成
基础模型的选择对生成准确描述至关重要。与以往仅依赖经验选择模型的研究(Cheng 等,2024)不同,我们利用人工先验知识指导模型选择。具体而言,我们首先选取一小部分样本进行初步实验。在该阶段,我们为每个样本标注细粒度标签,允许标注者标注任何他们认为合适的情感,从而获得更多样化、更精准的标签。根据初步实验结果(详见附录 F),我们选用 SALMONN(Tang 等,2023)作为音频大型语言模型(ALLM)生成音频线索,选用 Chat-UniVi(Jin 等,2024)作为视频大型语言模型(VLLM)提取视觉线索,选用 GPT-3.5(OpenAI,2022)(型号为 “gpt-3.5-turbo-16k-0613”)融合音频、视频线索与文本内容。
随后,为进一步降低标注成本,我们尝试用其他开源大型语言模型替代 GPT-3.5,但发现模型性能有所下降。主要原因在于,多模态情感识别中的多模态融合本质上具有复杂性,经常会出现模态冲突问题(即不同模态之间存在不一致或矛盾,详见附录 G),这对大型语言模型的推理能力提出了较高要求。基于上述策略,我们对数据进行自动标注,构建了 MER-Caption 数据集。
2.2 样本筛选
由于上述过程生成的描述未经人工验证,MER-Caption 中难免存在部分错误样本。为此,我们设计了两级筛选流程,以提升标签质量。
2.2.1 低级筛选
首先,我们发现部分样本存在音视频不匹配问题。如图 2 所示,视频中可见人物未说话,而音频来自画面外的其他人。这种情况与我们的任务目标不符 —— 我们的任务是基于一个人的音频、视频和文本内容分析其情感状态。音视频不匹配的数据会使任务复杂度增加,将研究重点转移到分析对话者行为对目标人物情感的影响上。因此,我们剔除了这类数据,并计划在未来研究中解决这一问题。
为自动判断视频中可见人物是否在说话,我们采用 TalkNet 工具(Tao 等,2021)。初步实验表明,该工具识别说话人的准确率超过 90%。借助该工具,我们剔除了音视频不匹配的样本。其次,生成描述的长度分布大致符合高斯分布(见图 2)。初步实验发现,分布两端的描述更可能存在错误。例如,当音频大型语言模型(ALLM)和视频大型语言模型(VLLM)(见 2.1 节)未能生成有效响应时,生成的描述往往较短。因此,我们进一步剔除了分布两端的描述样本。
2.2.2 高级筛选
除低级筛选外,我们还提出一种基于模型的众包技术用于高级筛选。具体而言,我们利用人工标注的分类式数据集训练多个多模态情感与情感倾向分类器。参考 MERBench(Lian 等,2024c),我们采用 CLIP ViT-L(Radford 等,2021)作为视觉编码器,采用 HUBERT-L(Hsu 等,2021)作为声学编码器,再结合基于注意力机制的融合策略,最终实现情感与情感倾向预测。
随后,我们利用这些预训练模型对未标注数据进行标签预测,为每个样本生成多个预测结果。为降低潜在预测误差,我们采用多数投票法确定最终标签,以确保结果更可靠。我们将这一过程称为 “基于模型的众包”。此外,也可通过附录 E 中所述策略,基于描述内容预测情感与情感倾向。若从描述中提取的标签与基于模型众包得到的标签不一致,则认为这些描述质量较低,予以剔除。通过这一过程,我们能够从多个基于人工标注的数据集提取知识,指导样本筛选。经过多级筛选后,我们得到 MER-Caption + 数据集。表 1 详细对比了本文数据集与现有数据集,可见本文数据集是目前规模最大、情感类别最丰富的多模态情感描述数据集。
3. AffectGPT:模型设计
本文的核心目标是将音视频 - 文本输入映射为与情感相关的描述。在本节中,我们首先回顾当前主流的模型架构,然后介绍专门为突出情感理解中多模态特性而设计的 AffectGPT 模型。
3.1 主流架构
多模态大型语言模型(MLLM)旨在理解多模态输入,并根据输入内容和用户指令生成相应响应。与纯文本大型语言模型不同,多模态大型语言模型面临的核心挑战是让模型能够感知多模态输入,即赋予模型 “视觉” 和 “听觉” 能力。在现有模型中,最常用的方法是先提取特定模态的嵌入特征,再通过投影层将其与大型语言模型对齐。对于音视频联合任务,音视频大型语言模型(AV-LLMs)通常在语言模型内部实现跨模态交互。图 3 展示了当前主流的模型架构。
image
形式上,对于每个样本,我们将其视频、音频和文本内容分别表示为、和。给定指令,模型的目标是输出正确的响应。对于视觉输入,我们利用视频专家网络将其编码到 latent 空间,再通过投影器生成视觉 tokens 。同理,对于声学输入,我们利用音频专家网络和投影器分别生成声学嵌入特征和 tokens 。对于指令和文本内容,我们通过模板将二者融合为提示语,再借助语言模型中的分词器和嵌入层将其映射为对应的 tokens。获得所有 tokens 后,我们将其拼接并输入大型语言模型解码器。模型的核心目标是最大化目标响应在多模态内容(、、)和用户指令条件下的概率,公式如下:
上述公式采用自回归方式优化,与大型语言模型的目标函数一致。我们将响应表示为,其中为 tokens 数量。此时,公式(1)可转化为:
$\max \prod_{l=1}^{L_r} P\left(r_l \mid x_v, x_a, x_t, Q, R_{
在该公式中,是待预测的当前 token,$R_{
3.2 预融合操作
主流音视频大型语言模型(AV-LLMs)将所有跨模态交互任务交由大型语言模型处理(见图 3),这对于需突出多模态特性的多模态情感识别(MER)任务而言是不够的。为解决这一问题,我们提出预融合操作,将跨模态交互过程转移到大型语言模型外部,进一步增强多模态信息的融合效果。我们将采用该操作的模型命名为 AffectGPT。本文提出两种预融合操作:基于 Q-Former 的预融合和基于注意力机制的预融合。
默认情况下,我们将预融合操作应用于和(即视频和音频的嵌入特征)。我们也曾尝试将其应用于和(即视频和音频的 tokens),但发现模型性能有所下降。
3.2.1 基于 Q-Former 的预融合
在该模块中,我们保留视觉特征和音频特征中的时序信息,并利用 Q-Former(Li 等,2023b)实现多模态融合。具体而言,为压缩多模态内容,我们首先构建个可学习的查询 tokens 。随后,通过交叉注意力机制将与拼接后的和进行交互,将多模态内容中的知识提炼到查询 tokens 中。形式上,该过程可表示为:
其中,表示沿时序维度拼接后的音视频特征,为融合后的特征,表示位置编码。
3.2.2 基于注意力机制的预融合
与保留时序信息的 Q-Former 不同,我们提出一种更简洁的架构:直接压缩时序信息,并利用注意力机制实现多模态融合。该简化模块的设计灵感来源于 MERBench(Lian 等,2024c)—— 该研究表明,在多模态情感识别任务中,含有时序信息的特征并不总能比压缩后的特征带来更优性能。
形式上,我们首先通过平均池化压缩单模态特征,然后计算注意力权重以突出重要模态,具体公式如下:
其中,、分别为压缩后的音频和视觉特征,为拼接后的特征,为权重矩阵,最终得到的融合特征。 从计算效率来看,预融合操作依赖 Q-Former 或注意力机制,其计算量远低于大型语言模型。理论上,Q-Former 通过将多模态内容提炼到查询 tokens 中实现跨模态交互,而注意力机制则通过根据多模态输入动态计算注意力权重来实现跨模态交互。
4. MER-UniBench:评估基准测试平台
本文提出 MER-UniBench 综合评估基准测试平台,涵盖典型的多模态情感识别(MER)任务。针对多模态大型语言模型(MLLMs)的自由形式自然语言输出特点(详见附录 D),我们还设计了专门的评估指标。更多细节可参考附录 J。
4.1 细粒度情感识别
该任务旨在预测细粒度情感,突破基本情感类别的局限。OV-MERD(Lian 等,2024a)是该任务的典型数据集。为提升评估结果的可靠性,我们扩大了该数据集的规模,将其命名为 OV-MERD+。在评估指标设计上,我们借鉴前期研究(Lian 等,2024a),通过两步计算得到结果:消除同义词影响、采用集合级指标。
首先,我们采用三级分组策略缓解同义词影响:
-
一级分组:将情感词的不同形式映射到其基础形式。例如,将 “happier”(更愉悦)和 “happiness”(愉悦感)映射为 “happy”(愉悦)。该映射函数记为。
-
二级分组:将同义词映射为统一标签。例如,将 “happy”(愉悦)和 “joyful”(快乐)映射为 “happy”(愉悦)。该映射函数记为。
-
三级分组:情感轮盘提供了天然的分组信息,核心情感位于内侧,更细微的标签位于外侧(Plutchik,1980)。由于目前尚无统一的情感轮盘标准,我们采用个情感轮盘(详见附录 K)。对于每个情感轮盘的扇区(),我们将所有外侧标签映射到对应的内侧标签。该映射函数记为。
上述分组函数可汇总为:
每个样本的标签数量是可变的,因此我们定义集合级评估指标。具体而言,假设数据集包含个样本,对于样本,真实标签为,预测标签为,评估指标定义如下:
最终,我们计算不同情感轮盘下的平均结果用于排序。以为例:
其中,表示正确预测的标签数量,表示预测结果是否覆盖所有真实标签,是这两个指标的调和平均数。由于同时考虑准确性和完整性,我们将其作为主要指标,和作为次要指标。预测情感的提取采用附录 E 中所述的策略。
4.2 基本情感识别
该任务是多模态情感识别的核心分支,主要目标是从固定的基本情感集合中选择最可能的标签。本任务选用四个广泛使用的基准数据集:MER2023(Lian 等,2023)、MER2024(Lian 等,2024b)、IEMOCAP(Busso 等,2008)和 MELD(Poria 等,2019)。
然而,多模态大型语言模型的输出包含可变数量的标签,而数据集仅提供一个真实标签,此时传统指标(如准确率)不再适用于性能评估。为此,我们提出 “命中率”(hit rate)这一新指标:当时,命中率为 1;否则为 0。
考虑到是自由形式的输出,而属于基本情感类别,可能会出现(即预测标签不在基本情感集合中)的情况。为此,我们采用映射函数,将指标定义为:
其中,为指示函数。设计该指标的核心思路是:基本情感识别任务通常提供经多数投票确定的标签,这类标签通常具有较高可靠性;而情感描述生成的自由形式输出可能包含多个标签(包括基本情感类别之外的细粒度情感),因此我们通过命中率确保基本标签至少存在于中。 在设计该指标时,我们还探索了评估中潜在错误标签的可能性。但需注意,中与基本标签不同的标签未必是错误的 —— 它们可能代表基本类别未涵盖的细粒度情感。由于基本情感识别任务缺乏细粒度参考标签,目前我们尚未建立适用于此类情况的评估指标,这将是未来的重要研究方向。
4.3 情感倾向分析
该任务比上述两类任务更基础,旨在预测情感倾向(积极、消极或中性)。本任务选用四个基准数据集:CMU-MOSI(Zadeh 等,2017)、CMU-MOSEI(Zadeh 等,2018)、CH-SIMS(Yu 等,2020)和 CH-SIMS v2(Liu 等,2022b)。
这些基准数据集的原始标签为浮点值,范围包括或。我们将小于 0 的分数映射为消极情感,大于 0 的分数映射为积极情感。多模态大型语言模型输出中情感倾向标签的提取采用附录 E 中所述的策略。参考前期研究(Zadeh 等,2017;2018),我们采用准确率(ACC)和加权平均 F 分数(WAF)评估性能。由于标签存在固有不平衡问题,我们将 WAF 作为主要指标,ACC 作为次要指标。
5. 实验结果与讨论
本节将呈现实验结果并进行深入分析,详细的实现细节可参考附录 B。
5.1 主要结果
我们在 MER-UniBench 基准测试平台上对比了 AffectGPT 与其他多模态大型语言模型(MLLMs)的性能。由于本文输入包含音频、视频和文本内容,我们仅选择至少支持音频或视频输入的多模态大型语言模型;对于同时支持音频和视频的模型,我们测试了不同的模态组合。附录 C 提供了模型信息卡。为确保对比公平性,我们使用模型的官方权重,输入相应的多模态内容,要求模型推断情感状态。
表 2 显示,AffectGPT 的性能显著优于现有多模态大型语言模型。这主要源于两个原因:一是当前的指令数据集对多模态情感识别(MER)任务关注不足;二是现有模型将所有多模态融合任务交由大型语言模型处理,难以满足多模态情感识别对有效多模态融合的需求。通过本文提出的新数据集和新模型,我们为提升多模态大型语言模型的情感理解能力提供了一种切实可行的方案。
image
同时,实验发现,对于不同数据集,增加输入模态并不总能提升性能 —— 额外模态可能引入无关信息,干扰情感理解。
5.2 MER-Caption 数据集的有效性
表 3 对比了 MER-Caption 与现有数据集的性能。为确保公平性,我们保持模型架构和实验设置不变,仅改变训练数据。对于通用指令数据集,我们进一步开展筛选实验:移除不含情感相关内容的样本,突出情感相关子集。具体而言,我们使用附录 E 中的提示语从每个 “指令 - 回答” 对中提取情感标签,移除情感输出为空的样本。
image
表 3 显示,MER-Caption 的优异性能证明了当前数据集在多模态情感识别任务中的局限性:一方面,通用指令数据集对情感相关任务关注不足;另一方面,情感描述数据集往往存在规模不足或标注质量不高的问题。因此,本文数据集可作为现有数据集的重要补充。
此外,对于通用指令数据集,筛选操作在 LLaVA 和 VideoChat 数据集上效果较弱。我们推测,在某些场景下,非情感子集的详细描述也可能为情感状态推断提供有价值的线索。
5.3 筛选操作的必要性
表 4 进一步验证了筛选操作的必要性 —— 除 MER-UniBench 的整体结果外,还提供了任务级结果(“E” 代表情感任务,“S” 代表情感倾向任务)。结果显示,与未筛选或仅进行低级筛选的结果相比,两级筛选策略使模型性能得到提升,进一步验证了筛选技术的有效性。这一发现表明,数据集质量与数量同等重要,训练样本数量减少未必会导致性能下降。更多细节可参考附录 M。
image
5.4 模型消融实验:预融合操作的作用
表 5 对比了不同架构,分析了预融合操作对模型性能的影响。结果显示,预融合操作总体上能提升模型性能,这凸显了将跨模态交互作为独立模块的重要性 —— 该设计能更有效地捕捉多模态特性。
image
5.5 输入模态的影响分析
表 6 揭示了不同输入模态对模型性能的影响。“人脸(face)” 与 “帧(frame)” 的区别在于是否使用额外的人脸提取器从视频帧中提取人脸区域。实验观察到一个普遍趋势:多模态输入的性能优于单模态输入。这一结果表明,人类通过多种模态表达情感,融合这些模态信息有助于提升模型性能。
image
此外,人脸输入的性能略优于帧输入,而将两者结合并未带来进一步提升。这说明当前多模态情感识别数据集主要聚焦于人物本身,环境传递的情感信息有限。因此,本文默认采用音频、人脸和文本作为模型输入。
5.6 用户研究
为评估本文提出数据集的质量,我们开展了用户研究。由于 MERR-Fine 和 MERR-Coarse(Cheng 等,2024)与本文数据集存在部分重叠样本,我们随机选取 20 个重叠样本。随后,我们邀请 4 名专业标注者参与实验,为每个样本提供两个描述(分别来自本文数据集和其他对比数据集)。标注者需观看视频并选择更准确的描述。
表 7 显示,本文数据集的描述准确性高于基于模型标注的 MERR-Coarse 和经人工筛选的 MERR-Fine,这验证了本文提出的 “模型主导、人工辅助” 标注策略的有效性。
image
5.7 大型语言模型(LLM)的选择
本文默认采用 Qwen2.5 作为基础大型语言模型。在图 4(a) 中,我们进一步探究了不同大型语言模型对性能的影响。实验结果表明,不同大型语言模型带来的性能差异有限。这一结果验证了 AffectGPT 相较于现有多模态大型语言模型的性能优势,并非源于基础大型语言模型的选择,而是得益于本文提出的情感描述数据集和模型架构。
image
5.8 音频与视频编码器的选择
在图 4(b) 和图 4(c) 中,音频与视频编码器的选择对模型性能影响较小。这表明 AffectGPT 的优异性能主要源于本文提出的高质量大规模数据集和高效框架,而非特定的声学或视觉编码器。
对于音频编码器(图 4(b)),ImageBind 的性能略低于其他音频编码器。这可能是因为其他音频编码器更广泛地应用于音频内容理解任务(如自动语音识别 ASR),而音频内容在情感识别中起着关键作用。同理,对于视频编码器(图 4(c)),CLIP VIT 的性能略优于 EVA CLIP 和 DINOv2,这与传统分类框架的统一基准测试平台 MERBench(Lian 等,2024c)的研究结果一致。这些结果表明,从传统分类框架中获得的经验(如编码器选择),可能同样适用于基于多模态大型语言模型的描述性框架。
5.9 大型语言模型中 LoRA 的作用
表 8 统计了在大型语言模型分支中使用 LoRA(Hu 等,2022)时可训练参数的增量,第一行代表未使用 LoRA 模块的模型。结果显示,与未使用 LoRA 的模型相比,通过 LoRA 微调大型语言模型能提升性能。然而,增加 LoRA 的秩(rank)值并未带来显著的性能提升,反而会增加计算成本。
image
6. 结论
本文从三个方面提升多模态大型语言模型(MLLMs)的情感理解能力:(1)数据集 MER-Caption:采用 “模型主导、人工辅助” 策略,构建了规模大且质量有保障的数据集;(2)模型 AffectGPT:将跨模态交互转移到大型语言模型外部,通过预融合操作增强多模态融合效果;(3)基准测试平台:针对多模态大型语言模型的自由形式自然语言输出特点,提供了全面的定制化评估指标。大量实验验证了本文模型和数据集的有效性。本研究为构建具备情感理解能力的多模态大型语言模型奠定了基础,助力情感人工智能领域的发展。
影响声明
6.1 社会影响
情感在人类交流中起着关键作用,它传递人类的意图和深层思想。正如 Minsky(Minsky,1988)所言:“问题不在于智能机器能否拥有情感,而在于没有情感的机器能否具备智能。” 多模态情感识别(MER)技术的发展可显著提升人机交互体验。
6.2 伦理声明
本文不涉及新数据的采集,原始数据来源于 MER2024 数据集(Lian 等,2024b)的未标注部分,且已获得数据集所有者的授权。标注过程未聘请外部标注者,不存在相关伦理问题。此外,我们对数据集的使用进行了限制,采用 CC BY-NC 4.0 许可协议,要求研究人员负责任地使用该数据集。因此,本文不存在伦理争议。
附录 A 相关研究
本文聚焦于构建数据集与设计模型,以提升多模态大型语言模型(MLLMs)的情感理解能力。本节主要综述这两个方面的相关研究。
A.1 情感数据集
情感数据集是构建多模态情感识别(MER)系统的基础(Wang 等,2022;Chen 等,2023;Liu 等,2021b;Chen 等,2019)。目前多数研究聚焦于构建分类式数据集:先定义基本情感类别,再要求标注者从基本情感中选择最可能的单个标签(Goodfellow 等,2013)或多个标签(Li 等,2017)。然而,情感往往具有多样性(Demszky 等,2020)且可共存(Du 等,2014),分类式数据集难以充分捕捉这些复杂情感。
为解决这一问题,近期研究开始从分类式数据集转向描述性数据集 —— 情感描述具有更高的灵活性,能够以自然语言刻画复杂情感。在构建此类数据集时,Liu 等(2022a)采用基于人工的标注策略,捕捉环境、肢体动作、面部表情等与情感相关的线索。但高昂的标注成本限制了数据集的规模化扩展。随着多模态大型语言模型的发展,Cheng 等(2024)采用成本更低的自动标注方法,利用多模态大型语言模型从音频、面部表情和视觉对象中提取情感相关描述。然而,该方法未对多模态大型语言模型的选择进行预实验,仅依赖经验选择模型,导致标签质量不足。
本文提出一种平衡标签质量与数据集规模的解决方案:利用高质量的人工标注数据集指导描述生成与样本筛选,实现质量可控的自动标注流程,最终构建 MER-Caption 数据集。
A.2 情感模型
情感模型与训练语料密切相关。对于分类式数据集,研究人员通常构建分类器,将人类的多模态信息映射到对应的情感标签。除选择架构(如 CNN、RNN 或 Transformer)外,多数研究聚焦于如何对齐和融合多模态信息。例如,Hazarika 等(2020)引入分解模块,将特征拆分为模态特定特征和模态不变特征;Gu 等(2018)在词级别对齐不同模态,随后学习随时间变化的跨模态交互;Tsai 等(2019)提出利用交叉注意力在 latent 空间对齐特征。近期,Lian 等(2024c)对多种融合与对齐策略进行了公平对比,发现含有时序信息的特征并不总能优于时间压缩后的特征,这表明多模态情感识别可能更适合从全局视角解决。
对于描述性数据集,由于其输出为自然语言形式,模型框架需从传统判别式方法转向生成式方法。随着大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的发展,研究人员开始基于这些模型构建情感模型。例如,Huang 等(2024)以 Vicuna 为语言模型,联合训练情感标签与描述;Xie 等(2024)利用指令感知的 Q-Former 模块,学习输入图像与情感描述之间的映射;Cheng 等(2024)整合不同编码器以理解多模态输入,并采用 LLaMA-2 作为大型语言模型解码器。
然而,现有模型要么仅关注单模态信息(Huang 等,2024;Xie 等,2024),要么将所有跨模态交互交由大型语言模型处理(Cheng 等,2024),难以满足多模态情感识别任务对多模态特性的需求。为此,本文提出 AffectGPT 模型。
附录 B 实现细节
本文对单模态编码器的选择参考了前期研究(Lian 等,2024c),采用 CLIP ViT-L(Radford 等,2021)作为视觉编码器,HUBERT-L(Hsu 等,2021)作为声学编码器。鉴于 Qwen-2.5(Yang 等,2024)的优异性能,我们选择其作为基础大型语言模型。
为确保训练效率,我们仅对大型语言模型中的额外 LoRA 模块、投影器和预融合分支进行微调,同时冻结大型语言模型和单模态编码器的权重(见图 3)。LoRA 模块的秩(rank)默认设为 16,该设置可减少 GPU 内存占用并加快训练速度。此外,初步实验表明,在其他指令数据集上预训练后,再在 MER-Caption 上进行第二阶段训练,并不能提升性能。主要原因在于本文数据集规模较大,而当前指令数据集对多模态情感识别(MER)任务的关注有限。因此,本文实验未采用多阶段训练。
所有模型均基于 PyTorch 实现,训练与推理在 80GB NVIDIA Tesla A100 GPU 上进行。训练过程中,最大 epoch 数设为 60,每个 epoch 包含 5000 次迭代,每次迭代的批量大小(batch size)为 3。为优化所有可训练参数,我们采用 AdamW 优化器,学习率设为 1e-5。更多实现细节可参考开源代码:https://github.com/zeroQiaoba/AffectGPT。
附录 C 多模态大型语言模型(MLLMs)细节
表 9 提供了不同多模态大型语言模型的信息卡,包括参考论文、支持的模态及预训练权重链接。
image
附录 D 多模态大型语言模型输出可视化
图 5 展示了不同多模态大型语言模型(MLLMs)的输出示例。这些输出包含数量不等的情感标签,且情感标签为开放式,不受任何预定义分类体系限制。因此,准确率、F1 分数等传统分类指标不再适用于性能评估。本文针对多模态大型语言模型的自由形式自然语言输出特点,设计了专门的评估指标。
图 5:多模态大型语言模型输出可视化字幕:你们为什么都这么看着我?难道只要是个女人,就一定要和我有关系吗?
-
Chat-UniVi-main:视频中,一名男性面向镜头说话,伴有面部表情和手势。他的肢体语言和表情似乎表明他在试图传递信息或与观众分享想法。场景设置简单,背景无明显细节。仅从视频难以完全判断他的情感状态,这取决于他的话语和行为语境。但从面部表情和肢体动作可推断,他在面对镜头时可能感到激动、富有表现力,甚至略带紧张。视频内容和他的神态引导观众进一步解读他的情感和信息。
-
LLaMA-VID-main:视频中的男性似乎处于困惑或不确定的状态,他四处张望,似乎不知该如何行动。面部表情和肢体动作表明他在努力处理信息或做决定。他所处的实验室环境可能也影响了他的情感状态,暗示他可能在应对困难或复杂的问题。总体而言,仅凭现有信息难以准确判断他的具体情感状态,但可明确他正经历某种程度的困惑或不确定。
-
SALMONN:若无更多语境,难以判断音频中人物的情感状态。但根据现有信息,该人物可能感到沮丧或被误解。他可能觉得自己正被他人评判或审视,进而感到沮丧或愤怒;也可能出于自我保护而表现出防御性或对抗性态度。最终,若无更多信息,无法准确判断音频中人物的情感状态。
-
Video-LLaVA:视频中的男性坐在镜头前讲话,状态放松,双手放在腿上。面部表情平静沉稳,肢体语言表明他在镜头前感到自在。周围环境光线充足,无明显干扰或打断迹象。视频字幕未提供关于人物情感或视频语境的具体信息,但从视觉线索可推断,该男性可能处于积极的情感状态。
-
Video-ChatGPT:视频中,一名男性面向镜头说话,旁边有一名女性注视着他。男性穿着白衬衫、系领带,似乎在与女性交谈。女性的面部表情不清晰,但肢体语言表明她在认真倾听。场景看起来是办公室环境,背景中可见桌子和电脑。未提供男性说话的声学信息。视频字幕显示,男性询问女性是否与他有恋爱关系,女性回应称对他不感兴趣。基于这些视觉和听觉线索,难以判断人物的确切情感状态,但可明确男性正在与女性交谈,且女性在认真倾听。
-
VideoChat2:视频内容似乎与给定字幕无关。建议提供更多细节或语境,以便准确理解并回答问题。
-
SECap:表现出惊讶的情绪。
image
附录 E 标签提取提示语
为从多模态大型语言模型(MLLMs)的输出中提取情感标签,我们采用 Qwen2.5,并使用以下提示语:“请您以情感领域专家的身份开展工作。我们将提供可能与人物情感相关的线索,请根据这些线索识别主要人物的情感状态。不同情感类别请用逗号分隔,仅以列表形式输出可明确识别的情感类别;若未识别出任何情感类别,请输出空列表。”
对于情感倾向分析,我们采用多步预测流程:首先使用上述提示语提取情感标签,再使用以下提示语进行情感倾向判断:“请您以情感领域专家的身份开展工作。我们将提供若干描述人物情感的词汇,请从给定选项 [积极、消极、中性] 中选择最可能的情感倾向。”
附录 F 描述生成策略选择
本节旨在确定最优的描述生成策略。表 10 呈现了初步实验结果:首先评估不同音频大型语言模型(ALLMs)和视频大型语言模型(VLLMs)的性能,然后探究组合这些模型是否能提升性能。具体而言,我们采用 GPT-3.5 融合由音频大型语言模型、视频大型语言模型提取的音视频线索与文本内容。
表 10 显示,这些模型组合的性能总体优于单独使用音频大型语言模型或视频大型语言模型。基于此发现,我们选择 SALMONN 作为音频大型语言模型生成音频线索,Chat-UniVi 作为视频大型语言模型生成视觉线索,GPT-3.5 用于融合音视频与文本线索,最终生成描述内容。
image
需说明的是,本文未采用模型组合结果进行模型选择,而是基于单个模型的性能:对于视频大型语言模型,Chat-UniVi 的性能优于 mPLUG-Owl 和 Video-ChatGPT;对于音频大型语言模型,SALMONN 的性能优于 SECap。因此,我们采用 Chat-UniVi 与 SALMONN 的组合生成描述内容。组合实验的主要目的是验证融合多模态线索可提升性能。未来研究中,我们将进一步开展实验,基于组合结果选择模型(例如,采用 SALMONN 与 Chat-UniVi 的组合生成描述内容)。
附录 G 线索融合提示语
为融合多模态线索,我们采用 GPT-3.5,并使用以下提示语:“请您以情感领域专家的身份开展工作。我们将提供可能与人物情感状态相关的声学和视觉线索,以及视频的原始字幕。请分析哪些部分可用于推断情感状态并解释原因,分析过程中需整合文本、音频和视觉线索。”
即使存在模态冲突(即音频、视频、文本传递的情感不一致,如图 6 所示),GPT-3.5 仍能给出合理响应,这主要得益于其强大的推理能力。
声学线索:音频中,人物说话带有口吃,通常表达紧张、焦虑或不安的情绪。文本内容:“你们为什么都这么看着我?难道只要是个女人,就一定要和我有关系吗?”视觉线索:视频显示一名男性在室内场景中。视频开始时,他眼睛圆睁、嘴巴张开,呈现惊讶的面部表情;后续场景中,他四处张望,似乎在向周围人解释或叙述某事。总体而言,他的情感状态偏向消极。融合后线索:字幕表达了男性对周围人的不满与愤怒。结合视频线索中男性惊讶且消极的面部表情,以及音频线索中口吃的说话方式,可推断该男性在这句话中表达了不满与愤怒的情绪。他可能因周围人的偏见而感到困扰,对这种不公平对待感到不满。
image
附录 H 数据集对比
图 7 对比了各数据集的描述长度分布与每个样本的情感标签数量。可见本文数据集为每个样本提供了更详细的描述和更丰富的情感标签。
image
附录 I 视频时长分布
图 8 呈现了 MER-Caption 数据集的视频时长分布,可见大多数样本的时长在 2-5 秒之间。
image
附录 J MER-UniBench 细节
MER-UniBench 是涵盖多模态情感识别(MER)三大典型任务的综合评估基准测试平台,包括细粒度情感识别、基本情感识别和情感倾向分析。不同任务涉及不同数据集,表 11 提供了这些数据集的统计信息。
本文特意聚焦于单人视频,以排除其他说话人的干扰并降低任务难度。多人多模态情感识别属于另一研究方向,将在未来工作中探讨。
image
J.1 各数据集说明
-
OV-MERD+ :本文新收集的数据集,是前期 OV-MERD(Lian 等,2024a)的扩展版本。与传统数据集从基本情感中选择单一标签不同,OV-MERD 是细粒度情感数据集,允许每个样本包含可变数量的情感标签,且情感类别不受预定义分类体系限制。OV-MERD 最初包含 332 个样本,我们进一步扩大其规模,得到 OV-MERD+。
-
MER2023(Lian 等,2023)与 MER2024(Lian 等,2024b) :中文多模态情感识别研究中广泛使用的数据集,其中 MER2024 是 MER2023 的扩展版本。两个数据集的原始数据均来源于电影和电视剧,采用多种技术分割视频片段,确保每个片段仅含一个人物,且人物的语音内容相对完整。为保证标注质量,研究团队聘请多名标注者,每人从 “担忧、愉悦、中性、愤怒、惊讶、悲伤”6 个候选情感中选择最可能的标签,最终通过多数投票确定标签。
-
IEMOCAP(Busso 等,2008) :应用最广泛的情感数据集之一,包含 5 个会话,每个会话有一名男性和一名女性演员在实验室环境中互动。数据集包含 “愤怒、愉悦、悲伤、中性、兴奋、沮丧、恐惧、惊讶、其他” 等情感标签。参考前期研究(Poria 等,2017),我们选择最后一个会话作为测试集,选用前 4 种情感,并将 “惊讶” 与 “愉悦” 合并为 “愉悦”。
-
MELD(Poria 等,2019) :以文本为核心的 EmotionLines 数据集(Hsu 等,2018)的扩展版本,新增了音频和视频内容。原始数据来源于电视剧《老友记》,包含 7 种情感标签,每个样本被分配到 “愤怒、愉悦、悲伤、中性、厌恶、恐惧、惊讶” 中最可能的一个类别。
-
CMU-MOSI(Zadeh 等,2017)与 CMU-MOSEI(Zadeh 等,2018) :由在线平台收集的评论视频组成,其中 CMU-MOSEI 是 CMU-MOSI 的扩展版本,样本数量更多且主题范围更广。两个数据集的每个样本均标注有情感强度分数,范围为 [-3, +3],其中 - 3 代表极度消极情感,+3 代表极度积极情感。
-
CH-SIMS(Yu 等,2020)与 CH-SIMS v2(Liu 等,2022b) :与以英语为核心的 CMU-MOSI 和 CMU-MOSEI 不同,这两个数据集聚焦于中国文化背景下的情感。原始数据来源于电影、电视剧和节目,同样标注情感强度,但范围为 [-1, 1],其中 - 1 代表极度消极情感,+1 代表极度积极情感。
附录 K 情感轮盘
由于目前尚无统一的情感轮盘定义,本文参考前期研究(Lian 等,2024a),采用 5 个情感轮盘。
image
附录 L 主要结果详情
表 12 呈现了完整的实验结果,包含每个数据集的多项指标,主要指标以灰色突出显示。最后一列报告主要指标的平均值,这些结果验证了 AffectGPT 在多模态情感理解中的有效性。
image
附录 M MER-Caption 数据集消融实验
表 13 对比了不同数据集的性能。为确保公平性,我们保持模型架构和实验设置不变,仅改变训练数据集。表 13 的实验结果验证了 MER-Caption 数据集在情感理解中的有效性,该数据集解决了现有数据集对情感任务关注不足或缺乏高质量情感描述的问题。
image
附录 N 视频分支中采样帧数的影响
本文默认每个视频采样 8 帧。但采样帧数的变化是否会显著影响性能?为回答这一问题,本节开展额外实验:对比 “仅人脸” 和 “人脸 + 文本” 两种输入类型,评估采样帧数在 2-64 范围内变化时的模型性能。
图 10 显示,采样帧数过少(如少于 2 帧)会导致性能明显下降,表明帧数不足会造成信息丢失;但进一步增加采样帧数(如超过 16 帧)并不会带来显著的性能提升。这是因为多模态情感识别任务通常使用短时视频,且视频中人物的面部表情相对稳定。
【注意】由于文本格式问题,此文章没有具体公式显示,完整版详细文章内容以及更多论文分享请关注公众号:ASEpochs
更多推荐


所有评论(0)