MultiTalk：好玩的多人对话视频生成AI框架

MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它基于多声道音频输入、人物参考图像及文本提示，能够实现多人对话场景中同步唇动、视线交互和动态人物表现，是真正为多角色对话场景设计的创新性视频生成框架。

程序之雅

909人浏览 · 2025-06-11 15:44:21

程序之雅 · 2025-06-11 15:44:21 发布

MultiTalk 是由中山大学深圳校区、美团和香港科技大学联合推出的新型音频驱动多人对话视频生成框架。它能够根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。该框架的核心创新在于其独特的 Label Rotary Position Embedding (L-RoPE) 方法，能够有效解决多声道音频与人物绑定的问题。

核心功能

音频驱动的多人视频生成：MultiTalk 可以同时处理多个音频流，为每个角色独立绑定口型视频输出，实现多人同步对话。
解决音频与人物绑定问题：通过 L-RoPE 方法，利用旋转嵌入技术将音频流与角色绑定，避免音源与人物错配。
强大的指令跟随能力：基于部分参数训练和多任务训练策略，模型能够根据文本提示生成符合要求的视频内容。
语言多样性支持：某些版本扩展到多语言 3D 说话头，支持包括中文、英文、韩语在内的 20 种语言。

技术原理

音频驱动的视频生成框架：MultiTalk 基于 Diffusion-in-Transformer (DiT) 的视频扩散模型构建基础架构，结合 3D Variational Autoencoder (VAE) 对视频的时空维度进行压缩，高效地生成视频内容。
音频特征提取：通过 Wav2Vec 提取音频特征，并将其与视频内容相结合，确保口型与声音同步。
Label Rotary Position Embedding (L-RoPE)：为视频中的每个人物和背景分配不同的标签范围，基于旋转位置嵌入技术，将标签信息融入到音频和视频的特征中，确保音频与人物的正确绑定。
自适应人物定位：使用参考图像和生成视频的自注意力图，自动识别每个人物的位置，实现精准的音频绑定。