我是如何让index-TTS2 + infiniteTalk数字人实现多轮对话的，记录从需求产生到最终实现效果的过程

上面视频效果还可以吧。目前很多数字人做的效果可以分为以下几种。单人口播，就是通过一个照片让这个人说话，对口型，这种数字人很多，几年前就可以实现了。多人单轮，就是两个人实现对话，一个人说一句，另一个人说一句，然后视频就结束了。刚开源的 infiniteTalk，可以实现多人对话，输入两个音频和一张照片，就会按照两个人的顺序说出对应音频，口型也能对的上。多人多轮对话，就是两个人可以无限制的对话，类似于

syso_稻草人

1512人浏览 · 2025-09-27 14:25:38

syso_稻草人 · 2025-09-27 14:25:38 发布

1. 猜猜这个好做吗？

首先给大家看一下这个视频，是我最终实现的效果，大家想不想做类似的两个人搞笑对话、新闻联播改编、经典镜头重配音等视频呢？

一键安装包（免费的）和云端地址（4090 显卡每小时不到 2 元）在文章末尾，全都配置好了，超简单，大家都可以做。

00:40

最终实现效果展示

2. 什么是多轮对话 -- 就是说相声

上面视频效果还可以吧。目前很多数字人做的效果可以分为以下几种。

单人口播，就是通过一个照片让这个人说话，对口型，这种数字人很多，几年前就可以实现了。
多人单轮，就是两个人实现对话，一个人说一句，另一个人说一句，然后视频就结束了。刚开源的 infiniteTalk，可以实现多人对话，输入两个音频和一张照片，就会按照两个人的顺序说出对应音频，口型也能对的上。
多人多轮对话，就是两个人可以无限制的对话，类似于说相声的那种效果，目前没有直接生成多轮的。

3. 初步实现思路 -- 其实很简单

先看一下 infiniteTalk 单轮对话是如何的，我使用的是 comfyui ，看一下工作流截图：

INDEX-TTS2驱动数字人说话的部分截图

仔细观察画红框的地方，这里音频 1 只要输入一段音频，女儿国国王就可以说话，在音频 2 输入一段音频，唐僧就可以说话了，但是如果两个音频都输入你这两个人都会同时说话。

相信大家都有了这样的想法了，实现多轮对话其实很简单。就是女儿国国王说话的时候唐僧不说话，唐僧说话的时候女儿国国王不说话就不可以了吗？完全正确！！那么我们需要这样的两段音频，如下图所示：

最简单的方式是手动将一段视频编辑成上面两段的形式。如果视频很长，两个人对话很多，这也是很麻烦的。作为世界上最勤快的人，决不允许这么做，所以我们需要 comfyui 的一个节点，能够自动将这两个音频分离出来。实现下面的效果。

搜遍了全网，很遗憾的是，没有这样的节点。没关系，我们写一个就是了，开始吧！

4.需求调研--哪些技术可以做

是时候请出我的助理了

大模型助理

最开始我想做的事两个人唱歌的音频分离，如果能实现输入一张照片和一首歌，然后两个人就唱起来了，实在太酷了。我的超级助理也给了一些可以实现的模型。

大模型推荐的唱歌的实现方案

这些模型有些没法在 Windows 上使用，第一个 Demucs 是去除歌曲和伴奏的，没法用。最后一个也跑了一下，对歌曲分离没有任何效果。

和我的超级助理来来回回讨论了几个小时，最终发现了 PyAnnote/speaker-diarization-3.1这个开源项目，最终发现这个模型对于音色差距较大的唱歌和普通的双人对话分离效果还是不错的。

5. 什么是 PyAnnote/speaker-diarization-3.1 --高级~~

Speaker Diarization（说话人分离）是一项语音处理技术，其目标是回答“谁在什么时候说话”（who spoke when）。它将一段包含多个说话人的音频流分割成片段，并将每个片段标注上对应的说话人身份，简单来说就是给音频中的不同声音“贴标签”，区分出不同的讲话人

huggingface 地址：HTTPS://huggingface.co/pyannote/speaker-diarization-3.1

要想使用这个模型就得在这个项目下面做授权，如下图这样就是授权成功了。

huggingface授权

6. 集成 -- 开发个 comfyui 的节点吧

这个活交给我的超级助理吧，刷小姐姐去了。

写代码

中间经历了大大小小上百轮的对话，虽然我是程序员，但是要在短期内实现这样的功能还是得依赖大模型，和我的助理打的有来有回，最终历时 4 个小时，节点开发完成，测试可用。

节点文件展示

在comfyui中的集成

好了，节点开发完成，也可以用了，但是这个节点还有很多的兼容性问题，比如分离后音频和其他节点不兼容，上下游节点老是报错，目前只在个别工作流中特殊处理了，等我测一下更多的工作流，就发布到 GitHub。

7.最终成品 -- 集成 indextts2 wan2.2 infiniteTalk 完整的工作流（太大了，展示部分）

最终的工作流

标红的那个就是本期的主角！！基于 speaker-diarization-3.1 的音频分离节点！！

8. 大家如果使用呢 -- 前方高能！

相信大家看到这都想上传自己的照片和音频来做一些视频了，让俩人说段相声，播报个新闻，来段脱口秀，太帅了。

B 站视频地址：infiniteTalk 多轮对话数字人来了！整合包已备好，index-TTS2 + pyannote 真正实现了数字人的多轮对话,适合说相声_哔哩哔哩_bilibili

如果你有一台还不错的电脑 16G 显存 + 32G 内存），那么恭喜你，可以在本地运行（需要魔法法上网）：

一键整合包地址：HTTPS://pan.quark.cn/s/fe6c8ae12869

下载之后解压开，一直往里面点，点到看到这个文件双击运行，等待一会，浏览器自动会打开一个地址，然后点击左侧工作流，找到多人对话工作流即可。可以看 b 站演示

如果你电脑的配置不是那么高，或者其他原因无法本地运行，云端也可以运行（填写我的邀请码有大额优惠券）。

云端地址：HTTPS://www.xiangongyun.com/image/detail/995c211e-8d52-4a37-b844-8c47afe16175?r=KSGHSD

仙宫云邀请码： KSGHSD

云端的不需要魔法上网，一键运行，不会的可以看 B 站视频，里面有云端使用方法教学。

8.总结 -- 学习不易，且学且珍惜

从有了需求的想法到最终的落地前前后后花费了一个周的下班时间，也切实的感受到了 AI 的力量强大，现如今的世界以及未来的日子里，缺少的不是技术，不是工具，而是你的想法。AI 不可能替代有想法的人，它只可能为你打工。

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

cover

收藏！小白程序员必看：如何抓住AI大模型时代红利？从入门到高薪就业全解析！

魔珐星云开发社区

cover

大模型入门必看：收藏这份指南，带你轻松入门AI新基建！

魔珐星云开发社区

cover

友思特新品 | 全新腕戴式立体相机 ZED X Nano 重磅登场，专为具身智能打造

魔珐星云开发社区

所有评论(0)

查看更多评论

syso_稻草人

@zhuyumeng_limin

已为社区贡献2条内容