手把手教你用 InfinitTalk + IndexTTS 2 搭建中文语音驱动数字人(附ComfyUI整合包+云端体验地址)
本文介绍了一个基于ComfyUI平台的AI数字人系统,整合了IndexTTS2中文语音合成和InfinitTalk面部驱动技术,可实现文本到数字人视频的完整生成流程。项目提供开箱即用的ComfyUI插件整合包(支持Win/Mac/Linux)和云端体验地址,包含4种自动化工作流,无需编程基础即可使用。本地RTX3060显卡下10秒视频生成约40-60秒,支持自定义3D形象。所有资源免费开源,旨在降
前言
最近 AI 数字人热度持续攀升,但大多数方案要么成本高昂,要么依赖复杂环境、难以部署。作为一名 AI 爱好者,我尝试结合当前热门的 InfinitTalk(语音驱动面部动作)与 IndexTTS 2(高质量中文语音合成),在 ComfyUI 平台上搭建了一套完整的语音生成驱动数字人系统。
更关键的是——我已经将整个流程打包成 ComfyUI 插件整合包,支持 Windows / Mac / Linux 本地一键运行,并提供了 云端体验地址,无需配置环境也能快速上手!
本文将带你一步步了解实现原理、展示效果,并提供所有资源下载方式,零基础也能轻松复现。
📌 项目亮点:
- 完整串联:文本 → TTS → 音频 → InfinitTalk → 数字人视频输出
- 中文优化:IndexTTS 2 对中文语义和语调支持极佳
- 可视化操作:基于 ComfyUI 实现拖拽式工作流,非程序员也能用
- 开箱即用:提供模型、依赖、配置文件全打包版本
技术架构简析
本系统核心由三部分组成:
- IndexTTS 2:阿里推出的高质量中文语音合成模型,支持情感、语速调节,语音自然度高。
- InfinitTalk:通过音频频谱驱动 3D 数字人面部表情和口型的技术,精准对齐语音与动作。
- ComfyUI:基于节点的工作流引擎,适合快速集成多模态 AI 模型,可视化调试方便。
我们将三者串联,构建如下流程:

整个过程完全自动化,且可在 ComfyUI 中实时预览每一步结果。
实现效果展示
✅ 实际生成视频演示
index-TTS2 + infiniteTalk数字人整合包已备好,小作坊的福音,让图片全自动说话,4个全自动工作流,畅玩所有场景
我在 Bilibili 上发布了完整演示视频,包含index-tts2单人工作流、双人工作流、infiniteTalk工作流,infinteTalk和indexTTS2整合的工作流表现效果:

▶️ B站演示视频地址:
https://www.bilibili.com/video/BV1Z5pcz3EkU/?vd_source=8977926e52346834c9c6a6b1eaf76778
(建议观看前30秒,感受真实生成效果)
✅ 工作流截图(ComfyUI)




图:完整的语音驱动数字人工作流输入部分,输入图片,参考声音和文字即可生成
如何快速上手?两种方式任选
方式一:本地一键运行(推荐)
我已将所有模型、插件、依赖打包为 ComfyUI 整合包,解压即用,省去繁琐安装过程。
📦 包含内容:
- ComfyUI 主程序(v0.25+)
- IndexTTS 2 模型文件
- InfinitTalk 相关节点插件
- 自定义工作流
.json文件
📥 网盘: https://pan.quark.cn/s/ab96d08ec5a8
🔧 运行要求:
- 显卡:NVIDIA GPU(建议 8GB 显存以上)
- 系统:Windows 10,其他空间没测过
- 存储:预留至少 80GB 空间,必须使用SSD
方式二:在线体验(免配置)
如果你暂时没有合适设备,也可以直接访问我部署的 云端运行环境,浏览器打开就能试用!
🌐 云端体验地址:https://www.xiangongyun.com/image/detail/679e2d6d-6cf0-45a4-ba2c-ba54e816d17b?r=KSGHSD
(支持上传文本、选择角色、实时生成)
⚠️ 温馨提示:云端资源有限,建议用于测试和轻量使用;生产场景建议本地部署。
常见问题 FAQ
❓ Q:需要编程基础吗?
A:不需要!ComfyUI 是图形化界面,按教程加载工作流即可。
❓ Q:支持自定义形象吗?
A:支持!你可以替换 InfinitTalk 中的 3D 模型,后续我会出专题教程。
❓ Q:生成速度怎么样?
A:本地 RTX 3060 下,10秒视频约需 40~60 秒生成,云端性能更强可提速。
❓ Q:是否收费?
A:目前所有资源完全免费开源,欢迎 star 和分享!
后续计划
接下来我将持续优化该方案,计划新增以下功能:
- 多语言支持(英文、日语等)
- 情感控制(开心、严肃、悲伤等表情)
- 直播推流接口(接入 OBS、抖音、视频号)
- 更轻量化模型适配(如手机端部署探索)
也欢迎你在评论区提出需求,我们一起打造更好用的开源数字人工具!
获取资源 & 加入交流
🔗 整合包下载: https://pan.quark.cn/s/ab96d08ec5a8
☁️ 云端体验入口:https://www.xiangongyun.com/image/detail/679e2d6d-6cf0-45a4-ba2c-ba54e816d17b?r=KSGHSD
🎥 B站演示视频:https://www.bilibili.com/video/BV1Z5pcz3EkU/?vd_source=8977926e52346834c9c6a6b1eaf76778
结语
AI 数字人不再是大厂专属,借助 InfinitTalk、IndexTTS 2 和 ComfyUI 这样的开源力量,我们每个人都能快速搭建属于自己的虚拟主播、教学助手或客服形象。
这个项目从构思到落地花了我近两周时间,现在无偿分享出来,希望帮助更多人降低门槛,一起推动 AIGC 应用落地。
如果你觉得有用,欢迎点赞、收藏、转发,也别忘了去 B 站点个关注 👏
更多推荐




所有评论(0)