关注【或问AI】公众号,回复关键词【latentsync】获取整合包


LatentSync是由字节开源的一款支持视频的唇音同步的AI数字人软件,即给定一段视频和语音,可以把视频中的人物的嘴型和表情与语音同步。LatentSync开源地址为:https://github.com/bytedance/LatentSync

LatentSync的主要特点是速度比较快,而且对显存要求也比较低,官方说6G显存即可使用,我自己测试了下也差不多,而且效果也非常逼真,应该是目前最好用的开源数字人产品之一了,文末有例子,大家可以感受下真实效果,我搞了一个一键启动的汉化整合包,免费分享给大家。


为了兼容50系显卡,本整合包是基于cuda12.8,因此务必升级显卡驱动支持到此版本。显卡驱动升级、环境变量设置等系统基操及常见问题可参考下面的链接:

https://blog.csdn.net/qq_17449077/article/details/146301514

电脑配置要求

  • 系统要求: windows 10 或者11
  • 显卡要求: 英伟达独立显卡。俗称N卡,至少6G显存,要安装好显卡驱动
  • 内存要求:8G及以上
  • 硬盘要求:需要至少20G左右的存储空间
  • 环境要求:已安装英伟达显卡驱动,支持的cuda版本不低于12.8

整合包使用教程

  1. 解压

  • 先把LatentSync.zip解压到当前位置,会生成一个LatentSync文件夹
  • 再把checkpoints.zip解压到当前位置,会生成一个checkpoints文件夹
  • 最后把checkpoints模型文件夹放到LatentSync文件夹里面**,确保checkpoints文件夹和LatentSync.exe在同级目录下**。最终目录应该如下,确认下有没有缺失的文件

  1. 启动程序

直接双击LatentSync.exe,第一次启动比较慢,请耐心等待,启动成功后浏览器中会自己弹出UI页面,也可直接在浏览器中输入url地址访问,浏览器中弹出的UI页面如下,后续我们在这个页面上操作:

启动参数(可选):

  • -p, --port:设置启动时webui的端口号,这个在端口号冲突时设置下即可
  • -i, --host: 设置启动时host主机ip,局域网内其他电脑访问,可以设置为0.0.0.0
  • -s, --share: 是否启用公共访问模式,默认为 false
  • -m, --model_dir: 指定模型文件夹路径,默认为 ./checkpoints
  • -o, --output_dir: 指定输出结果保存路径,默认为 ./result

要使用启动参数需要在终端中启动,例如在PowerShell中输入以下命令启动:

.\LatentSync.exe -p 8864 -i 0.0.0.0
  1. 测试程序

右边Examples是一些测试例子,我们单击其中一个,就会把这个例子自动加载

可以先用这些例子测试下程序有没有问题。比如我这里单击第一个,视频、音频和配置参数就会自动配置好了。然后点击处理视频按钮,等待一段时间右侧输出视频区域会生成处理好的视频,可以看下视频有没有问题。测试成功后,可以刷新下网页,或者点击输入区域右上角去删除例子,然后上传自己的音视频了

  1. 输入输出和配置说明

输入包括视频和音频,视频中每帧都必须包含人脸,不然运行时会报检测不到人脸的错误。输出为与音频对齐的视频,输出视频长度与输入音频长度的相同。另外输出的视频分辨率会降低,后续我会分享个视频高清化的工具。

可配置的参数如下:

  • 引导比例:默认为1.5,一般不用调节,
  • 推理步数,越大可能效果越好,但速度越慢。一般20即可
  • 随机种子:固定随机种子可以使得多次运行生成的结果保持一致性
  1. 生成结果及展示

上传视频和音频,配置好参数后,点击处理视频按钮,等待一段时间就生成好了,生成结果会自动保存在result文件夹下面。我上传的输入视频如下:

sonic_result

最终生成的结果如下,视频模糊了不少,但是效果还是可以的:

latentsync_result

关注【或问AI】公众号,回复关键词【latentsync】获取整合包

Logo

电影级数字人,免显卡端渲染SDK,十行代码即可调用,工业级demo免费开源下载!

更多推荐