【数字人】LatentSync汉化整合包获取和使用教程，6G显存可用

LatentSync是由字节开源的一款支持视频的唇音同步的AI数字人软件，即给定一段视频和语音，可以把视频中的人物的嘴型和表情与语音同步。

Heathens777

3165人浏览 · 2025-04-12 19:40:20

Heathens777 · 2025-04-12 19:40:20 发布

关注【或问AI】公众号，回复关键词【latentsync】获取整合包

LatentSync是由字节开源的一款支持视频的唇音同步的AI数字人软件，即给定一段视频和语音，可以把视频中的人物的嘴型和表情与语音同步。LatentSync开源地址为：https://github.com/bytedance/LatentSync

LatentSync的主要特点是速度比较快，而且对显存要求也比较低，官方说6G显存即可使用，我自己测试了下也差不多，而且效果也非常逼真，应该是目前最好用的开源数字人产品之一了，文末有例子，大家可以感受下真实效果，我搞了一个一键启动的汉化整合包，免费分享给大家。

为了兼容50系显卡，本整合包是基于cuda12.8，因此务必升级显卡驱动支持到此版本。显卡驱动升级、环境变量设置等系统基操及常见问题可参考下面的链接：

https://blog.csdn.net/qq_17449077/article/details/146301514

电脑配置要求

系统要求： windows 10 或者11
显卡要求：英伟达独立显卡。俗称N卡，至少6G显存，要安装好显卡驱动
内存要求：8G及以上
硬盘要求：需要至少20G左右的存储空间
环境要求：已安装英伟达显卡驱动，支持的cuda版本不低于12.8

整合包使用教程

解压

先把LatentSync.zip解压到当前位置，会生成一个LatentSync文件夹
再把checkpoints.zip解压到当前位置，会生成一个checkpoints文件夹
最后把checkpoints模型文件夹放到LatentSync文件夹里面**，确保checkpoints文件夹和LatentSync.exe在同级目录下**。最终目录应该如下，确认下有没有缺失的文件

启动程序

直接双击LatentSync.exe，第一次启动比较慢，请耐心等待，启动成功后浏览器中会自己弹出UI页面，也可直接在浏览器中输入url地址访问，浏览器中弹出的UI页面如下，后续我们在这个页面上操作：

启动参数（可选）：

-p, --port：设置启动时webui的端口号，这个在端口号冲突时设置下即可
-i, --host: 设置启动时host主机ip，局域网内其他电脑访问，可以设置为0.0.0.0
-s, --share: 是否启用公共访问模式，默认为 false
-m, --model_dir: 指定模型文件夹路径，默认为 ./checkpoints
-o, --output_dir: 指定输出结果保存路径，默认为 ./result

要使用启动参数需要在终端中启动，例如在PowerShell中输入以下命令启动：

.\LatentSync.exe -p 8864 -i 0.0.0.0

测试程序

右边Examples是一些测试例子，我们单击其中一个，就会把这个例子自动加载

可以先用这些例子测试下程序有没有问题。比如我这里单击第一个，视频、音频和配置参数就会自动配置好了。然后点击处理视频按钮，等待一段时间右侧输出视频区域会生成处理好的视频，可以看下视频有没有问题。测试成功后，可以刷新下网页，或者点击输入区域右上角去删除例子，然后上传自己的音视频了

输入输出和配置说明

输入包括视频和音频，视频中每帧都必须包含人脸，不然运行时会报检测不到人脸的错误。输出为与音频对齐的视频，输出视频长度与输入音频长度的相同。另外输出的视频分辨率会降低，后续我会分享个视频高清化的工具。

可配置的参数如下：

引导比例：默认为1.5，一般不用调节，
推理步数，越大可能效果越好，但速度越慢。一般20即可
随机种子：固定随机种子可以使得多次运行生成的结果保持一致性

生成结果及展示

上传视频和音频，配置好参数后，点击处理视频按钮，等待一段时间就生成好了，生成结果会自动保存在result文件夹下面。我上传的输入视频如下：

sonic_result

最终生成的结果如下，视频模糊了不少，但是效果还是可以的：

latentsync_result

关注【或问AI】公众号，回复关键词【latentsync】获取整合包

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

cover

小白程序员必看！收藏这份AI就业岗位与薪资全解析，轻松入行大模型

魔珐星云开发社区

cover

人形机器人跑完半马、NVIDIA 押注物理 AI、Figure 融资百亿 — 2026 具身智能从「实验室」冲向「生产线」

魔珐星云开发社区

cover

算力为核，智驱无界——视程空间硬核赋能机器狗与机器人，解锁具身智能产业新未来

魔珐星云开发社区

所有评论(0)

查看更多评论

Heathens777

已为社区贡献5条内容