数字人开源代码运行---wav2lip

手把手教你数字人wav2lip项目运行

流泪的猪

1446人浏览 · 2024-06-19 16:58:52

流泪的猪 · 2024-06-19 16:58:52 发布

代码地址：

Rudrabha/Wav2Lip: This repository contains the codes of "A Lip Sync Expert Is All You Need for Speech to Lip Generation In the Wild", published at ACM Multimedia 2020. For HD commercial model, please try out Sync Labs (github.com)

论文地址：

2008.10010 (arxiv.org)

1、下载代码

2、安装环境

conda create -n wav2lip python==3.9.0
conda activate wav2lip
conda install ffmpeg

修改requirements.txt中依赖版本号为

安装依赖

pip install -r requirements.txt

2、下载模型

下载s3fd.pth模型，下载后放在face_detection/detection/sfd/s3fd.pth

项目地址中给出了训练好的模型链接，下载就可以了，四个下载后都放在checkpoints目录下。

3、推理

根据参考视频和音频生成对应的说话视频

python inference.py --checkpoint_path ./checkpoints/wav2lip_gan.pth --face ./demo/short_demo.mp4 --audio ./demo/test.wav

4、可能会遇到的问题：

issues中给出了答案：

修改audio.py 第一百行代码：
return librosa.filters.mel(sr=hp.sample_rate, n_fft=hp.n_fft, n_mels=hp.num_mels,
fmin=hp.fmin, fmax=hp.fmax)

Wav2Lip 报错TypeError: mel() takes 0 positional arguments but 2 positional arguments (and 3 keyword-only arguments) were given · Issue #634 · Rudrabha/Wav2Lip · GitHub

5、评价指标

evaluation目录中给出了Average Confidence，Average Minimum Distance评价指标的计算。利用的是syncnet项目计算。

参考：AI数字人：语音驱动人脸模型Wav2Lip-CSDN博客

魔珐星云具身智能3D数字人开放平台已上线！

电影级数字人，免显卡端渲染SDK，十行代码即可调用，工业级demo免费开源下载！

更多推荐

2026 年 5 月 16 日 AI 行业大事件：编程智能体爆发、巨头生态博弈、具身智能落地提速

今日，在武汉举办的世界电信和信息社会日大会上，中国信通院联合三大运营商、AIIA 等机构，正式发起智能 IP 广域网（AI WAN）应用推进行动。企业入算：低成本高效调用远程算力；边缘入算：赋能智慧家庭算力服务；城域网络：支撑 AI 分布式训练 / 推理；数据流通：保障数据要素安全高速流转。此举标志着国内 AI 算力基建从 “单点建设” 转向全网协同，为大模型、具身智能等产业落地提供关键网络支撑。

魔珐星云开发社区

别再被营销号忽悠了！真正有价值的智能体应用，全在这里

魔珐星云开发社区

（深度）强化学习

深度强化学习（DRL）结合了深度学习的感知能力和强化学习的决策能力，已成为机器人控制、自动驾驶和大模型对齐等领域的核心技术。主流算法包括PPO（适用于稳定运动控制）和SAC（擅长高维操作）。当前研究聚焦于提升样本效率、安全性和泛化能力，并探索模仿学习与强化学习的融合（如DSRL技术）。尽管面临训练成本高、安全性等挑战，DRL正通过Sim-to-Real迁移和大规模并行仿真实现工业落地，在具身智能和