保姆级教程：HeyGem批量版WebUI，手把手教你一键生成数字人视频

本文介绍了如何在星图GPU平台上自动化部署Heygem数字人视频生成系统批量版webui版（二次开发构建by科哥），实现高效的数字人视频制作。用户通过该平台可快速搭建环境，并利用其批量处理功能，一键将同一段音频与多个数字人形象结合，高效生成口型同步的讲解视频，适用于课程制作、产品介绍等场景。

wx1bff85f55b403198

255人浏览 · 2026-03-22 00:04:17

wx1bff85f55b403198 · 2026-03-22 00:04:17 发布

保姆级教程：HeyGem批量版WebUI，手把手教你一键生成数字人视频

你是不是经常需要制作视频内容，但面对镜头紧张，或者觉得请演员、租场地、后期剪辑的成本太高、流程太繁琐？想象一下，如果有一个工具，你只需要准备好一段录音和几个数字人形象视频，点一下按钮，就能自动生成口型完美同步、表情自然的数字人讲解视频，而且一次性能批量生成好几个不同形象的版本，那该多省事？

今天，我就带你零门槛上手这样一个神器——HeyGem数字人视频生成系统批量版Webui版。这是由科哥二次开发构建的版本，最大的特点就是把所有复杂的技术细节都藏在了背后，给你一个干净清爽的网页界面。你不需要懂AI模型，不用配置Python环境，更不用写一行代码。从安装到产出第一条视频，全程就像用手机APP一样简单。

更重要的是，它支持批量处理。这意味着你可以用同一段讲解音频，一次性驱动多个不同的数字人“演员”开口说话，效率直接拉满。无论是做课程视频、产品介绍、新闻播报，还是打造个人虚拟IP，这个工具都能成为你的得力助手。

下面，我们就抛开所有技术黑话，用最直白的语言，一步一步带你跑通整个流程。

1. 环境准备：把你的电脑变成数字人工作室

别被“部署”这个词吓到。你不需要成为服务器专家，只需要有一台能正常上网的电脑（Windows/Mac/Linux都行），然后按照下面的步骤操作即可。我们推荐使用云服务器，这样性能更稳定，也不占用你本地电脑的资源。

1.1 选择并启动你的云服务器

首先，你需要一个运行Linux系统的服务器。对于新手，我强烈推荐使用各大云平台的“镜像市场”或“应用中心”来一键部署，这是最简单的方式。

购买云服务器：前往阿里云、腾讯云、华为云等任一家服务商，购买一台Ubuntu 20.04或22.04系统的云服务器。配置建议选择2核4GB或以上，这样处理速度会快很多。硬盘空间选50GB或以上。
使用镜像一键部署（最简单）：
- 在云服务器的购买或管理页面，找到“镜像”或“应用”选项。
- 选择“镜像市场”或“应用中心”，然后搜索“HeyGem”或“数字人”。
- 如果你能找到由“科哥”或相关提供商发布的“HeyGem数字人视频生成系统”镜像，直接选择它。这样，当你启动服务器时，系统就已经预装好了所有环境，省去后面所有安装步骤。
- 如果找不到现成镜像，也别慌，继续看下面的手动部署步骤。

1.2 手动部署：下载并启动应用

如果云平台没有现成镜像，我们就手动部署。整个过程只需要几条命令。

第一步：登录服务器 购买服务器后，你会获得一个IP地址、用户名（通常是root）和密码。使用SSH工具（如PuTTY、Xshell，或者Mac/Linux的终端）登录到你的服务器。

第二步：获取并解压应用包 假设你已经从可靠的来源（如CSDN星图镜像广场）下载了名为 heygem-batch-webui.tar.gz 的应用包，并上传到了服务器的 /root/ 目录下。

在SSH终端里依次执行以下命令：

# 1. 进入root目录
cd /root/

# 2. 解压应用包（请将文件名替换成你实际的文件名）
tar -xzf heygem-batch-webui.tar.gz

# 3. 进入解压后的目录
cd heygem-batch-webui/

# 4. 查看目录内容，应该能看到 start_app.sh 等文件
ls -l

第三步：安装一个小工具（FFmpeg） 这个工具用于处理音视频，是必须的。执行以下命令安装：

# 对于 Ubuntu/Debian 系统：
apt update && apt install -y ffmpeg

# 对于 CentOS/RHEL 系统：
yum install -y epel-release && yum install -y ffmpeg

安装完成后，可以输入 ffmpeg -version 检查一下，有版本信息输出就说明成功了。

2. 一键启动：打开你的Web操作界面

环境准备好之后，启动应用只需要一条命令。

在刚才的 heygem-batch-webui 目录下，执行：

bash start_app.sh

你会看到终端开始滚动一些信息，最后停在一行类似下面的提示上，就说明启动成功了：

Running on local URL: http://0.0.0.0:7860

现在，打开你的电脑浏览器。

在浏览器地址栏输入：http://你的服务器IP地址:7860

如何找服务器IP？ 在刚才的SSH终端里，输入命令 hostname -I，显示的第一个地址就是。
如果打不开页面怎么办？
- 检查安全组/防火墙：这是最常见的问题。你需要到云服务器的管理控制台，找到“安全组”或“防火墙”设置，添加一条入方向规则：端口 7860，协议 TCP，源地址 0.0.0.0/0（或者为了安全，可以只填你自己的电脑IP）。
- 稍等片刻：首次启动需要加载AI模型，可能需要30秒到1分钟，页面才能完全打开。

当浏览器成功显示出“HeyGem 数字人视频生成系统”的界面时，恭喜你，最复杂的部分已经完成了！

3. 核心功能实战：批量生成数字人视频

这个系统的精华就在“批量处理模式”。我们通过一个具体例子来学习：假设你有一段3分钟的产品介绍录音，想分别用“商务男”、“知性女”和“卡通形象”三个数字人来演绎。

3.1 切换到批量处理模式

打开Web界面后，默认可能就是批量模式。如果不是，请点击顶部的 【批量处理模式】 标签页。

界面主要分为三块：

左侧：上传和管理音频、视频列表的区域。
中间/右侧：预览区和操作按钮。
底部：生成结果和历史记录。

3.2 上传核心：你的配音（音频）

在左侧找到 “上传音频文件” 的方框，点击它。
选择你准备好的产品介绍录音文件。支持 .mp3, .wav, .m4a 等常见格式。
上传成功后，方框内会显示文件名，旁边会出现一个播放按钮。务必点击播放，听一遍，确认音频清晰、无杂音、语速适中。

音频准备小贴士：

格式：.wav 或 .mp3 最稳定。
内容：尽量是干净的人声，背景音乐或复杂音效可能会影响口型生成效果。
时长：建议单段不超过5分钟，太长会影响处理速度和稳定性。

3.3 组建你的“演员团”：上传数字人视频

在音频区域下方，找到 “拖放或点击选择视频文件” 的大区域。
你可以把准备好的三个数字人视频文件（比如 business_man.mp4, professional_woman.mp4, carton_character.mp4）直接拖进去，或者点击区域后多选。
上传后，这些视频会以列表形式出现在左侧。你可以点击任何一个视频名称，在右侧预览窗口查看。

视频素材要求：

格式：.mp4 兼容性最好。
内容：视频中的人物最好是正面面对镜头，脸部清晰，光线均匀。人物可以微笑或保持中性表情，但头部不要有大幅度的转动或移动。
分辨率：720p或1080p为佳，太高（如4K）会显著增加处理时间。

3.4 一键启动，坐等成果

确认音频和所有视频都上传无误后，点击页面下方那个显眼的 【开始批量生成】 按钮。

接下来，你什么都不用做，系统会自动化完成所有工作：

分析音频：提取你录音中的语音特征和节奏。
驱动口型：为列表里的每一个视频，根据音频生成匹配的唇部动作序列。
合成视频：将生成的动作与原始视频结合，输出新的数字人视频。

页面会实时显示进度：“正在处理：business_man.mp4 (1/3)”，并有一个进度条。处理速度取决于你的服务器性能和视频时长。有GPU的话会快很多。

4. 收获成果：预览、下载与管理

所有视频处理完成后，页面会自动跳转或刷新 “生成结果历史” 区域。

4.1 预览效果，检查质量

你会看到一排生成好的视频缩略图，上面标有对应的原始视频名。
点击任意缩略图，右侧的播放器就会开始播放这个成品。
重点检查：口型是否和你的录音完美同步？特别是爆破音（如“b”、“p”）和唇齿音（如“f”）。表情是否自然？如果基本匹配，没有明显的延迟或错位，那就是成功的作品。

4.2 下载你的作品

你有两种方式把视频保存到本地：

单个下载：点击某个视频缩略图选中它，然后点击右侧 “🗑️ 删除当前视频” 按钮旁边的下载图标（通常是一个向下的箭头）。
批量打包下载（推荐）：如果你生成了很多个视频，想一次性全部下载，就点击 【📦 一键打包下载】 按钮。系统会把所有视频打包成一个ZIP压缩包，然后出现一个 “点击打包后下载” 的链接，点击它即可下载整个包。

4.3 管理历史记录

如果生成的视频多了，你可以通过底部的 “◀ 上一页” 和 “下一页 ▶” 按钮翻看。不需要的视频，可以勾选后点击 “🗑️ 批量删除选中” 来清理，释放服务器空间。

5. 快速体验：单个处理模式

如果你只是想快速测试一下效果，或者只需要生成一个视频，那么 “单个处理模式” 更轻便。

点击顶部的 【单个处理模式】 标签页。
在左侧上传音频，在右侧上传一个视频。
点击 【开始生成】。
完成后，生成的视频会直接显示在下方，可以直接播放和下载。

这个模式去掉了列表管理和历史记录，流程更短，适合快速试错。

6. 常见问题与排查手册

即使教程再详细，实际操作中也可能遇到小问题。这里列出几个最常见的，帮你快速解决。

问题现象	可能原因	解决方法
上传音频后无法播放	浏览器不支持该音频文件的编码格式	用格式工厂、Audacity等工具将音频转换为标准的 `.wav` 或 `.mp3` 格式再上传。
点击“开始生成”没反应	1. 服务器内存不足 2. 必要的依赖（如ffmpeg）未安装	1. 检查服务器内存，关闭不必要的程序。 2. 在终端执行 `ffmpeg -version` 确认已安装。
生成的口型不同步	1. 音频开头有长时间静音 2. 视频中人物动作太大	1. 用音频编辑软件剪掉音频开头多余的静音部分。 2. 使用人物头部稳定的视频素材。
生成的视频下载后无法播放	本地播放器缺少解码器	使用 VLC Media Player、PotPlayer 等万能播放器打开。
页面打开很慢或卡顿	服务器首次加载模型，或网络不佳	首次启动请耐心等待1-2分钟。确保服务器网络通畅。

终极排查工具：日志文件 所有运行细节都记录在 /root/workspace/运行实时日志.log 文件里。遇到任何错误，在服务器终端执行：

tail -f /root/workspace/运行实时日志.log

这个命令会实时显示最新的日志，错误信息通常就在最后几行，比盲目猜测高效得多。

7. 效果升级：让数字人视频更专业的三个技巧

当你熟悉基本操作后，下面几个小技巧能让你的作品质量更上一层楼。

音频优化是根本：口型同步的质量，八成取决于输入的音频。在录音时，使用好一点的麦克风，在安静的环境下进行。录制完成后，可以用 Audacity（免费软件）进行简单的“降噪”和“标准化（-1dB）”处理，能让AI“听”得更清楚，生成的口型更精准。
视频素材要讲究：尽量使用背景干净、人物面部光照均匀的视频。如果是自己拍摄，可以用手机的人像模式，让背景虚化，人物更突出。避免使用背景复杂或光线闪烁的视频。
批量命名提效率：在上传视频前，按 角色_场景_分辨率.mp4 的规则给文件命名（例如：讲师_开场白_1080p.mp4）。这样在生成结果列表中，你能一眼就分清每个视频的内容，方便后续管理和剪辑。