无言以对 发表于 2026-2-20 16:49:19

SoulX-FlashHead - 最快实时数字人,给它一段声音,秒出流畅会说话的数字人脸 支持50系显卡 一键整合包下载


SoulX-FlashHead 是由 Soul-AILab 开发的数字人生成系统,主要用于生成 实时的“会说话的人脸视频”。它能把文字或语音快速转化成一个虚拟人物的嘴型和表情,让这个人物看起来像真的在说话。

SoulX-FlashHead 简单来说,就是一个超级快的 “音频 → 说话人脸视频” AI工具。 你给它一段声音(可以是实时麦克风输入)加一张人脸图像,它就能立刻生成一段同步张嘴说话的人脸视频,而且可以一直说下去不会崩,特别适合要做实时数字人的场景。



核心特点

实时生成:在消费级显卡(如 RTX4090/5090)上可以做到流畅的实时视频输出,甚至支持多路并发。

高质量与高速度兼顾:
Lite 模型:速度极快(最高 96 FPS),适合需要同时生成多个实时视频的场景。
Pro 模型:画面质量更高,适合对视觉效果要求更精细的应用。

无限流式输出:可以持续生成长时间的说话视频,而不是只能做短片段。

声音和嘴巴同步自然: 它专门为流式(streaming)实时场景设计,拿一小段音频就能开始生成,不会等你说完才出画面,延迟很低。



应用领域

虚拟主播、数字人直播(最典型场景)
实时AI客服、在线教育数字老师
视频会议里的虚拟形象(腾讯会议那种)
语音转视频内容创作(播客、短视频配脸)
游戏、元宇宙里需要实时对话的NPC头像
任何需要“语音驱动人脸”的低延迟互动产品




使用教程:(建议N卡,显存6G起,支持50系显卡)

包含 主程序 和 模型(models文件夹),分别下载,解压主程序,将 模型 剪切到主程序目录下即可

上传一张需要生成的人脸图像,加一段需要驱动说话的音频(支持麦克风实时录入),设置参数,生成即可。

包含两种模型:Lite和Pro,Lite偏向速度,Pro更侧重质量。
Lite:优化速度,单卡RTX 4090可达96 FPS,支持最多3路并发实时流,适合高吞吐场景
Pro:优化质量,单卡RTX 4090约10.8 FPS;双卡RTX 5090配合SageAttention可达25+ FPS实时生成,适合高质量输出。


音频编码模式 (stream和once):
once:一次性编码整段音频,适合离线生成;内存占用较高,但编码开销只发生一次。
stream:逐块流式编码音频,适合实时/低延迟场景;内存占用可控,但每块都要重新编码。




软件目录结构

📂 SoulX-FlashHead/
├── 📂 assets/
├── 📂 models/
│   ├── 📂 SoulX-FlashHead-1_3B/
│   │      └── configuration.json
│   ├── 📂 wav2vec2-base-960h/
│   │      └── model.safetensors
├── 📂 deepface/
......




下载地址:
UC网盘:https://drive.uc.cn/s/29a4299460594

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****

15152544000 发表于 2026-2-23 12:56:30

“SoulX-FlashHead 是由 Soul-AILab 开发的数字人生成系统,主要用于生成 实时的“会说话的人脸视频”。它能把文字或语音快速转化成一个虚拟人物的嘴型和表情,让这个人物看起来像真的在说话。”
请问一下文字怎么输入???只有拖入音频文件啊!

room901 发表于 2026-2-23 14:44:34

牙齿太糟糕了

无言以对 发表于 2026-2-23 14:53:59

15152544000 发表于 2026-2-23 12:56
“SoulX-FlashHead 是由 Soul-AILab 开发的数字人生成系统,主要用于生成 实时的“会说话的人脸视频”。它 ...

只支持音频+图像
可以用论坛里发的TTS软件,用文字生成音频,再用这个软件

无言以对 发表于 2026-2-23 14:54:23

room901 发表于 2026-2-23 14:44
牙齿太糟糕了
类似头部驱动模型通病,用pro模型稍有改善

15152544000 发表于 2026-2-23 15:32:59

加载模型失败试了好几次都不行,模型文件也剪切粘贴到主问价目录下了

无言以对 发表于 2026-2-23 16:13:22

15152544000 发表于 2026-2-23 15:32
加载模型失败试了好几次都不行,模型文件也剪切粘贴到主问价目录下了

软件目录结构

📂 SoulX-FlashHead/
├── 📂 assets/
├── 📂 models/
│   ├── 📂 SoulX-FlashHead-1_3B/
│   │      └── configuration.json
│   ├── 📂 wav2vec2-base-960h/
│   │      └── model.safetensors
├── 📂 deepface/

15152544000 发表于 2026-2-23 17:31:49

15152544000 发表于 2026-2-23 17:38:44

color correction: 0.028499126434326172s
encode motion frames: 0.1582472324371338s
2026-02-23 17:18:05.123 | INFO   | __main__:generate_video:208 - 生成视频片段 157 完成, 耗时: 1.373s
model denoise per step: 0.1900479793548584s
model denoise per step: 0.1875002384185791s
model denoise per step: 0.1815037727355957s
model denoise per step: 0.17850279808044434s
decode video frames: 0.3854992389678955s
color correction: 0.02775096893310547s
encode motion frames: 0.14999985694885254s
2026-02-23 17:18:06.477 | INFO   | __main__:generate_video:208 - 生成视频片段 158 完成, 耗时: 1.330s
model denoise per step: 0.18822336196899414s
model denoise per step: 0.17925238609313965s
model denoise per step: 0.18000173568725586s
model denoise per step: 0.1822502613067627s
decode video frames: 0.3713409900665283s
color correction: 0.029014110565185547s
encode motion frames: 0.14624691009521484s
2026-02-23 17:18:07.804 | INFO   | __main__:generate_video:208 - 生成视频片段 159 完成, 耗时: 1.304s
model denoise per step: 0.18375349044799805s
model denoise per step: 0.1912527084350586s
model denoise per step: 0.1815013885498047s
model denoise per step: 0.18073415756225586s
decode video frames: 0.3742506504058838s
color correction: 0.02774977684020996s
encode motion frames: 0.15075373649597168s
2026-02-23 17:18:09.147 | INFO   | __main__:generate_video:208 - 生成视频片段 160 完成, 耗时: 1.319s
model denoise per step: 0.18374991416931152s
model denoise per step: 0.1805744171142578s
model denoise per step: 0.17999958992004395s
model denoise per step: 0.18075060844421387s
decode video frames: 0.380875825881958s
color correction: 0.02700352668762207s
encode motion frames: 0.1470017433166504s
2026-02-23 17:18:10.479 | INFO   | __main__:generate_video:208 - 生成视频片段 161 完成, 耗时: 1.309s
2026-02-23 17:18:15.955 | ERROR    | __main__:generate_video:228 - 生成视频时出错: 系统找不到指定的文件。
Traceback (most recent call last):
File "<frozen app>", line 220, in generate_video
File "<frozen app>", line 116, in save_video
File "D:\szr\SoulX-FlashHead\SoulX-FlashHead\deepface\Lib\subprocess.py", line 548, in run
    with Popen(*popenargs, **kwargs) as process:
         ^^^^^^^^^^^^^^^^^^^^^^^^^^^
File "D:\szr\SoulX-FlashHead\SoulX-FlashHead\deepface\Lib\subprocess.py", line 1026, in __init__
    self._execute_child(args, executable, preexec_fn, close_fds,
File "D:\szr\SoulX-FlashHead\SoulX-FlashHead\deepface\Lib\subprocess.py", line 1538, in _execute_child
    hp, ht, pid, tid = _winapi.CreateProcess(executable, args,
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
FileNotFoundError: 系统找不到指定的文件。
2026-02-23 17:21:49.014 | INFO   | __main__:load_model:52 - Loading pro model (SageAttention: False)...

无言以对 发表于 2026-2-23 17:45:06

15152544000 发表于 2026-2-23 17:38
color correction: 0.028499126434326172s
encode motion frames: 0.15824723243713 ...

https://deepface.cc/thread-152-1-1.html
页: [1]
查看完整版本: SoulX-FlashHead - 最快实时数字人,给它一段声音,秒出流畅会说话的数字人脸 支持50系显卡 一键整合包下载