无言以对 发表于 2025-5-20 16:49:35

MuseTalk V3版 - 音频驱动视频生成数字人说话视频 本地一键整合包下载


MuseTalk 是腾讯开发的一款AI数字人唇形同步工具,它能根据输入的音频自动调整虚拟人物的嘴部动作,让数字人说话时的口型和声音完美匹配。只需要上传一段驱动音频,和一段人物视频,即可一键生成无限说自认说话视频,适用各种自媒体口播和直播等领域!
MuseTalk 对于最低硬件要求,在 Windows 环境下使用配备 4GB 显存的 NVIDIA GeForce RTX 3050 Ti 笔记本 GPU 测试了该系统。在 fp16 模式下,生成 8 秒的视频大约需要 5 分钟。

今天分享的MuseTalk V3版,同步官方最新的 MuseTalk V1.5版模型。与 1.0 版本相比,这个版本的模型有了显著改进,提高了清晰度、身份一致性和精确的唇音同步。


应用领域:‌

短视频制作‌:给动漫角色或真人换配音不用重拍
虚拟主播‌:让AI主播的嘴型更自然
外语教学‌:展示标准发音口型
电影配音‌:修改台词时不用演员重新拍摄 ‌
社交娱乐‌:让照片唱歌说话做成搞笑视频


使用教程:(建议N卡,显存4G起。为了保证生成速度,建议显存8G起。基于CUDA11.8)

上传驱动音频和参考视频,设置相关参数(对应参数都有详细说明),生成即可。
可以先调整参数,点测试重绘,预览效果,再根据预览调整参数,最后生成。

批量生成使用说明:
解压一键包,依次打开 configs\inference,用记事本或者其他编辑器打开 batch.yaml

task_0:
video_path: "data/video/1.mp4"
audio_path: "data/audio/1.wav"
bbox_shift: -7
task_1:
video_path: "data/video/2.mp4"
audio_path: "data/audio/2.wav"
bbox_shift: -7

一个视频对应一个task,以此类推,把所有的素材放到一个目录里,比如存放在data下的video和audio,一个存放视频,一个存放音频,注意视频和音频文件名不要搞错了。
bbox就是控制嘴巴张开幅度的。
配置完成后,保存。
最后启动 一键启动批量处理,等待完成。显存低于8G不要使用批量,容易爆显存。


下载地址:
123云盘:https://www.123684.com/s/OYeA-ed1Bh 提取码:6666 备用链接:https://www.123912.com/s/OYeA-ed1Bh 提取码:6666
百度网盘:**** 本内容需购买 ****

解压密码:https://deepfaces.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

ken7121 发表于 2025-5-21 13:20:56

本帖最后由 ken7121 于 2025-5-21 13:23 编辑

測試重繪沒問題
開始生成就都是錯誤
影片是不是有規定寬高比?

https://image.bingfong.com/images/20250521131703187.jpg



https://image.bingfong.com/images/20250521131737179.jpg



請指導,謝謝!

无言以对 发表于 2025-5-21 14:11:18

ken7121 发表于 2025-5-21 13:20
測試重繪沒問題
開始生成就都是錯誤
影片是不是有規定寬高比?

你换个素材,人脸不要太大。要 露出完整的人脸

ken7121 发表于 2025-5-21 18:47:52

本帖最后由 ken7121 于 2025-5-21 18:49 编辑

无言以对 发表于 2025-5-21 14:11
你换个素材,人脸不要太大。要 露出完整的人脸
後來用16:9的視頻跟1:1的視頻 有成功!
就是嘴巴模糊
不幸的事 再度發生
如下:

https://image.bingfong.com/images/20250521184342829.jpg

https://image.bingfong.com/images/20250521184822779.jpg

重新啟動多次
結果都是一樣

是不是太美也不行?
;P
請指導
謝謝!

lujun1996 发表于 2025-5-23 18:39:57

ken7121 发表于 2025-5-21 18:47
後來用16:9的視頻跟1:1的視頻 有成功!
就是嘴巴模糊
不幸的事 再度發生


楼主的实验都有帮助

kylewong0080 发表于 2025-6-9 17:14:24

您好,我想问一下这个支持50系显卡吗

无言以对 发表于 2025-6-9 17:47:30

kylewong0080 发表于 2025-6-9 17:14
您好,我想问一下这个支持50系显卡吗

帖子里写有支持50系的就支持, 没写的就不支持

无言以对 发表于 2025-6-9 23:13:30

kylewong0080 发表于 2025-6-9 17:14
您好,我想问一下这个支持50系显卡吗

这个支持50系显卡 点此进入

touvidia 发表于 2025-6-16 16:19:16

批处理的时候报错:
Video generation command: ffmpeg -y -v warning -r 30.0 -f image2 -i results\batch\v15\test_1m_854_test_tst_audio_1/%08d.png -vcodec libx264 -vf format=yuv420p -crf 18 results\batch\v15/temp_test_1m_854_test_tst_audio_1.mp4

Could not open file : results\batch\v15\test_1m_854_test_tst_audio_1/00001658.png

results\batch\v15\test_1m_854_test_tst_audio_1/%08d.png: I/O error

touvidia 发表于 2025-6-16 22:04:07

touvidia 发表于 2025-6-16 16:19
批处理的时候报错:
Video generation command: ffmpeg -y -v warning -r 30.0 -f image2 -i results\batch ...

不过这个报错似乎并没有啥影响,最后批处理结果还是正常都生成并保存了的。
页: [1] 2
查看完整版本: MuseTalk V3版 - 音频驱动视频生成数字人说话视频 本地一键整合包下载