无言以对 发表于 2025-1-20 22:30:21

Sonic 原尺寸生成补丁包- 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载



Sonic 是腾讯联合浙江大学共同开源的基于全局音频感知的肖像动画技术,支持提供一张图片和一段音频驱动图片生成说话/唱歌数字人视频,且Sonic将重点转移到探索全球音频感知上,生成的视频保持与音频一致的更广泛的表情,头部运动和表情更加自然真实。
Sonic 支持各种风格的人像生成,比如真人、风格化及卡通人物,且很好地适应了非真实人类案例或多分辨率比率的泛化。在长视频生成领域,也能保持稳定和生成效果,突出了我们的时间感知位置偏移融合技术的有效性和独创性。

这两天有很多小伙伴私信咨询,是否可以生成不裁切的原素材视频,答案是肯定的。



这是默认生成裁切效果,可以和上图做对比。

因为默认生成的效果是裁切过的“大头照”,之所以会默认开启裁切,是因为要节约显存占用和提升生成速度。
今天发布的是生成原图的补丁包,不会自动裁切,但对显卡要求较高,建议显卡4090或者A100等高端卡使用,否则速度非常慢。实测10s生成不开启裁切比开启裁切慢近20倍。
下载此补丁需要下载Sonic完整一键包,下载链接点此

使用教程:
下载一键包,复制到一键包根目录,解压到当前文件夹,根据提示覆盖即可。
上传一张参考图和一段驱动音频,音频时长建议不超过10秒,一键生成即可。


下载地址:(此为补丁包,需要下载完整的 Sonic一键包)
**** Hidden Message *****


nsctt 发表于 2025-1-20 23:07:31

试下补丁下,谢谢

wemade 发表于 2025-1-21 00:22:00

感谢楼主分享~

921893689 发表于 2025-1-21 02:02:02

6666665555

[email protected] 发表于 2025-1-21 14:43:23

感谢楼主分享

leon5hongxuan 发表于 2025-1-21 15:09:45

硬件消耗是不是增加了?

zhanzhangtuijia 发表于 2025-1-21 15:38:05

weqw1rqrqhetyhe

sgcinewcoomer 发表于 2025-1-21 15:51:28

感谢楼主分享~

jackyguo 发表于 2025-1-25 21:54:31

我怎么说之前的启动有点问题

wdsjddzy 发表于 2025-2-5 15:19:31

感谢楼主分享
页: [1] 2 3
查看完整版本: Sonic 原尺寸生成补丁包- 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载