|
Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载 ... ... ... ... ... ... ...
Sonic 是腾讯联合浙江大学共同开源的基于全局音频感知的肖像动画技术,支持提供一张图片和一段音频驱动图片生成说话/唱歌数字人视频。
Sonic 利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下,生成稳定且逼真的长视频。
Sonic 支持各种风格的人像生成,比如真人、风格化及卡通人物,且很好地适应了非真实人类案例或多分辨率比率的泛化。在长视频生成领域,也能保持稳定和生成效果,突出了我们的时间感知位置偏移融合技术的有效性和独创性。
项目优势
上下文增强音频学习:提取长时间片段的音频知识,提供面部表情和唇部运动的先验信息。
运动解耦控制器:独立控制头部和表情运动,实现更自然的动画效果。
时间感知位置移位融合:融合全局音频信息,生成长时间稳定的视频。
多样化视频生成:支持不同风格的图像和多种分辨率的视频生成。
与开源和闭源方法的对比:展示 Sonic 在表情丰富度和头部运动自然度上的优势。
使用教程:(建议N卡,显存12G起,需要开启内存回退策略,最好16G显存)
上传一张参考图和一段驱动音频,音频时长建议不超过10秒,一键生成即可。
实测rtx3060开启内存回退策略,生成10s音频耗时5分钟左右。
下载地址:
夸克网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 下载该资源 立即购买
百度网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源 立即购买
|
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。
|