Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载
Sonic 是腾讯联合浙江大学共同开源的基于全局音频感知的肖像动画技术,支持提供一张图片和一段音频驱动图片生成说话/唱歌数字人视频。
Sonic 利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下,生成稳定且逼真的长视频。
Sonic 支持各种风格的人像生成,比如真人、风格化及卡通人物,且很好地适应了非真实人类案例或多分辨率比率的泛化。在长视频生成领域,也能保持稳定和生成效果,突出了我们的时间感知位置偏移融合技术的有效性和独创性。
项目优势
上下文增强音频学习:提取长时间片段的音频知识,提供面部表情和唇部运动的先验信息。
运动解耦控制器:独立控制头部和表情运动,实现更自然的动画效果。
时间感知位置移位融合:融合全局音频信息,生成长时间稳定的视频。
多样化视频生成:支持不同风格的图像和多种分辨率的视频生成。
与开源和闭源方法的对比:展示 Sonic 在表情丰富度和头部运动自然度上的优势。
使用教程:(建议N卡,显存12G起,需要开启内存回退策略,最好16G显存)
上传一张参考图和一段驱动音频,音频时长建议不超过10秒,一键生成即可。
实测rtx3060开启内存回退策略,生成10s音频耗时5分钟左右。
下载地址:
夸克网盘:**** 本内容需购买 ****
百度网盘:**** 本内容需购买 ****
正好66碎银,这么的就没了:'( 这个好像不错喔。谢谢分享 用样片生成十多秒,开始报错了。
return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined】
{'face_num': 1, 'crop_bbox': 【2, 0, 512, 510】}
LLVM ERROR: Symbol not found: __svml_cosf8_ha xxxq 发表于 2025-1-18 00:59
用样片生成十多秒,开始报错了。
return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined ...
报 LLVM ERROR: Symbol not found: __svml_cosf8_ha 错误,这个是系统缺少svml_dispmd.dll这个动态链接库,到这里 https://www.dll-files.com/svml_dispmd.dll.html 下载这个文件,复制到 C:\Windows\System32中即可 本帖最后由 slmonker 于 2025-1-18 21:01 编辑
下载一下感受感受 照片不想被裁切要怎么设置 songjiaqi 发表于 2025-1-19 01:31
照片不想被裁切要怎么设置
这个主要是驱动头部的,且是固定比例,合成后可以再用其他软件和原始人物比如全身人再合并。 钱太难赚了 要是有不裁剪的就好了,现在貌似都是要二次拼接的。
页:
[1]
2