无言以对 发表于 2025-1-17 11:48:43

Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载



Sonic 是腾讯联合浙江大学共同开源的基于全局音频感知的肖像动画技术,支持提供一张图片和一段音频驱动图片生成说话/唱歌数字人视频。
Sonic 利用音频信息来控制面部表情和头部运动,从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下,生成稳定且逼真的长视频。
Sonic 支持各种风格的人像生成,比如真人、风格化及卡通人物,且很好地适应了非真实人类案例或多分辨率比率的泛化。在长视频生成领域,也能保持稳定和生成效果,突出了我们的时间感知位置偏移融合技术的有效性和独创性。

项目优势
上下文增强音频学习:提取长时间片段的音频知识,提供面部表情和唇部运动的先验信息。
运动解耦控制器:独立控制头部和表情运动,实现更自然的动画效果。
时间感知位置移位融合:融合全局音频信息,生成长时间稳定的视频。
多样化视频生成:支持不同风格的图像和多种分辨率的视频生成。
与开源和闭源方法的对比:展示 Sonic 在表情丰富度和头部运动自然度上的优势。

使用教程:(建议N卡,显存12G起,需要开启内存回退策略,最好16G显存)
上传一张参考图和一段驱动音频,音频时长建议不超过10秒,一键生成即可。
实测rtx3060开启内存回退策略,生成10s音频耗时5分钟左右。


下载地址:
夸克网盘:**** 本内容需购买 ****
百度网盘:**** 本内容需购买 ****


haidai 发表于 2025-1-17 18:17:14

正好66碎银,这么的就没了:'(

nsctt 发表于 2025-1-17 21:01:52

这个好像不错喔。谢谢分享

xxxq 发表于 2025-1-18 00:59:29

用样片生成十多秒,开始报错了。

return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined】

{'face_num': 1, 'crop_bbox': 【2, 0, 512, 510】}

LLVM ERROR: Symbol not found: __svml_cosf8_ha

无言以对 发表于 2025-1-18 01:22:17

xxxq 发表于 2025-1-18 00:59
用样片生成十多秒,开始报错了。

return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined ...

报 LLVM ERROR: Symbol not found: __svml_cosf8_ha 错误,这个是系统缺少svml_dispmd.dll这个动态链接库,到这里 https://www.dll-files.com/svml_dispmd.dll.html 下载这个文件,复制到 C:\Windows\System32中即可

slmonker 发表于 2025-1-18 21:00:22

本帖最后由 slmonker 于 2025-1-18 21:01 编辑

下载一下感受感受

songjiaqi 发表于 2025-1-19 01:31:35

照片不想被裁切要怎么设置

无言以对 发表于 2025-1-19 09:30:56

songjiaqi 发表于 2025-1-19 01:31
照片不想被裁切要怎么设置

这个主要是驱动头部的,且是固定比例,合成后可以再用其他软件和原始人物比如全身人再合并。

xuyi263 发表于 2025-3-11 17:11:02

钱太难赚了

china_jian 发表于 2025-3-14 14:27:30

要是有不裁剪的就好了,现在貌似都是要二次拼接的。
页: [1] 2
查看完整版本: Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载