Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型本地一键整合包下载 - AI数字人 - 前沿AI软件资源站

无言以对 发表于 2025-1-17 11:48:43

Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型本地一键整合包下载

Sonic 是腾讯联合浙江大学共同开源的基于全局音频感知的肖像动画技术，支持提供一张图片和一段音频驱动图片生成说话/唱歌数字人视频。
Sonic 利用音频信息来控制面部表情和头部运动，从而生成自然流畅的动画视频。Sonic 的核心技术包括上下文增强音频学习、运动解耦控制器和时间感知位置移位融合模块。这些技术使得 Sonic 能够在不同风格的图像和各种类型的音频输入下，生成稳定且逼真的长视频。
Sonic 支持各种风格的人像生成，比如真人、风格化及卡通人物，且很好地适应了非真实人类案例或多分辨率比率的泛化。在长视频生成领域，也能保持稳定和生成效果，突出了我们的时间感知位置偏移融合技术的有效性和独创性。

项目优势
上下文增强音频学习：提取长时间片段的音频知识，提供面部表情和唇部运动的先验信息。
运动解耦控制器：独立控制头部和表情运动，实现更自然的动画效果。
时间感知位置移位融合：融合全局音频信息，生成长时间稳定的视频。
多样化视频生成：支持不同风格的图像和多种分辨率的视频生成。
与开源和闭源方法的对比：展示 Sonic 在表情丰富度和头部运动自然度上的优势。

使用教程：（建议N卡，显存12G起，需要开启内存回退策略，最好16G显存）
上传一张参考图和一段驱动音频，音频时长建议不超过10秒，一键生成即可。
实测rtx3060开启内存回退策略，生成10s音频耗时5分钟左右。

下载地址：
夸克网盘：**** 本内容需购买 ****
百度网盘：**** 本内容需购买 ****

haidai 发表于 2025-1-17 18:17:14

正好66碎银，这么的就没了:'(

nsctt 发表于 2025-1-17 21:01:52

这个好像不错喔。谢谢分享

xxxq 发表于 2025-1-18 00:59:29

用样片生成十多秒，开始报错了。

return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined】

{'face_num': 1, 'crop_bbox': 【2, 0, 512, 510】}

LLVM ERROR: Symbol not found: __svml_cosf8_ha

无言以对 发表于 2025-1-18 01:22:17

xxxq 发表于 2025-1-18 00:59
用样片生成十多秒，开始报错了。

return _VF.meshgrid(tensors, **kwargs) # type: ignore【attr-defined ...

报 LLVM ERROR: Symbol not found: __svml_cosf8_ha 错误，这个是系统缺少svml_dispmd.dll这个动态链接库，到这里 https://www.dll-files.com/svml_dispmd.dll.html 下载这个文件，复制到 C:\Windows\System32中即可

slmonker 发表于 2025-1-18 21:00:22

本帖最后由 slmonker 于 2025-1-18 21:01 编辑

下载一下感受感受

songjiaqi 发表于 2025-1-19 01:31:35

照片不想被裁切要怎么设置

无言以对 发表于 2025-1-19 09:30:56

songjiaqi 发表于 2025-1-19 01:31
照片不想被裁切要怎么设置

这个主要是驱动头部的，且是固定比例，合成后可以再用其他软件和原始人物比如全身人再合并。

xuyi263 发表于 2025-3-11 17:11:02

钱太难赚了

china_jian 发表于 2025-3-14 14:27:30

要是有不裁剪的就好了，现在貌似都是要二次拼接的。

页: [1] 2

前沿AI软件资源站's Archiver

Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型 本地一键整合包下载

Sonic - 腾讯浙大开源语音驱动图片生成唱歌/说话数字人模型本地一键整合包下载