无言以对 发表于 2025-3-22 19:31:45

Ditto - 实时可控的数字人说话合成,更高质量的数字人生成框架 本地一键整合包下载



Ditto 是由蚂蚁集团开源的实时可控说话头合成框架。只需要上传一张图像和一段音频,即可实现了高精度、低延迟的说话头动画生成。
Ditto 支持真人、二次元、虚拟IP等全场景适配,可创建多样化数字分身,还支持歌曲驱动生成,更具备精细控制头部表情动作,比如凝视、头部姿势、情绪等,除了驱动头部,还支持半身和全身肖像。
Ditto 轻量级推理引擎仅需4GB显存即可运行,兼容主流消费级显卡,实测10秒的音频生成基本在30秒内可以完成,老显卡也能快速完成推理生成。

技术特点 ‌
实时可控合成‌:Ditto通过优化音频特征提取、运动生成和视频合成三个关键组件,实现了实时推理和低首帧延迟。 支持对合成说话头的精细控制,如目光、头部姿态和情感表达。 ‌
高精度动画生成‌:采用扩散模型生成细腻的表情和自然的头部动作,与音频信号高度同步。 解决了传统方法中推理速度慢、面部运动控制不够精细以及视觉伪影等问题。 ‌
显式身份无关运动空间‌:通过引入显式身份无关运动空间,替代了传统的变分自编码器(VAE)表示。 这一设计降低了扩散学习的复杂性,同时提高了合成说话头的可控性和逼真度。 ‌
多风格与个性化适配‌:Ditto支持多种风格的说话头动画生成,满足不同应用场景的需求。 通过在线模仿学习机制,可快速适配个性化交互需求,如虚拟形象风格定制。


应用领域 ‌
虚拟助手与AI客服‌:Ditto能够生成与语音同步的高保真说话头动画,为虚拟助手和AI客服提供逼真的交互体验。适用于电商直播、在线服务等场景,增强用户互动感。 ‌
娱乐与游戏‌:在短视频平台、游戏NPC等娱乐场景中,Ditto可用于生成个性化的虚拟形象。 支持多种风格的表情与动作,提升娱乐内容的趣味性和多样性。 ‌
教育与培训‌:在线教育平台可利用Ditto技术创建虚拟教师,为学生提供沉浸式学习体验。 支持多语言虚拟主持人功能,适用于国际教育和跨文化交流。 ‌
企业服务与营销‌:企业可利用Ditto生成虚拟发言人,用于会议记录、产品发布等场景。 定制化虚拟形象有助于品牌塑造和市场推广。


使用教程:(建议N卡,显存4G起。基于CUDA12.1)
上传一张参考图和一段驱动音频,提交生成即可。
视频教程:https://www.toutiao.com/video/7484834221052166666/


下载地址:(10/20系卡无法使用,只支持30/40系N卡)
迅雷云盘:https://pan.xunlei.com/s/VOLyMDOHeHq9x3WlceZhlSccA1?=pwd=5rse
夸克网盘:https://pan.quark.cn/s/e8f7cc5e076e
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

nsctt 发表于 2025-3-22 20:16:44

这个显存要求低喔。不知道效果如何,期待一键包,谢谢

viktor1982 发表于 2025-3-23 00:58:34

С нетерпением протестирую Спасибо!!

maya2024 发表于 2025-3-23 12:48:48

什么情况

无言以对 发表于 2025-3-23 12:51:02

maya2024 发表于 2025-3-23 12:48
什么情况
20系不支持,后面为了兼容50系卡,估计会全面淘汰20系老卡
建议换新卡吧

jerryleee1 发表于 2025-3-24 20:15:45

亲自试了下,8秒语音,生成速度在30秒以内
本人4060TI显卡

无言以对 发表于 2025-3-24 20:25:05

jerryleee1 发表于 2025-3-24 20:15
亲自试了下,8秒语音,生成速度在30秒以内
本人4060TI显卡

生成速度和质量都很优秀

ken7121 发表于 2025-3-26 00:06:33

本帖最后由 ken7121 于 2025-3-26 00:23 编辑

https://image.bingfong.com/images/20250325235829420.jpg

https://image.bingfong.com/images/20250326000154425.jpg

https://image.bingfong.com/images/20250326002156849.jpg

visual 全安裝
不知道還缺了什麼?


无言以对 发表于 2025-3-26 08:06:34

ken7121 发表于 2025-3-26 00:06
visual 全安裝
不知道還缺了什麼?

你是什么显卡

ken7121 发表于 2025-3-28 14:56:53

本帖最后由 ken7121 于 2025-3-28 14:59 编辑

无言以对 发表于 2025-3-26 08:06
你是什么显卡
N卡rtx 4060 8g
页: [1] 2
查看完整版本: Ditto - 实时可控的数字人说话合成,更高质量的数字人生成框架 本地一键整合包下载