Ditto - 实时可控的数字人说话合成,更高质量的数字人生成框架 本地一键整合包下载
Ditto 是由蚂蚁集团开源的实时可控说话头合成框架。只需要上传一张图像和一段音频,即可实现了高精度、低延迟的说话头动画生成。
Ditto 支持真人、二次元、虚拟IP等全场景适配,可创建多样化数字分身,还支持歌曲驱动生成,更具备精细控制头部表情动作,比如凝视、头部姿势、情绪等,除了驱动头部,还支持半身和全身肖像。
Ditto 轻量级推理引擎仅需4GB显存即可运行,兼容主流消费级显卡,实测10秒的音频生成基本在30秒内可以完成,老显卡也能快速完成推理生成。
技术特点
实时可控合成:Ditto通过优化音频特征提取、运动生成和视频合成三个关键组件,实现了实时推理和低首帧延迟。 支持对合成说话头的精细控制,如目光、头部姿态和情感表达。
高精度动画生成:采用扩散模型生成细腻的表情和自然的头部动作,与音频信号高度同步。 解决了传统方法中推理速度慢、面部运动控制不够精细以及视觉伪影等问题。
显式身份无关运动空间:通过引入显式身份无关运动空间,替代了传统的变分自编码器(VAE)表示。 这一设计降低了扩散学习的复杂性,同时提高了合成说话头的可控性和逼真度。
多风格与个性化适配:Ditto支持多种风格的说话头动画生成,满足不同应用场景的需求。 通过在线模仿学习机制,可快速适配个性化交互需求,如虚拟形象风格定制。
应用领域
虚拟助手与AI客服:Ditto能够生成与语音同步的高保真说话头动画,为虚拟助手和AI客服提供逼真的交互体验。适用于电商直播、在线服务等场景,增强用户互动感。
娱乐与游戏:在短视频平台、游戏NPC等娱乐场景中,Ditto可用于生成个性化的虚拟形象。 支持多种风格的表情与动作,提升娱乐内容的趣味性和多样性。
教育与培训:在线教育平台可利用Ditto技术创建虚拟教师,为学生提供沉浸式学习体验。 支持多语言虚拟主持人功能,适用于国际教育和跨文化交流。
企业服务与营销:企业可利用Ditto生成虚拟发言人,用于会议记录、产品发布等场景。 定制化虚拟形象有助于品牌塑造和市场推广。
使用教程:(建议N卡,显存4G起。基于CUDA12.1)
上传一张参考图和一段驱动音频,提交生成即可。
视频教程:https://www.toutiao.com/video/7484834221052166666/
下载地址:(10/20系卡无法使用,只支持30/40系N卡)
迅雷云盘:https://pan.xunlei.com/s/VOLyMDOHeHq9x3WlceZhlSccA1?=pwd=5rse
夸克网盘:https://pan.quark.cn/s/e8f7cc5e076e
百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可
这个显存要求低喔。不知道效果如何,期待一键包,谢谢 С нетерпением протестирую Спасибо!! 什么情况
maya2024 发表于 2025-3-23 12:48
什么情况
20系不支持,后面为了兼容50系卡,估计会全面淘汰20系老卡
建议换新卡吧 亲自试了下,8秒语音,生成速度在30秒以内
本人4060TI显卡 jerryleee1 发表于 2025-3-24 20:15
亲自试了下,8秒语音,生成速度在30秒以内
本人4060TI显卡
生成速度和质量都很优秀 本帖最后由 ken7121 于 2025-3-26 00:23 编辑
https://image.bingfong.com/images/20250325235829420.jpg
https://image.bingfong.com/images/20250326000154425.jpg
https://image.bingfong.com/images/20250326002156849.jpg
visual 全安裝
不知道還缺了什麼?
ken7121 发表于 2025-3-26 00:06
visual 全安裝
不知道還缺了什麼?
你是什么显卡 本帖最后由 ken7121 于 2025-3-28 14:59 编辑
无言以对 发表于 2025-3-26 08:06
你是什么显卡
N卡rtx 4060 8g
页:
[1]
2