无言以对 发表于 2025-8-24 09:42:54

MODA - 音频驱动头像生成数字人说话动画视频 支持50系显卡 一键整合包下载


MoDA 是一个由阿里巴巴达摩院和浙江大学团队开发的数字人(数字虚拟形象)生成项目,只需要一张图片加一段驱动音频,即可生成数字人说话视频动画。
MoDA 结合了多种信息源(比如音频和图像特征),让生成的头像更加真实、生动。且简化了生成过程,使得生成头像的速度更快,效率更高。特别适合需要可控数字人生成的研发场景。


今天分享的一键包基于 MoDA 整合制作,支持单次和批量生成。和以往的类似项目不同,MoDA 不仅支持人物头像生成,还支持半身照和全身照生成,但默认不支持肢体动作,只有头部动作,测试下来,半身照效果也不错。


应用领域

虚拟主播/助手‌:可生成能自然对话的AI数字人,用于直播、客服等场景。 ‌
教育娱乐‌:制作会讲课的虚拟教师或游戏NPC,增强互动体验。 ‌
跨语言交流‌:通过数字人实现语音驱动的外语口型同步,辅助语言学习。 ‌
影视制作‌:快速生成虚拟角色动画,降低特效制作成本。



使用教程:(建议N卡,显存8G起,支持50系显卡)

单次生成:(迅雷网盘链接,只支持单次生成)上传需要生成的头像和驱动音频,生成即可。(不包含模型,需手动点击下载模型下载)
批量生成:(百度网盘链接,支持单次和批量):批量上传多个头像和驱动音频,选择配对模式,可选按照上传文件顺序匹配,也可以按照对应的文件名匹配,最后点批量生成即可。(包含模型,解压即用)


下载地址:

迅雷云盘:https://pan.xunlei.com/s/VOYP-Op7jtTGSWzZEp6V0tVoA1?pwd=cuv6

百度网盘:**** 本内容需购买 ****



页: [1]
查看完整版本: MODA - 音频驱动头像生成数字人说话动画视频 支持50系显卡 一键整合包下载