马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
StableAvatar - 音频驱动图像无限长度真人说话视频生成 支持50系显卡 一键整合包下载 ... ... ...
StableAvatar 是由复旦大学和微软研究院等机构联合开发的音频驱动虚拟人视频生成框架,能够根据一张参考图像和一段音频,直接生成无限长度的高质量、音频驱动的虚拟形象视频,无需任何后期处理。这意味着,你可以提供一个角色的照片和一段说话或唱歌的音频,StableAvatar 就能生成一个这个角色随着音频“说话”或“唱歌”的流畅视频。
核心特点
无限长度视频生成: StableAvatar 是首个能够生成无限长度视频的模型,理论上可以合成数小时的视频,而不会显著降低质量。
高质量与身份保持: 生成的视频不仅质量高,而且能够很好地保持原始角色的身份特征,即视频中的角色看起来始终是同一个人。
无需后期处理: 与其他方法不同,StableAvatar 生成的视频不需要任何额外的面部处理工具(如面部交换或面部修复模型)进行后期处理。
音频同步与自然: 通过创新的时间步感知音频适配器和音频原生引导机制,StableAvatar 能够确保视频中的角色动作与音频完美同步,看起来非常自然。
动态加权滑动窗口策略: 为了增强无限长度视频的平滑性,StableAvatar 引入了动态加权滑动窗口策略,使视频中的动作过渡更加流畅。
多分辨率支持: 支持生成512x512、480x832和832x480三种不同分辨率的视频,满足不同场景的需求。
高效的内存使用: 提供了多种GPU内存模式,包括模型全加载、顺序CPU卸载、模型CPU卸载和qfloat8模式,以适应不同硬件条件下的使用需求。
应用领域
虚拟主播与数字人: StableAvatar 可以用于创建虚拟主播,使其能够根据输入的音频实时生成对应的口型和面部表情,提升直播的互动性和真实感。
影视与动画制作: 在影视和动画制作中,StableAvatar 可以用于快速生成角色的对话场景,减少手动动画制作的工作量和时间成本。
游戏开发: 游戏开发者可以利用StableAvatar为游戏角色添加更加自然和丰富的口型同步和面部表情,提升游戏的沉浸感和用户体验。
在线教育: 在线教育平台可以使用StableAvatar创建虚拟教师,根据讲解内容实时生成对应的口型和表情,使教学更加生动有趣。
广告与营销: 广告商可以利用StableAvatar快速生成具有个性化特征的虚拟形象视频,用于产品宣传和推广,吸引更多用户的关注。
使用教程:(建议N卡,显存12G起,支持50系列显卡,基于CUDA12.8)
启动WebUI后,点击上方模型设置,根据自己的显卡切换模型。显存小于24G,建议选择 model_cpu_offload,显存在24G或以上,直接默认。
上传一张图片和驱动音频,音频可以是说话音频,也可以是唱歌音频,设置相关参数,生成即可。如果效果不好,可以增加推理步数,再次生成。
WebUI集成了音频提取和人声分离两个模块,可以直接从视频里提取音频,并分离人声。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOZ-_LIb7HuJTC6fvyAnaDZGA1?pwd=tmhe
百度网盘:游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 下载该资源 立即购买
|