无言以对 发表于 2025-7-10 10:55:41

ThinkSound V2版 - 一键给无声视频配音,为AI视频生成匹配音效 支持50系显卡 一键整合包下载



ThinkSound 是阿里通义实验室开源的首个音频生成模型,它能够让AI像专业“音效师”一样,根据视频内容生成高度逼真、与视觉内容完美契合的音频。
ThinkSound 可直接应用于影视后期制作,为AI生成的视频自动匹配精准的环境噪音与爆炸声效;服务于游戏开发领域,实时生成雨势变化等动态场景的自适应音效;同时可以无障碍视频生产,为视障用户同步生成画面描述与环境音效。

今天分享的 ThinkSound V2版,轻量化模型(模型体积由20G缩小至5G)并优化内存(RAM 32G占用减少到12G)和 GPU 使用(VRAM 16G减少至10G),同时生成速度也更快,更新较大,建议更新此版。

应用领域 ‌

创意产业‌:ThinkSound可以极大地助力电影、动画、广告等创意产业的音频制作。它能够为视频内容自动生成高质量的音效和背景音乐,减轻音频师的工作负担,同时提高制作效率和音频质量。 ‌
视频生成模型的配音‌:该框架还可以与视频生成模型配合使用,为这些模型生成的视频提供配音。这意味着,在自动生成视频的同时,也能自动生成与之匹配的音频,进一步推动自动化内容创作的边界。 ‌
音频修复与编辑‌:在音频修复方面,ThinkSound能够准确地恢复被噪声掩盖的音频片段。此外,它还能根据用户的指令对音频进行精细编辑,如添加、删除或修改特定声音元素。 ‌
教育与培训‌:在教育和培训领域,ThinkSound可以用于创建具有丰富音效的多媒体教材,帮助学生更好地理解和记忆学习内容。 ‌
虚拟现实与增强现实‌:在虚拟现实(VR)和增强现实(AR)应用中,ThinkSound可以生成与用户的交互行为实时匹配的音频效果,提升沉浸感和真实感。


使用教程:(建议N卡,显存10G起。支持50系显卡,基于CUDA12.8)

上传需要配音的视频,可选提示词和描述,提交即可。



下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOUmjFVzelM0diHtfGCXvFKPA1?pwd=wenw
百度网盘:**** 本内容需购买 ****

解压密码:https://deepfaces.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

来日方长 发表于 2025-7-10 23:29:55

V2推理速度快太多了

jerrynpc 发表于 2025-7-11 14:07:38

lullulllu 发表于 2025-7-15 17:14:37

之前看这个模型刚发布时需要24G以上的显存,太吓人了

Elain_Eddie 发表于 2025-7-18 18:43:24


Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.52, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
请问为啥显示这个,我无法使用:handshake

ph.li 发表于 2 小时前

Elain_Eddie 发表于 2025-7-18 18:43
Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. ...

我也是到这个位置就不动了,模型已经下载好了,你这边搞定了吗
页: [1]
查看完整版本: ThinkSound V2版 - 一键给无声视频配音,为AI视频生成匹配音效 支持50系显卡 一键整合包下载