Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音 一键整合包下载
Woosh 是 Sony AI 开发的一套「音效生成模型」,它能根据文字或视频自动生成音效,帮助创作者快速获得高质量的声音素材。简单说,就是用 AI 根据文字描述或视频画面自动生成真实、自然的音效。
Woosh 就像配音师一样,可以“看文字画声音”或“看视频配声音”。比如,你输入「一只猫在木地板上慢慢走路」,它就能生成「猫爪踩地板的轻微咔嗒声」。 你给一段默声视频(比如人走路、物体碰撞、雨天场景),它能自动配上匹配的背景音效。
核心特点
质量高:Sony 专门针对「音效」(Sound Effects)优化,而不是泛泛的音乐或语音,听起来自然、细节丰富。
支持文字 + 视频双输入:既能纯文字生成,也能给视频自动配音。
开源权重:你可以直接下载模型自己跑(提供推理代码)。
有蒸馏版(DFlow):速度更快,适合普通电脑或实时应用。
专业音效向:特别擅长生成各种现实生活中的声音(脚步、碰撞、环境声、动物叫等),适合影视后期。
应用领域
影视后期与游戏开发:快速自动生成音效,节省人工录制成本。
视频内容创作:给短视频、Vlog、TikTok 等自动加音效。
虚拟现实 / 元宇宙:根据场景实时生成声音,提升沉浸感。
无障碍辅助:为无声视频自动配音,帮助视障人士理解内容。
创意工具:设计师、音乐人、独立开发者可以用文字快速试听各种音效idea。
使用教程:(建议N卡,显存4G起,支持50系显卡)
整合包包含所需所有节点,下载主程序压缩包和模型(ComfyUI文件夹即为模型),解压主程序压缩包,然后将ComfyUI文件夹移动到主程序目录下即可。
支持文本转语言和视频转语言两个模块
文本转语音:输入文字描述,生成对应音效;
视频转语言:上传视频,自动根据视频内容配上适合的音效;
关于模型选择:
包含文本转语言模型和视频转语言模型
文本转语音包含Flow和DFlow
Flow生成效果更好,占用显存更高(8-12G显存),速度略慢,对应参数为步数=50;cfg=4.5
DFlow生成效果略差,占用显存更低(6-8G显存),速度更快,对应参数为步数=4;cfg=1
视频转语音包含VFlow和DVFlow
VFlow生成效果更好,占用显存更高(8-12G显存),速度略慢,对应参数为步数=50;cfg=4.5
DVFlow生成效果略差,占用显存更低(6-8G显存),速度更快,对应参数为步数=4;cfg=1
切换模型的同时,记得切换模型类型,比如模型为 Woosh-Flow,模型类型对应切换成 Flow
软件目录结构
📂 ComfyUI/
├── 📂 models/
│ └── 📂 woosh/
│ ├── 📂 Woosh-Flow
│ │ ├── config.yaml
│ │ └── weights.safetensors
│ ├── 📂 Woosh-DFlow
│ │ ├── config.yaml
│ │ └── weights.safetensors
│ │ ......
📂 deepface/
......
下载地址:
UC网盘:https://drive.uc.cn/s/1ce4394ee0f74
夸克网盘:
**** 本内容需购买 ****
百度网盘:
**** 本内容需购买 ****
页:
[1]