无言以对 发表于 4 天前

Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音 一键整合包下载


Woosh 是 Sony AI 开发的一套「音效生成模型」,它能根据文字或视频自动生成音效,帮助创作者快速获得高质量的声音素材。简单说,就是用 AI 根据文字描述或视频画面自动生成真实、自然的音效。
Woosh 就像配音师一样,可以“看文字画声音”或“看视频配声音”。比如,你输入「一只猫在木地板上慢慢走路」,它就能生成「猫爪踩地板的轻微咔嗒声」。 你给一段默声视频(比如人走路、物体碰撞、雨天场景),它能自动配上匹配的背景音效。



核心特点

质量高:Sony 专门针对「音效」(Sound Effects)优化,而不是泛泛的音乐或语音,听起来自然、细节丰富。
支持文字 + 视频双输入:既能纯文字生成,也能给视频自动配音。
开源权重:你可以直接下载模型自己跑(提供推理代码)。
有蒸馏版(DFlow):速度更快,适合普通电脑或实时应用。
专业音效向:特别擅长生成各种现实生活中的声音(脚步、碰撞、环境声、动物叫等),适合影视后期。



应用领域

影视后期与游戏开发:快速自动生成音效,节省人工录制成本。
视频内容创作:给短视频、Vlog、TikTok 等自动加音效。
虚拟现实 / 元宇宙:根据场景实时生成声音,提升沉浸感。
无障碍辅助:为无声视频自动配音,帮助视障人士理解内容。
创意工具:设计师、音乐人、独立开发者可以用文字快速试听各种音效idea。




使用教程:(建议N卡,显存4G起,支持50系显卡)

整合包包含所需所有节点,下载主程序压缩包和模型(ComfyUI文件夹即为模型),解压主程序压缩包,然后将ComfyUI文件夹移动到主程序目录下即可。

支持文本转语言和视频转语言两个模块
文本转语音:输入文字描述,生成对应音效;
视频转语言:上传视频,自动根据视频内容配上适合的音效;

关于模型选择:
包含文本转语言模型和视频转语言模型

文本转语音包含Flow和DFlow
Flow生成效果更好,占用显存更高(8-12G显存),速度略慢,对应参数为步数=50;cfg=4.5
DFlow生成效果略差,占用显存更低(6-8G显存),速度更快,对应参数为步数=4;cfg=1

视频转语音包含VFlow和DVFlow
VFlow生成效果更好,占用显存更高(8-12G显存),速度略慢,对应参数为步数=50;cfg=4.5
DVFlow生成效果略差,占用显存更低(6-8G显存),速度更快,对应参数为步数=4;cfg=1

切换模型的同时,记得切换模型类型,比如模型为 Woosh-Flow,模型类型对应切换成 Flow


软件目录结构

📂 ComfyUI/
├── 📂 models/
│   └── 📂 woosh/
│       ├── 📂 Woosh-Flow
│       │      ├── config.yaml
│       │      └── weights.safetensors
│       ├── 📂 Woosh-DFlow
│       │      ├── config.yaml
│       │      └── weights.safetensors
│       │      ......
📂 deepface/
......



下载地址:
UC网盘:https://drive.uc.cn/s/1ce4394ee0f74

夸克网盘:
**** 本内容需购买 ****

百度网盘:
**** 本内容需购买 ****
页: [1]
查看完整版本: Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音 一键整合包下载