Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2026-4-16 22:21:38

Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音一键整合包下载

Woosh 是 Sony AI 开发的一套「音效生成模型」，它能根据文字或视频自动生成音效，帮助创作者快速获得高质量的声音素材。简单说，就是用 AI 根据文字描述或视频画面自动生成真实、自然的音效。
Woosh 就像配音师一样，可以“看文字画声音”或“看视频配声音”。比如，你输入「一只猫在木地板上慢慢走路」，它就能生成「猫爪踩地板的轻微咔嗒声」。你给一段默声视频（比如人走路、物体碰撞、雨天场景），它能自动配上匹配的背景音效。

核心特点

质量高：Sony 专门针对「音效」（Sound Effects）优化，而不是泛泛的音乐或语音，听起来自然、细节丰富。
支持文字 + 视频双输入：既能纯文字生成，也能给视频自动配音。
开源权重：你可以直接下载模型自己跑（提供推理代码）。
有蒸馏版（DFlow）：速度更快，适合普通电脑或实时应用。
专业音效向：特别擅长生成各种现实生活中的声音（脚步、碰撞、环境声、动物叫等），适合影视后期。

应用领域

影视后期与游戏开发：快速自动生成音效，节省人工录制成本。
视频内容创作：给短视频、Vlog、TikTok 等自动加音效。
虚拟现实 / 元宇宙：根据场景实时生成声音，提升沉浸感。
无障碍辅助：为无声视频自动配音，帮助视障人士理解内容。
创意工具：设计师、音乐人、独立开发者可以用文字快速试听各种音效idea。

使用教程：（建议N卡，显存4G起，支持50系显卡）

整合包包含所需所有节点，下载主程序压缩包和模型（ComfyUI文件夹即为模型），解压主程序压缩包，然后将ComfyUI文件夹移动到主程序目录下即可。

支持文本转语言和视频转语言两个模块
文本转语音：输入文字描述，生成对应音效；
视频转语言：上传视频，自动根据视频内容配上适合的音效；

关于模型选择：
包含文本转语言模型和视频转语言模型

文本转语音包含Flow和DFlow
Flow生成效果更好，占用显存更高（8-12G显存），速度略慢，对应参数为步数=50；cfg=4.5
DFlow生成效果略差，占用显存更低（6-8G显存），速度更快，对应参数为步数=4；cfg=1

视频转语音包含VFlow和DVFlow
VFlow生成效果更好，占用显存更高（8-12G显存），速度略慢，对应参数为步数=50；cfg=4.5
DVFlow生成效果略差，占用显存更低（6-8G显存），速度更快，对应参数为步数=4；cfg=1

切换模型的同时，记得切换模型类型，比如模型为 Woosh-Flow，模型类型对应切换成 Flow

软件目录结构

📂 ComfyUI/
├── 📂 models/
│ └── 📂 woosh/
│    ├── 📂 Woosh-Flow
│    │    ├── config.yaml
│    │    └── weights.safetensors
│    ├── 📂 Woosh-DFlow
│    │    ├── config.yaml
│    │    └── weights.safetensors
│    │    ......
📂 deepface/
......

下载地址：
UC网盘：https://drive.uc.cn/s/1ce4394ee0f74

夸克网盘：
**** 本内容需购买 ****

百度网盘：
**** 本内容需购买 ****

页: [1]

前沿AI软件资源站's Archiver

Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音 一键整合包下载

Woosh - 文字、视频一键生成逼真音效 AI音效生成/视频配音一键整合包下载