Stable Audio Open 发布：文本生成音频，48.6万个样本训练，可创建 47 秒短音频

无言*** · 发表于 2024-6-9 22:34:24

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

6 月 6 日消息，Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源，感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。

项目地址：https://github.com/Stability-AI/stable-audio-tools

在线体验：https://huggingface.co/stabilityai/stable-audio-open-1.0 （需要魔法）

Stability AI最新推出的Stable Audio Open开源AI模型，标志着其在音频领域的进一步拓展。此模型基于用户输入的提示词，能够生成高质量的音频样本，最长可创建47秒的音乐，非常适合于制作鼓点、乐器旋律、环境音和拟声音效等短音频片段。Stable Audio Open的发布，不仅展示了AI技术在音乐和音效创作方面的巨大潜力，也为音乐制作人、音频设计师以及AI爱好者提供了新的工具，使他们能够更轻松地创作和实验音频内容。

1. 技术细节与创新特点

样本训练：Stable Audio Open模型使用了来自FreeSound和FreeMusicArchive等音乐库的486,000种采样进行训练，这使得它具有广泛的音乐理解和创作能力。

创作能力：该模型最长可以创建47秒的音频，特别适合于短音频片段和音效的生成，如鼓点、乐器旋律、环境音和拟声音效等。

技术创新：基于transforms扩散模型（DiT），Stable Audio Open在自动编码器的潜在空间中操作，提高了生成音频的质量和多样性。

2. 与Stable Audio 2.0的比较

开源与专有：Stable Audio Open是一个开源模型，专注于短音频片段和音效，而Stable Audio 2.0则是其专有版本，能够生成最长3分钟的完整音频。

适用场景：Stable Audio Open更适合于需要高质量短音频或特定音效的场景，而Stable Audio 2.0则更适合于需要较长音频的创作，如完整的歌曲或音乐作品。

3. 应用场景与潜在影响

音乐创作：音乐家和作曲家可以使用Stable Audio Open生成独特的旋律和节奏，作为创作的起点或灵感来源。

游戏和娱乐：游戏开发者和影视制作人可以利用该模型创作背景音、音效和环境音乐，增强用户体验和沉浸感。

广告和营销：广告制作中，Stable Audio Open可以用于创造吸引人的音频元素，提高广告的吸引力和影响力。

		自动登录	找回密码
密码			立即注册

Stable Audio Open 发布：文本生成音频，48.6万个样本训练，可创建 47 秒短音频

马上注册，下载更多AI资源软件

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老