6 月 6 日消息,Stability AI 立足 Stable Diffusion 文生图模型,进一步向音频领域拓展,推出了 Stable Audio Open,可以基于用户输入的提示词,生成高质量音频样本。
Stable Audio Open 最长可以创建 47 秒的音乐,非常适合鼓点、乐器旋律、环境音和拟声音效,该开源模型基于 transforms 扩散模型(DiT),在自动编码器的潜在空间中操作,提高生成音频的质量和多样性。 Stable Audio Open 目前已经开源,感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。 Stability AI 公司表示:“虽然它可以生成简短的音乐片段,但并不适合完整的歌曲、旋律或人声”。 Stable Audio Open 和 Stable Audio 2.0 不同是,前者为开源模型,专注于短音频片段和音效,而后者能够生成最长 3 分钟的完整音频。
项目地址:https://github.com/Stability-AI/stable-audio-tools 在线体验:https://huggingface.co/stabilityai/stable-audio-open-1.0 (需要魔法)
Stability AI最新推出的Stable Audio Open开源AI模型,标志着其在音频领域的进一步拓展。此模型基于用户输入的提示词,能够生成高质量的音频样本,最长可创建47秒的音乐,非常适合于制作鼓点、乐器旋律、环境音和拟声音效等短音频片段。Stable Audio Open的发布,不仅展示了AI技术在音乐和音效创作方面的巨大潜力,也为音乐制作人、音频设计师以及AI爱好者提供了新的工具,使他们能够更轻松地创作和实验音频内容。 1. 技术细节与创新特点 样本训练:Stable Audio Open模型使用了来自FreeSound和FreeMusicArchive等音乐库的486,000种采样进行训练,这使得它具有广泛的音乐理解和创作能力。 创作能力:该模型最长可以创建47秒的音频,特别适合于短音频片段和音效的生成,如鼓点、乐器旋律、环境音和拟声音效等。 技术创新:基于transforms扩散模型(DiT),Stable Audio Open在自动编码器的潜在空间中操作,提高了生成音频的质量和多样性。 2. 与Stable Audio 2.0的比较 开源与专有:Stable Audio Open是一个开源模型,专注于短音频片段和音效,而Stable Audio 2.0则是其专有版本,能够生成最长3分钟的完整音频。 适用场景:Stable Audio Open更适合于需要高质量短音频或特定音效的场景,而Stable Audio 2.0则更适合于需要较长音频的创作,如完整的歌曲或音乐作品。 3. 应用场景与潜在影响 音乐创作:音乐家和作曲家可以使用Stable Audio Open生成独特的旋律和节奏,作为创作的起点或灵感来源。 游戏和娱乐:游戏开发者和影视制作人可以利用该模型创作背景音、音效和环境音乐,增强用户体验和沉浸感。 广告和营销:广告制作中,Stable Audio Open可以用于创造吸引人的音频元素,提高广告的吸引力和影响力。 |