马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
Ming-omni-tts - 语音克隆+情感控制+BGM音效,多场景声音生成,播客短视频神器 支持50系显卡 一键整合包下 ...
Ming-omni-tts 是一个由 蚂蚁集团 与 inclusionAI 开发的统一音频生成模型,目标是高效、精准地生成语音、音乐和环境音。它的核心亮点在于 统一的音频语言模型 和 精细化控制能力,同时兼顾推理效率与自然度。
Ming-omni-tts 是一个“会说话、会唱歌、还能制造环境音”的人工智能模型。它的目标是让电脑能像人一样自然地发声,不仅能读文字,还能带上情感、方言,甚至生成音乐和背景音。你可以把它理解成一个“万能声音生成器”。你用中文聊天的方式告诉它想要什么样的声音、情绪、场景,它就尽量给你做出来,而且还能把说话+音乐+音效一次搞定。
Ming-omni-tts 就像一个“声音工厂”,能生产各种风格的声音和音效,既能满足专业需求,也能让创作更自由。
蚂蚁开年王炸,应该是目前开源语音大模型的NO.1,集成了语音克隆、情感控制、语音设计、播客、语音+BGM、语音加环境音等众多热门实用功能于一身,满足普通用户和专业人士等众多需求群体,真正的TTS界的All In One。
主要特点
能控制语音细节:比如让声音快一点、慢一点,高一点、低一点,甚至带上不同情绪(开心、悲伤、激动)或方言(比如粤语)。
声音设计很灵活:内置了上百种声音,还能根据文字描述创造新声音,就像“点菜”一样定制。
不仅能说话:还能生成音乐和环境音,把语音和背景结合在一起,营造沉浸式的场景。
速度快,延迟低:它的设计让生成语音的过程更高效,适合需要实时或长时间音频的场景,比如播客。
专业文本朗读:遇到复杂的数学公式或化学方程式也能读得准确自然,不会卡壳。
应用领域
做有声小说 / 播客 / 短视频配音(一人分饰多角 + 自带BGM和音效)
游戏开发者需要快速生成角色语音 + 环境音
教育类内容(把枯燥的公式、化学反应读出来好听一点)
虚拟主播 / AI数字人(想要特定口音、情绪、声线)
想快速做沉浸式音频故事(像广播剧那种带音效+音乐+多角色对话)
内容创作者想省钱省力做出高质量音频(不用请配音演员、不用买音效素材)
职业音乐创作者 音乐人或内容创作者可以用它快速生成配音、音效或音乐。
使用教程:(建议N卡,显存4G起,支持50系显卡)
支持自定义参数配置,配置文件为 config.py,可自行用记事本等软件打开,根据需要修改常用参数
比如Flash_attn,开启可加速推理生成,但部分显卡或设备不支持,默认关闭,根据文件注释内容修改即可,需有动手能力,小白建议默认
包含多个功能模块:
语音生成与控制
零样本语音克隆:通过参考音频克隆任意声音 。
语音属性控制:通过提示标签精确控制语速 (rate)、音高 (F0) 和音量 (volume) 。
情感控制:支持高兴、悲伤、愤怒等情绪 。
方言控制:支持普通话和粤语方言,粤语准确率高达 96% 。
播客 TTS:单次生成多说话人对话 。
智能音色设计:内置 100+ 种优质音色,并支持通过自然语言描述进行零样本音色设计
音乐与环境音生成
文本到背景音乐:根据流派、情绪、乐器和主题提示生成背景音乐 。
文本到音频:根据文本描述生成环境音 。
语音与声音混合:根据环境音(如鸟叫,街道等背景音)加参考音频结合文本生成。
操作和之前的TTS工具类似,一看即懂。
下载地址:
UC网盘:https://drive.uc.cn/s/49650c7787e54
夸克网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 购买该资源 立即购买
百度网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 66碎银 购买该资源 立即购买
|