无言以对 发表于 6 天前

Step-Audio-EditX V2版 - 智能音频编辑助手,支持说话情感编辑、语音克隆、音频降噪 支持50系显卡 一键整合包下载


Step-Audio-EditX 是一个基于大型语言模型的智能音频编辑工具,拥有30亿参数,专门用于实现富有表现力的迭代式音频编辑。它能像专业调音师一样,简单通过文字指令,帮你轻松精准调整语音的情感、说话风格和各种副语言等细节。

Step-Audio-EditX 专门用于表现力和迭代性音频编辑。它在编辑情绪、说话风格和副语言方面表现出色,同时具备强大的零样本文本到语音(TTS)功能。除此之外,它还支持 迭代式编辑 ,可以在原有音频的基础上进行多轮微调,实现自然、可积累的情感强化。还能修复嘈杂的音频,提升音频质量和清晰度。


今天分享的 Step-Audio-EditX V2版,同步更新官方模型的新版本,支持和弦发音控制,并提高了情感、说话风格和副语言编辑的性能。根据会员反馈,对任务类型和子任务进行汉化,更方便大家选择。


核心功能‌

零样本语音克隆‌
多语言支持:支持普通话、英语等语言的语音克隆
方言支持:支持多种方言,仅需要简单提示词比如“将这段话改为粤语,带一点俏皮语气”

情感与风格编辑‌
情感编辑:支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等多种情绪
说话风格编辑:撒娇、老年音、童声、耳语、严肃、大方、夸张等数十种风格 支持多次迭代编辑,逐步调整到理想效果

副语言特征控制‌
精确控制10种自然语音特征,让合成音频更真实生动
支持标签:[呼吸声]、[笑声]、[惊讶-哦]、[确认-嗯]、[思考-呃]、[叹气]、[疑问-诶]、[不满-哼]等


应用场景‌

内容创作‌
视频配音:为短视频、教学视频制作不同情感语调的旁白
有声读物:用不同角色声音演绎故事内容 游戏配音:快速生成NPC对话音频

教育培训‌
语言学习:模仿不同口音和语调的发音
演讲训练:调整演讲的情感强度和表达风格

音频修复‌
降噪处理:提升嘈杂音频的清晰度
语速调整:加快或放慢说话节奏
情感增强:为平淡的语音注入活力


使用教程:(建议N卡,显存12G起,支持50系显卡,建议CUDA≥12.8)

上传需要编辑的参考音频,输入参考音频文字内容,输入需要编辑的目标文本(支持情感和风格等标签插入),选择任务类型(比如克隆,情感编辑),克隆和编辑选择不同的提交按钮,注意区分克隆和编辑按钮,克隆按钮只能选择clone任务类型
注:支持多次迭代编辑,所以默认是在上一次的编辑结果继续下一次编辑,比如第一次提交了一个任务,生成了一个结果, 下一次编辑任务默认是在第一次编辑的结果基础上继续二次编辑,所以如果需要提交新的编辑任务,需清空历史记录才是新的任务。
还有就是,一次编辑音频不要太长,10s以内最好,否则显存会飙升,如果你的显卡很强悍(比H100),可以无视音频时长。

情感(Emotion)标签:Angry(愤怒)、Happy(快乐)、Sad(悲伤)、Confusion(困惑)、Excited(兴奋)、Fearful(恐惧)、Surprised(惊讶)、Disgusted(厌恶)等
说话风格(Style)标签:Act_coy(活泼)、Older(年长)、Child(儿童)、Whisper(耳语)、Serious(严肃)、Generous(慷慨)、Exaggerated(夸张)、Exaggerated(傲慢)、Recite(朗读)等
副语言标签:Breathing(呼吸声)、Laughter(笑声)、Suprise-oh(惊讶-哦)、Confirmation-en(确认-嗯)、Uhm(嗯哼)、Suprise-ah(惊讶-啊)、Suprise-wa(惊讶-哇)、Sigh(叹息声)、Question-ei(疑问-诶)、Dissatisfaction-hnn(不满-哼)


子任务标签如果不懂英文意思,可以借助翻译工具翻译理解

任务类型:clone(语音克隆)、emotion(情感编辑)、sytle(说话风格)、vad(声音活动检测)、denoise(降噪)、paralinguistic(副语言)、speed(语速编辑)

分别下载压缩包和模型(ckpts文件夹),解压压缩包,并将ckpts文件夹移动到解压的一键包目录下
软件目录结构

├── cache
├── ckpts
│    ├── Step-Audio-EditX
│    └── Step-Audio-Tokenizer
├── deepface
├── funasr_detach
├── app.py
......



下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOeZ7H3bn46TvqctrMZqwZ9yA1?pwd=v5a5

夸克网盘:
**** 本内容需购买 ****

earlsansbury 发表于 5 天前

迅雷链接404

无言以对 发表于 5 天前

earlsansbury 发表于 2025-11-21 14:54
迅雷链接404

再试试

earlsansbury 发表于 4 天前

感谢。迅雷链接可以访问了。

cmtv001 发表于 昨天 07:11




2025-11-25 07:09:11,092 - root - INFO - download models from model hub: ms

2025-11-25 07:09:12,902 - __main__ - ERROR - ❌ 模型加载错误: <Response >
2025-11-25 07:09:12,902 - __main__ - ERROR - 请检查您的模型路径和源配置.
Press any key to continue . . .

cmtv001 发表于 昨天 07:13

模型下载、加载不了,大侠帮看一下?
谢谢

无言以对 发表于 昨天 08:13

cmtv001 发表于 2025-11-25 07:11
2025-11-25 07:09:11,092 - root - INFO - download models from model hub: ms

2025-11-25 07:09:12,9 ...

帖子里有详细的路径说明
分别下载压缩包和模型(ckpts文件夹),解压压缩包,并将ckpts文件夹移动到解压的一键包目录下
软件目录结构
...
页: [1]
查看完整版本: Step-Audio-EditX V2版 - 智能音频编辑助手,支持说话情感编辑、语音克隆、音频降噪 支持50系显卡 一键整合包下载