Step-Audio-EditX V2版 - 智能音频编辑助手，支持说话情感编辑、语音克隆、音频降噪支持50系显卡一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-11-20 22:35:32

Step-Audio-EditX V2版 - 智能音频编辑助手，支持说话情感编辑、语音克隆、音频降噪支持50系显卡一键整合包下载

Step-Audio-EditX 是一个基于大型语言模型的智能音频编辑工具，拥有30亿参数，专门用于实现富有表现力的迭代式音频编辑。它能像专业调音师一样，简单通过文字指令，帮你轻松精准调整语音的情感、说话风格和各种副语言等细节。

Step-Audio-EditX 专门用于表现力和迭代性音频编辑。它在编辑情绪、说话风格和副语言方面表现出色，同时具备强大的零样本文本到语音（TTS）功能。除此之外，它还支持迭代式编辑，可以在原有音频的基础上进行多轮微调，实现自然、可积累的情感强化。还能修复嘈杂的音频，提升音频质量和清晰度。

今天分享的 Step-Audio-EditX V2版，同步更新官方模型的新版本，支持和弦发音控制，并提高了情感、说话风格和副语言编辑的性能。根据会员反馈，对任务类型和子任务进行汉化，更方便大家选择。

核心功能‌

零样本语音克隆‌
多语言支持：支持普通话、英语等语言的语音克隆
方言支持：支持多种方言，仅需要简单提示词比如“将这段话改为粤语，带一点俏皮语气”

情感与风格编辑‌
情感编辑：支持愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等多种情绪
说话风格编辑：撒娇、老年音、童声、耳语、严肃、大方、夸张等数十种风格支持多次迭代编辑，逐步调整到理想效果

副语言特征控制‌
精确控制10种自然语音特征，让合成音频更真实生动
支持标签：[呼吸声]、[笑声]、[惊讶-哦]、[确认-嗯]、[思考-呃]、[叹气]、[疑问-诶]、[不满-哼]等

应用场景‌

内容创作‌
视频配音：为短视频、教学视频制作不同情感语调的旁白
有声读物：用不同角色声音演绎故事内容游戏配音：快速生成NPC对话音频

教育培训‌
语言学习：模仿不同口音和语调的发音
演讲训练：调整演讲的情感强度和表达风格

音频修复‌
降噪处理：提升嘈杂音频的清晰度
语速调整：加快或放慢说话节奏
情感增强：为平淡的语音注入活力

使用教程：（建议N卡，显存12G起，支持50系显卡，建议CUDA≥12.8）

上传需要编辑的参考音频，输入参考音频文字内容，输入需要编辑的目标文本（支持情感和风格等标签插入），选择任务类型（比如克隆，情感编辑），克隆和编辑选择不同的提交按钮，注意区分克隆和编辑按钮，克隆按钮只能选择clone任务类型
注：支持多次迭代编辑，所以默认是在上一次的编辑结果继续下一次编辑，比如第一次提交了一个任务，生成了一个结果，下一次编辑任务默认是在第一次编辑的结果基础上继续二次编辑，所以如果需要提交新的编辑任务，需清空历史记录才是新的任务。
还有就是，一次编辑音频不要太长，10s以内最好，否则显存会飙升，如果你的显卡很强悍（比H100），可以无视音频时长。

情感（Emotion）标签：Angry（愤怒）、Happy（快乐）、Sad（悲伤）、Confusion（困惑）、Excited（兴奋）、Fearful（恐惧）、Surprised（惊讶）、Disgusted（厌恶）等
说话风格（Style）标签：Act_coy（活泼）、Older（年长）、Child（儿童）、Whisper（耳语）、Serious（严肃）、Generous（慷慨）、Exaggerated（夸张）、Exaggerated（傲慢）、Recite（朗读）等
副语言标签：Breathing（呼吸声）、Laughter（笑声）、Suprise-oh（惊讶-哦）、Confirmation-en（确认-嗯）、Uhm（嗯哼）、Suprise-ah（惊讶-啊）、Suprise-wa（惊讶-哇）、Sigh（叹息声）、Question-ei（疑问-诶）、Dissatisfaction-hnn（不满-哼）

子任务标签如果不懂英文意思，可以借助翻译工具翻译理解

任务类型：clone（语音克隆）、emotion（情感编辑）、sytle（说话风格）、vad（声音活动检测）、denoise（降噪）、paralinguistic（副语言）、speed（语速编辑）

分别下载压缩包和模型（ckpts文件夹），解压压缩包，并将ckpts文件夹移动到解压的一键包目录下
软件目录结构

├── cache
├── ckpts
│ ├── Step-Audio-EditX
│ └── Step-Audio-Tokenizer
├── deepface
├── funasr_detach
├── app.py
......

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOeZ7H3bn46TvqctrMZqwZ9yA1?pwd=v5a5

夸克网盘：
**** 本内容需购买 ****

earlsansbury 发表于 2025-11-21 14:54:33

迅雷链接404

无言以对 发表于 2025-11-21 15:56:43

earlsansbury 发表于 2025-11-21 14:54
迅雷链接404

再试试

earlsansbury 发表于 2025-11-22 03:08:01

感谢。迅雷链接可以访问了。

cmtv001 发表于 2025-11-25 07:11:58

2025-11-25 07:09:11,092 - root - INFO - download models from model hub: ms

2025-11-25 07:09:12,902 - __main__ - ERROR - ❌ 模型加载错误: <Response >
2025-11-25 07:09:12,902 - __main__ - ERROR - 请检查您的模型路径和源配置.
Press any key to continue . . .

cmtv001 发表于 2025-11-25 07:13:29

模型下载、加载不了，大侠帮看一下？
谢谢

无言以对 发表于 2025-11-25 08:13:07

cmtv001 发表于 2025-11-25 07:11
2025-11-25 07:09:11,092 - root - INFO - download models from model hub: ms

2025-11-25 07:09:12,9 ...

帖子里有详细的路径说明
分别下载压缩包和模型（ckpts文件夹），解压压缩包，并将ckpts文件夹移动到解压的一键包目录下
软件目录结构
...

szfjm 发表于 2025-12-5 11:16:42

我点了克隆显示：- ERROR - [错误]克隆按钮必须使用克隆任务.

silent37 发表于 2025-12-6 20:49:54

点击克隆，提示- ERROR - [错误]克隆按钮必须使用克隆任务.

farewell4574 发表于 2025-12-14 18:44:51

方言支持：支持多种方言，仅需要简单提示词比如“将这段话改为粤语，带一点俏皮语气”，在哪里写提示词？

页: [1] 2

前沿AI软件资源站's Archiver

Step-Audio-EditX V2版 - 智能音频编辑助手，支持说话情感编辑、语音克隆、音频降噪 支持50系显卡 一键整合包下载

Step-Audio-EditX V2版 - 智能音频编辑助手，支持说话情感编辑、语音克隆、音频降噪支持50系显卡一键整合包下载