Qwen3-ASR - 支持52种语言方言的语音识别神器语音转文字/语音转写支持50系显卡一键整合包下载

无言*** · 发表于 2026-2-1 10:09:38

马上注册，下载更多AI资源软件

您需要登录才可以下载或查看，没有账号？立即注册

×

Qwen3-ASR - 支持52种语言方言的语音识别神器语音转文字/语音转写支持50系显卡一键整合包下载 ... ... . ...

Qwen3-ASR 是阿里通义千问团队开源的语音识别（ASR）模型，简单来说就是把人说话的声音转成文字的超级工具。它能将语音快速准确地转成文字，最多支持52国语言/方言识别转写，甚至在低音、噪音等环境下精准识别。适合在不同场景下使用，如实时语音转写、语音助手、字幕生成和语音数据分析。

主要特点

超级多语言 + 方言支持
一个模型就能认出 ≈30种语言 + 22种中文方言，还包括各种英语口音（美式、英式、澳洲式、印度式等），总共覆盖52种语言/口音/方言变体。你随便扔一段粤语、四川话、东北话、上海话、客家话，甚至夹杂英文的混杂音频，它基本都能认出来。

一个模型打天下（All-in-one）
自动判断这是哪种语言/方言（不用你先告诉它）
直接给出文字转录
支持流式识别（边说边出字，像实时字幕）
也支持离线整段转录
可以处理很长的音频（不是只能30秒、3分钟那种）

噪音、口音、低音质都比较能扛
官方说在真实世界场景（有背景噪音、手机录的、压缩过的音频）表现很好，1.7B版本甚至能跟最强的商业闭源API正面刚。

0.6B版本特别快
并发128路的时候，1秒钟能处理2000秒的音频（2000倍速！），延迟也很低（首token只要90多毫秒），适合需要高吞吐量的场景。

还能精确到时间戳
配合ForcedAligner模型，可以告诉你每一句话、每个字大概从第几秒到第几秒，方便做字幕对齐、语音剪辑等。

应用场景

会议/讲座自动实时字幕
短视频/直播自动生成字幕（支持方言很友好）
播客、采访转文字
客服电话录音转文字存档
视频内容审核（识别敏感词）
有声书、配音素材制作（时间戳对齐）
多语言客服机器人（先听懂用户说什么）
教育场景：学生录课转笔记、语言学习发音对比
内容创作者批量处理素材（把各种方言视频转成文字）

使用教程：（建议N卡，显存4G起，支持50系显卡）

上传需要转写的音频文件，提交即可。
支持批量转写，一次上传多个需要转写的音频文件，提交即可。

支持0.6B和1.7B两种模型切换
0.6B适合一些简单音频场景转写，支持语言较少（中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语），优点是显存占用低，最低2G显存即可使用。
1.7B支持更多语言和更多极端音频场景转写，比如低声、噪音等场景，支持更多语言，识别率更高等特点，但需要更多显存。

软件目录结构

📂 ckpts/
├── 📂 Qwen3-ASR-1.7B/
├── 📂 Qwen3-ASR-0.6B/
├── 📂 Qwen3-ForcedAligner-0.6B/
📂 qwen_asr/
📂 deepface/
......

下载地址：
UC网盘：https://drive.uc.cn/s/a98cab9ebdcd4

夸克网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 20碎银 下载该资源

立即购买

百度网盘：

🔒付费内容

游客， 上上宾会员 可免费下载该资源，点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 下载该资源

立即购买

zha*** · 发表于 2026-2-3 09:15:22

音频文件一长，耗时还是很大的，10来分钟的音频8G显存一样崩溃，要是可以实现实时翻译就好了······

		自动登录	找回密码
密码			立即注册

Qwen3-ASR - 支持52种语言方言的语音识别神器语音转文字/语音转写支持50系显卡一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

Qwen3-ASR - 支持52种语言方言的语音识别神器 语音转文字/语音转写 支持50系显卡 一键整合包下载

马上注册，下载更多AI资源软件

浏览过的版块

宣传达人

灌水之王

突出贡献

荣誉管理

论坛元老

Qwen3-ASR - 支持52种语言方言的语音识别神器语音转文字/语音转写支持50系显卡一键整合包下载