马上注册,下载更多AI资源软件
您需要 登录 才可以下载或查看,没有账号?立即注册
×
Qwen3-ASR - 支持52种语言方言的语音识别神器 语音转文字/语音转写 支持50系显卡 一键整合包下载 ... ... . ...
Qwen3-ASR 是阿里通义千问团队开源的语音识别(ASR)模型,简单来说就是把人说话的声音转成文字的超级工具。它能将语音快速准确地转成文字,最多支持52国语言/方言识别转写,甚至在低音、噪音等环境下精准识别。适合在不同场景下使用,如实时语音转写、语音助手、字幕生成和语音数据分析。
主要特点
超级多语言 + 方言支持
一个模型就能认出 ≈30种语言 + 22种中文方言,还包括各种英语口音(美式、英式、澳洲式、印度式等),总共覆盖52种语言/口音/方言变体。 你随便扔一段粤语、四川话、东北话、上海话、客家话,甚至夹杂英文的混杂音频,它基本都能认出来。
一个模型打天下(All-in-one)
自动判断这是哪种语言/方言(不用你先告诉它)
直接给出文字转录
支持流式识别(边说边出字,像实时字幕)
也支持离线整段转录
可以处理很长的音频(不是只能30秒、3分钟那种)
噪音、口音、低音质都比较能扛
官方说在真实世界场景(有背景噪音、手机录的、压缩过的音频)表现很好,1.7B版本甚至能跟最强的商业闭源API正面刚。
0.6B版本特别快
并发128路的时候,1秒钟能处理2000秒的音频(2000倍速!),延迟也很低(首token只要90多毫秒),适合需要高吞吐量的场景。
还能精确到时间戳
配合ForcedAligner模型,可以告诉你每一句话、每个字大概从第几秒到第几秒,方便做字幕对齐、语音剪辑等。
应用场景
会议/讲座自动实时字幕
短视频/直播自动生成字幕(支持方言很友好)
播客、采访转文字
客服电话录音转文字存档
视频内容审核(识别敏感词)
有声书、配音素材制作(时间戳对齐)
多语言客服机器人(先听懂用户说什么)
教育场景:学生录课转笔记、语言学习发音对比
内容创作者批量处理素材(把各种方言视频转成文字)
使用教程:(建议N卡,显存4G起,支持50系显卡)
上传需要转写的音频文件,提交即可。
支持批量转写,一次上传多个需要转写的音频文件,提交即可。
支持0.6B和1.7B两种模型切换
0.6B适合一些简单音频场景转写,支持语言较少(中文、英语、粤语、法语、德语、意大利语、日语、韩语、葡萄牙语、俄语、西班牙语),优点是显存占用低,最低2G显存即可使用。
1.7B支持更多语言和更多极端音频场景转写,比如低声、噪音等场景,支持更多语言,识别率更高等特点,但需要更多显存。
软件目录结构
📂 ckpts/
├── 📂 Qwen3-ASR-1.7B/
├── 📂 Qwen3-ASR-0.6B/
├── 📂 Qwen3-ForcedAligner-0.6B/
📂 qwen_asr/
📂 deepface/
......
下载地址:
UC网盘:https://drive.uc.cn/s/a98cab9ebdcd4
夸克网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 20碎银 下载该资源 立即购买
百度网盘:
游客, 上上宾会员可免费下载该资源, 点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 下载该资源 立即购买
|