找回密码
 立即注册
查看: 66|回复: 0

Dolphin - 专门针对东方语言训练的语音识别模型 本地一键整合包下载

[复制链接]

签到天数: 11 天

[LV.3]偶尔看看II

595

主题

691

回帖

4万

积分

武林盟主

积分
46422

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 昨天 15:20 | 显示全部楼层 |阅读模式

Dolphin - 专门针对东方语言训练的语音识别模型 本地一键整合包下载

Dolphin - 专门针对东方语言训练的语音识别模型 本地一键整合包下载


Dolphin 是Dataocean AI 和清华大学合作开发的专门针对东方语言训练的语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时还支持 22 种中国方言。它基于超过 210,000 小时的数据进行训练,其中包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测 (VAD)、分割和语言识别 (LID)。

今天分享的一键包基于AI视频配音软件 pyvideo作者jianchang512 大佬制作的WebUI整合,通过一个直观的 UI 界面,用户只需上传音频文件并选择目标语言,即可获得转写结果,输出格式默认为 SRT(字幕文件格式),也支持其他格式(如 JSON或txt)。


使用教程:
点击“选择文件”按钮,从本地选择需要转写的音频文件。支持的格式包括 mp3、mp4、mpeg、mpga、m4a、wav、webm、aac、flac、mov、mkv、avi 等

在“语言选择”下拉菜单中,选择目标语言,例如中文普通话、中文四川话、粤语等。如果不确定音频语言,可以选择“自动检测”,模型会尝试自动识别语言。
选择 “返回格式”,默认返回SRT字幕,也可以选择txt或json。
点击 “开始转写”


API 接口使用说明(面向开发者)
对于有开发需求的用户,我提供的整合包还包含一个 API 接口,开发者可以通过 HTTP 请求调用转写功能。
以下是 API 的使用方法:
端点:/v1/audio/transcriptions
方法:POST application/json
请求参数: file:音频文件(必填,支持 mp3、mp4 等格式)。 language:目标语言(可选,例如 zh-CN/zh-SICHUAN等,若不填则自动检测)。 response_format:返回格式(支持 "srt、json、txt")。
返回: 成功时:返回转写结果(SRT 格式的文本或 JSON 、txt格式)。 失败时:返回错误信息(如文件格式不支持、转写失败等)。


下载地址:
https://pan.quark.cn/s/bd066c2fc218
DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-4 18:42 , Processed in 0.080350 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表