Dolphin - 专门针对东方语言训练的语音识别模型 本地一键整合包下载
Dolphin 是Dataocean AI 和清华大学合作开发的专门针对东方语言训练的语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言,同时还支持 22 种中国方言。它基于超过 210,000 小时的数据进行训练,其中包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测 (VAD)、分割和语言识别 (LID)。
今天分享的一键包基于AI视频配音软件 pyvideo作者jianchang512 大佬制作的WebUI整合,通过一个直观的 UI 界面,用户只需上传音频文件并选择目标语言,即可获得转写结果,输出格式默认为 SRT(字幕文件格式),也支持其他格式(如 JSON或txt)。
使用教程:
点击“选择文件”按钮,从本地选择需要转写的音频文件。支持的格式包括 mp3、mp4、mpeg、mpga、m4a、wav、webm、aac、flac、mov、mkv、avi 等
在“语言选择”下拉菜单中,选择目标语言,例如中文普通话、中文四川话、粤语等。如果不确定音频语言,可以选择“自动检测”,模型会尝试自动识别语言。
选择 “返回格式”,默认返回SRT字幕,也可以选择txt或json。
点击 “开始转写”
API 接口使用说明(面向开发者)
对于有开发需求的用户,我提供的整合包还包含一个 API 接口,开发者可以通过 HTTP 请求调用转写功能。
以下是 API 的使用方法:
端点:/v1/audio/transcriptions
方法:POST application/json
请求参数: file:音频文件(必填,支持 mp3、mp4 等格式)。 language:目标语言(可选,例如 zh-CN/zh-SICHUAN等,若不填则自动检测)。 response_format:返回格式(支持 "srt、json、txt")。
返回: 成功时:返回转写结果(SRT 格式的文本或 JSON 、txt格式)。 失败时:返回错误信息(如文件格式不支持、转写失败等)。
下载地址:
https://pan.quark.cn/s/bd066c2fc218
日语报错? 来日方长 发表于 2025-4-4 22:23
日语报错?
好像是有这个问题 请问这个对显卡有什么最低配置要求?
页:
[1]