Dolphin - 专门针对东方语言训练的语音识别模型本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2025-4-3 15:20:25

Dolphin - 专门针对东方语言训练的语音识别模型本地一键整合包下载

Dolphin 是Dataocean AI 和清华大学合作开发的专门针对东方语言训练的语音识别模型。它支持东亚、南亚、东南亚和中东的 40 种东方语言，同时还支持 22 种中国方言。它基于超过 210,000 小时的数据进行训练，其中包括 DataoceanAI 的专有数据集和开源数据集。该模型可以执行语音识别、语音活动检测（VAD）、分割和语言识别（LID）。

今天分享的一键包基于AI视频配音软件 pyvideo作者jianchang512 大佬制作的WebUI整合，通过一个直观的 UI 界面，用户只需上传音频文件并选择目标语言，即可获得转写结果，输出格式默认为 SRT（字幕文件格式），也支持其他格式（如 JSON或txt）。

使用教程：
点击“选择文件”按钮，从本地选择需要转写的音频文件。支持的格式包括 mp3、mp4、mpeg、mpga、m4a、wav、webm、aac、flac、mov、mkv、avi 等

在“语言选择”下拉菜单中，选择目标语言，例如中文普通话、中文四川话、粤语等。如果不确定音频语言，可以选择“自动检测”，模型会尝试自动识别语言。
选择 “返回格式”，默认返回SRT字幕，也可以选择txt或json。
点击 “开始转写”

API 接口使用说明（面向开发者）
对于有开发需求的用户，我提供的整合包还包含一个 API 接口，开发者可以通过 HTTP 请求调用转写功能。
以下是 API 的使用方法：
端点：/v1/audio/transcriptions
方法：POST application/json
请求参数： file：音频文件（必填，支持 mp3、mp4 等格式）。 language：目标语言（可选，例如 zh-CN/zh-SICHUAN等，若不填则自动检测）。 response_format：返回格式（支持 "srt、json、txt"）。
返回：成功时：返回转写结果（SRT 格式的文本或 JSON 、txt格式）。失败时：返回错误信息（如文件格式不支持、转写失败等）。

下载地址：
https://pan.quark.cn/s/bd066c2fc218

来日方长 发表于 2025-4-4 22:23:33

日语报错？

无言以对 发表于 2025-4-5 17:32:19

来日方长发表于 2025-4-4 22:23
日语报错？

好像是有这个问题

hiding 发表于 2025-4-10 09:26:09

请问这个对显卡有什么最低配置要求？

页: [1]

前沿AI软件资源站's Archiver

Dolphin - 专门针对东方语言训练的语音识别模型 本地一键整合包下载

Dolphin - 专门针对东方语言训练的语音识别模型本地一键整合包下载