Whisper - AI一键音频转文字、音频转字幕工具，OpenAI开源语音识别神器本地一键整合包下载 - AI语音 - 前沿AI软件资源站

无言以对 发表于 2024-9-23 15:28:00

Whisper - AI一键音频转文字、音频转字幕工具，OpenAI开源语音识别神器本地一键整合包下载

Whisper是美国人工智能研究公司OpenAI发布的一个自动语音识别（ASR）系统。目前市面上最强大的语音识别系统，尤其是英语等外国语言识别能力非常强大，只是多国语言翻译转写字幕功能。

今天发布的就是基于OpenAI的Whisper的WebUI一键整合包，可以用于语音转文字、语音转字幕等用途，支持音频、视频一键识别并生成字幕，还支持一键导出字幕功能。
除了支持音频识别，还支持一键翻译并导出油管视频字幕、支持在线录制并转写字幕以及BGM分离功能（分离模块用的是UVR的模型）。

之前发布的阿里的 SenseVoice，也是用于语音识别的项目，除此之外，阿里的语音识别 FunASR在中文领域也占据着重要地位。

主要功能：
从多种来源生成字幕，包括：
从音视频文件自动识别字幕
从Youtube链接自动识别字幕
从麦克风输入实时识别字幕

目前支持的字幕格式：
SRT
WebVTT
txt（仅文本文件，不含时间线）

语音到文本翻译
将其他语言翻译成英语。（这是Whisper的端到端语音到文本翻译功能）

文本到文本翻译
使用Facebook NLLB模型翻译字幕文件

BGM分离

模型说明：
Whisper的音频识别模型包含tiny、base、small、medium、 large五种，从左到右tiny模型效果最差、large模型效果最好。同理，越好的模型需要的硬件越高，tiny和base只需要1G显存，small需要2G显存，medium需要5G显存，而large需要10G显存。除了large，还有large-V1，large-V2以及large-V3，目前效果最好的是large-V3。
考虑到一键包体积，目前只内置了几种常用的，有其他需求，可自行切换，会切换后会自动下载。

下载地址：（因模型文件较大，所以一键包和模型分开上传，你也可以在一键包手动选择模型，系统会自动下载。或者单独下载模型包，按照说明解压）
夸克网盘：https://pan.quark.cn/s/a7844f714dee
百度网盘：
**** Hidden Message *****

fanghao0451 发表于 2024-9-23 18:35:20

终于等到你

might2000 发表于 2024-9-24 00:52:08

终于等到你

jack 发表于 2024-9-24 10:32:42

yncncn 发表于 2024-9-24 17:38:07

GSV FS好像都自带这个功能了，来试下这个剥离的版本

231231231 发表于 2024-9-24 18:35:02

非常感谢！非常感谢！

aqq1631993 发表于 2024-9-24 21:05:21

终于等到你

buanzhishu 发表于 2024-9-24 21:06:44

非常感谢！终于找到你

lxf 发表于 2024-9-24 22:02:20

终于等到你

miceage 发表于 2024-9-24 23:59:07

6666666666666666666666666666666

页: [1] 2 3 4 5 6 7 8 9 10

前沿AI软件资源站's Archiver

Whisper - AI一键音频转文字、音频转字幕工具，OpenAI开源语音识别神器 本地一键整合包下载

Whisper - AI一键音频转文字、音频转字幕工具，OpenAI开源语音识别神器本地一键整合包下载