无言以对 发表于 2024-9-23 15:28:00

Whisper - AI一键音频转文字、音频转字幕工具,OpenAI开源语音识别神器 本地一键整合包下载



Whisper是美国人工智能研究公司OpenAI发布的一个自动语音识别(ASR)系统。目前市面上最强大的语音识别系统,尤其是英语等外国语言识别能力非常强大,只是多国语言翻译转写字幕功能。

今天发布的就是基于OpenAI的Whisper的WebUI一键整合包,可以用于语音转文字、语音转字幕等用途,支持音频、视频一键识别并生成字幕,还支持一键导出字幕功能。
除了支持音频识别,还支持一键翻译并导出油管视频字幕、支持在线录制并转写字幕以及BGM分离功能(分离模块用的是UVR的模型)。

之前发布的阿里的 SenseVoice,也是用于语音识别的项目,除此之外,阿里的语音识别 FunASR在中文领域也占据着重要地位。

主要功能:
从多种来源生成字幕,包括:
从音视频文件自动识别字幕
从Youtube链接自动识别字幕
从麦克风输入实时识别字幕

目前支持的字幕格式:
SRT
WebVTT
txt(仅文本文件,不含时间线)

语音到文本翻译
将其他语言翻译成英语。(这是Whisper的端到端语音到文本翻译功能)

文本到文本翻译
使用Facebook NLLB模型翻译字幕文件

BGM分离

模型说明:
Whisper的音频识别模型包含tiny、base、small、medium、 large五种,从左到右tiny模型效果最差、large模型效果最好。同理,越好的模型需要的硬件越高,tiny和base只需要1G显存,small需要2G显存,medium需要5G显存,而large需要10G显存。除了large,还有large-V1,large-V2以及large-V3,目前效果最好的是large-V3。
考虑到一键包体积,目前只内置了几种常用的,有其他需求,可自行切换,会切换后会自动下载。


下载地址:(因模型文件较大,所以一键包和模型分开上传,你也可以在一键包手动选择模型,系统会自动下载。或者单独下载模型包,按照说明解压)
夸克网盘:https://pan.quark.cn/s/a7844f714dee
百度网盘:
**** Hidden Message *****


fanghao0451 发表于 2024-9-23 18:35:20

终于等到你

might2000 发表于 2024-9-24 00:52:08

终于等到你

jack 发表于 2024-9-24 10:32:42

yncncn 发表于 2024-9-24 17:38:07

GSV FS好像都自带这个功能了,来试下这个剥离的版本

231231231 发表于 2024-9-24 18:35:02

非常感谢!非常感谢!

aqq1631993 发表于 2024-9-24 21:05:21

终于等到你

buanzhishu 发表于 2024-9-24 21:06:44

非常感谢!终于找到你

lxf 发表于 2024-9-24 22:02:20

终于等到你

miceage 发表于 2024-9-24 23:59:07

6666666666666666666666666666666
页: [1] 2 3 4 5 6 7 8 9
查看完整版本: Whisper - AI一键音频转文字、音频转字幕工具,OpenAI开源语音识别神器 本地一键整合包下载