Linly-Dubbing - 一键智能视频多语言AI配音/翻译工具
Linly-Dubbing 是一个智能视频多语言AI配音和翻译工具,它融合了YouDub-webui的灵感,并在此基础上进行了拓展和优化。我们致力于提供更加多样化和高质量的配音选择,通过集成 Linly-Talker 的数字人对口型技术,为用户带来更加自然的多语言视频体验。 通过整合最新的AI技术,Linly-Dubbing 在多语言配音的自然性和准确性方面达到了新的高度,适用于国际教育、全球娱乐内容本地化等多种场景,帮助团队将优质内容传播到全球各地。
大致工作流程是:下载视频,人声分离,语音识别,字幕翻译,语音合成,视频合成
Linly大佬还集成过一个对口型的项目,效果还不错。之前准备打包的,但操作太复杂,集成的东西太多了,很多人估计都操作不了,所以一直没发,后期看看可行性。
今天主要说下他的新项目,Linly-Dubbing,先看下两段演示视频
原视频
处理后的视频
主要特点包括:
多语言支持: 支持中文及多种其他语言的配音和字幕翻译,满足国际化需求。 AI 智能语音识别: 使用先进的AI技术进行语音识别,提供精确的语音到文本转换和说话者识别。 大型语言模型翻译: 结合领先的本地化大型语言模型(如GPT),快速且准确地进行翻译,确保专业性和自然性。 AI 声音克隆: 利用尖端的声音克隆技术,生成与原视频配音高度相似的语音,保持情感和语调的连贯性。 数字人对口型技术: 通过对口型技术,使配音与视频画面高度契合,提升真实性和互动性。 灵活上传与翻译: 用户可以上传视频,自主选择翻译语言和标准,确保个性化和灵活性。 定期更新: 持续引入最新模型,保持配音和翻译的领先地位。
使用教程:
只针对一些可能出错的几个参数做下说明,其他的可以根据字面意思理解。大部分默认即可。
视频URL:这个模块使用的是开源的 yt-dlp ,目前支持国内外主流的视频媒体,比如国内的B站,国外的油管等。国外媒体需要科学上网才能下载。
计算设备:可以默认,如果没有显卡,也不建议用了,使用CPU很慢。
ASR模型选择:默认是openai的whisper,这个对英文支持效果好,阿里的FunASR也不错,都可以尝试下。如果选择whisper模型,WhisperX模型大小这个选项可以根据自己的显卡来选择,large识别效果好,但显存占用大,如果显存小,可以选择small、base或者Tiny
分离多个说话人:如果是多人说话,根据说话人数选择,如果一个人,就默认none
翻译方式:官方默认LLM,这个容易报错,保险起见,我把默认的翻译改成了微软的Bing Translate,这个国内可以正常使用。openai需要手动申请api填入,google的需要科学上网。
如果使用openai翻译,需要打开根目录下的.env,右键记事本打开,填写openai的key和密钥。
AI语音生成方法:三种可选,可以自行测试
这里的分辨率可以根据自己的视频设置,其他默认即可。
所有参数设置完成,点Submit提交即可。最终生成的视频默认保存在软件根目录下的video文件里。
下载地址:
夸克网盘:https://pan.quark.cn/s/3a8de67e9649
百度网盘:
|