BAGEL - 字节开源统一多模态理解和生成模型 图像生成、图像编辑、图像理解 本地一键整合包下载
BAGEL 是字节跳动 Seed 团队开源的统一多模态理解和生成模型。该模型支持文本、图像和视频的统一理解和生成。
BAGEL 旨在通过一个统一的模型来处理多种类型的数据(如文本、图像、音频等),从而实现更加智能、高效的交互体验。
今天分享的一键包基于一位技术大佬的FP8量化模型打包,虽然模型精度和生成效果有所降低,但大大降低了显卡门槛要求,消费级显卡也可流畅运行。理论上8G显存即可运行(8G需要开启共享显存),但生成速度较慢,所以建议12G显存,内存不低于16G。
应用领域
智能客服:Bagel AI的多模态交互能力使得智能客服系统能够更准确地理解用户的意图和需求,提供更加个性化的服务体验。
内容创作:利用Bagel AI的模型,可以自动生成文本、图像、音频等多种形式的内容,为内容创作者提供强大的辅助工具。
医疗诊断:在医疗领域,Bagel AI可以分析患者的病历、影像资料等多种数据,为医生提供更加全面、准确的诊断建议。
自动驾驶:自动驾驶汽车需要实时处理来自摄像头、雷达、激光雷达等多种传感器的信息。Bagel AI的多模态处理能力有助于提升自动驾驶系统的安全性和可靠性。
使用教程:( 建议N卡,显存12G起。基于CUDA12.4 )
文生图:输入提示词,设置参数,生成即可。
图像编辑:上传需要编辑的图像,输入需要编辑的提示词内容,提交即可。
图像理解:上传需要理解的图像,输入需要理解的提示词内容,提交即可。
下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOSNm2eAk25EMGu33C6jqslBA1?pwd=cwih
百度网盘:**** 本内容需购买 ****
解压密码:https://deepfaces.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可
又抢到了首评啦,看来国内的互联网公司还是很厉害的,不管是语音、图片、数字人都有涉及的 请教一个问题,这个端口能修改指定端口吗?如果可以要在哪里修改?谢谢! ynzh668 发表于 2025-7-2 10:16
请教一个问题,这个端口能修改指定端口吗?如果可以要在哪里修改?谢谢!
app.py第857行
server_port=args.server_port,
args.server_port改成你需要设置的端口 收到,非常感谢!:)
页:
[1]