找回密码
 立即注册
查看: 325|回复: 2

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型 本地一键整合包下载

[复制链接]

签到天数: 18 天

[LV.4]偶尔看看III

607

主题

726

回帖

4万

积分

武林盟主

积分
48220

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-3-5 08:41:16 | 显示全部楼层 |阅读模式

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型 本地一键整合包下载 ... ...

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型 本地一键整合包下载 ...  ...


Phi-4-multimodal 是微软Phi-4 模型家族的两位新成员(Phi-4-multimodal <多模态模型>和 Phi-4-mini<语言模型>)之一,Phi-4-Multimodal 是一个具备 5.6B 参数的多模态语言模型,它将文本、视觉和语音 / 音频输入模态整合到一个模型中,Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析,支持涉及(视觉 + 语言)、(视觉 + 语音)和(语音 / 音频)输入的场景,在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。


Phi-4-Multimodal 核心特性

Phi-4-Multimodal 是微软 Phi 系列首个多模态模型,具备以下技术特点:  ‌
1、多模态统一架构‌
整合文本、图像、语音/音频输入到同一表示空间,支持跨模态联合推理‌。
采用 ‌LoRA 适配器 + 模态路由‌ 技术,在 5.6B 总参数中灵活组合不同模态的推理模块,避免模态间干扰‌。 ‌
2、高性能语音处理‌
语音/音频模块在 OpenASR 榜单排名第一,词错率(WER)仅 6.14%,优于 WhisperV3 等专业模型‌。
支持带背景噪声的实时语音输入,适用于复杂环境‌。 ‌
3、高效视觉推理‌ 动态图像分块技术使复杂场景推理速度提升 40%,视觉推理准确率达 89.7%‌。 ‌
4、低资源部署‌
针对移动端和边缘计算优化,支持智能手机、汽车等设备上的低延迟推理‌



使用教程:(建议N卡,显存12G起,基于CUDA12.4)
上传需要处理的文件(比如图像)或音频,输入需要处理的问题,提交即可。


下载地址:
迅雷云盘:https://pan.xunlei.com/s/VOKd76sLZ1GU9am5-YTwvfcpA1?pwd=ccbi
夸克网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 10碎银 下载该资源立即购买

百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 30碎银 下载该资源立即购买



解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可。

DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

签到天数: 6 天

[LV.2]偶尔看看I

7

主题

51

回帖

314

积分

超级版主

积分
314
发表于 2025-3-6 17:02:04 | 显示全部楼层
语音识别正确率挺高,就是速度略慢

该用户从未签到

0

主题

17

回帖

34

积分

初入江湖

积分
34
发表于 2025-3-9 09:08:40 | 显示全部楼层
谢谢分享。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-4-19 22:37 , Processed in 0.079774 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表