Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型本地一键整合包下载 - AI软件 - 前沿AI软件资源站

无言以对 发表于 2025-3-5 08:41:16

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型本地一键整合包下载

Phi-4-multimodal 是微软Phi-4 模型家族的两位新成员（Phi-4-multimodal <多模态模型>和 Phi-4-mini<语言模型>）之一，Phi-4-Multimodal 是一个具备 5.6B 参数的多模态语言模型，它将文本、视觉和语音 / 音频输入模态整合到一个模型中，Phi-4-multimodal 改进了语音识别、翻译、摘要、音频理解和图像分析，支持涉及（视觉 + 语言）、（视觉 + 语音）和（语音 / 音频）输入的场景，在各种任务中的表现均优于此前的大型视觉 - 语言模型和语音 - 语言模型。

Phi-4-Multimodal 核心特性

Phi-4-Multimodal 是微软 Phi 系列首个多模态模型，具备以下技术特点：‌
1、多模态统一架构‌
整合文本、图像、语音/音频输入到同一表示空间，支持跨模态联合推理‌。
采用 ‌LoRA 适配器 + 模态路由‌ 技术，在 5.6B 总参数中灵活组合不同模态的推理模块，避免模态间干扰‌。 ‌
2、高性能语音处理‌
语音/音频模块在 OpenASR 榜单排名第一，词错率（WER）仅 6.14%，优于 WhisperV3 等专业模型‌。
支持带背景噪声的实时语音输入，适用于复杂环境‌。 ‌
3、高效视觉推理‌ 动态图像分块技术使复杂场景推理速度提升 40%，视觉推理准确率达 89.7%‌。 ‌
4、低资源部署‌
针对移动端和边缘计算优化，支持智能手机、汽车等设备上的低延迟推理‌

使用教程：（建议N卡，显存12G起，基于CUDA12.4）
上传需要处理的文件（比如图像）或音频，输入需要处理的问题，提交即可。

下载地址：
迅雷云盘：https://pan.xunlei.com/s/VOSNzU4cmGD1yLkKF3tOimjIA1?pwd=drg2
夸克网盘：**** 本内容需购买 ****
百度网盘：**** 本内容需购买 ****

解压密码：https://deepface.cc/ 复制这个完整的网址即是解压密码，不要有空格，复制粘贴即可。

来日方长 发表于 2025-3-6 17:02:04

语音识别正确率挺高，就是速度略慢

tianyake999 发表于 2025-3-9 09:08:40

谢谢分享。

lujun1996 发表于 2025-5-27 14:56:14

微软出品的软件，试一试看看，不知道效果怎么样？

页: [1]

前沿AI软件资源站's Archiver

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型 本地一键整合包下载

Phi4-Multimodal - 微软开源语音识别、翻译、摘要、音频理解和图像分析多模态模型本地一键整合包下载