微软发布 Phi-4-Reasoning-Vision-15B 开源模型，能自主决定何时思考的小型多模态 AI 有关该内容的详细深刻解读

感谢最新网友不一样的体验、补药吖的线索投递！

最新 3 月 5 日消息，据微软官方开发者社区博客今日消息，微软发布了一款 Phi-4-Reasoning-Vision-15B 模型，这是一款视觉推理模型。

它结合了高分辨率视觉感知与选择性、任务感知的推理，使其成为 Phi-4 系列中首个同时实现“看得清楚”和“想得深入”的小语言模型（SLM）。

微软发布 Phi-4-Reasoning-Vision-15B 开源模型，能自主决定何时思考的小型多模态 AI

传统的视觉模型仅执行被动的感知 —— 识别图像中“有什么”。Phi-4-Reasoning-Vision-15B 更进一步，执行结构化、多步骤的推理：理解图像中的视觉结构，将其与文本上下文连接，并得出可操作的结论。这使开发者能够构建从图表分析到 GUI 自动化的智能应用。

微软发布 Phi-4-Reasoning-Vision-15B 开源模型，能自主决定何时思考的小型多模态 AI

该模型最关键的设计特征是其混合推理行为。它可以根据提示在“推理模式”和“非推理模式”之间切换：

该模型最重要的应用领域之一，就是搭配计算机智能体使用。模型接收一个屏幕截图和自然语言指令后，可输出目标 UI 元素的标准化边界框坐标，其他智能体模型可以执行点击、滚动和其他交互。

以下是 Phi-4-Reasoning-Vision-15B 与其他模型在关键任务上的性能对比：

非推理模式

▲ 非推理模式

推理模式

▲ 推理模式

最新附开源地址如下：

https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

免责声明：本站所有内容均由用户自行投稿，仅供网友学习交流，不代表本站立场。若文章内容涉及侵权/违法，请联系我们（QQ:3698-522）删除处理。转载请注明出处：https://www.icww.com.cn/2026/03/177271729479.html

微软发布 Phi-4-Reasoning-Vision-15B 开源模型，能自主决定何时思考的小型多模态 AI