微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型,其属于Phi-3模型家族。该模型专为需要文本和视觉输入的应用而设计,重点处理高质量、高推理密度的数据。它支持128K的上下文长度,并经过严格的微调和优化过程,旨在在内存或计算资源有限、低延迟要求高的环境中广泛用于商业和研究领域。

该模型具备广泛的图像理解、光学字符识别(OCR)、图表和表格解析、多图像或视频剪辑摘要等功能,非常适合多种AI驱动的应用,在图像和视频处理相关的基准测试中表现出显著的性能提升。

Phi-3.5-vision 模型使用高质量的教育数据、合成数据和经过严格筛选的公开文档进行训练,确保数据质量和隐私。其架构包括一个42亿参数的系统,集成了图像编码器、连接器、投影器和Phi-3 Mini语言模型。

Phi-3.5-vision包括三款模型

1. Phi-3.5 Mini Instruct

2. Phi-3.5 MoE (Mixture of Experts)

3. Phi-3.5 Vision Instruct

主要功能特点

  1. 图像理解
    • 具备对单张图像和多张图像进行详细理解的能力,能够识别图像中的内容,并提供相关描述和分析。
    • 可用于一般的图像理解任务,如识别图像中的物体、场景或其他重要元素。
  2. 光学字符识别 (OCR)
    • 能够从图像中提取和识别文本内容,适用于处理包含文字的图像,如文档扫描、图像中的标注等。
  3. 图表和表格理解
    • 可解析图表和表格中的信息,帮助用户从复杂的图形数据中提取有用的见解。
    • 适用于财务报表分析、数据可视化理解等场景。
  4. 多图像对比
    • 能够对多张图像进行对比分析,找出图像之间的异同点。
    • 适用于多帧图像或视频片段的比较和总结,支持复杂的多图像推理。
  5. 多图像或视频剪辑摘要
    • 提供对多张图像或视频片段的综合总结功能,能够提炼出关键内容,生成简明的总结性描述。
    • 非常适合用于新闻报道、视频编辑或任何需要快速理解和总结大量视觉内容的应用场景。
  6. 高效的推理能力
    • 强调推理密度,能够在处理复杂问题时提供深入且有逻辑的推理结果。
    • 适用于需要高质量推理的场景,如科学研究、复杂问题求解等。
  7. 低延迟和内存优化
    • 针对计算资源受限和需要低延迟响应的环境进行了优化,使其能够在各种设备和场景下高效运行。
    • 非常适合用于需要快速响应的实时应用,如互动式AI系统、嵌入式系统等。

模型架构:

训练数据:

训练方法:

基准测试结果:

Phi-3.5-vision 在多项基准测试中展示了其在图像理解、推理和文本生成任务中的出色表现。以下是一些关键基准测试的具体成绩:

  1. MMMU (Multi-Modal Multi-Image Understanding)
    • 得分: 43.0(相较于之前版本40.2有所提升)
    • 说明: 该基准测试评估模型在多模态、多图像理解任务中的表现,Phi-3.5-vision在这一测试中的提升显示了其在处理复杂图像理解任务时的增强能力。
  2. MMBench (Multi-Modal Benchmark)
    • 得分: 81.9(相较于之前版本80.5有所提升)
    • 说明: 该测试衡量了模型在多模态任务中的整体表现,Phi-3.5-vision的高得分表明其在多模态任务中的广泛适用性和强大性能。
  3. TextVQA (Text-based Visual Question Answering)
    • 得分: 72.0(相较于之前版本70.9有所提升)
    • 说明: 该基准测试评估模型在处理包含文本的图像时的问答能力,Phi-3.5-vision 的改进表明其在视觉问答任务中的准确性有所提升。
  4. 视频处理能力 (Video-MME)
    • 短视频(<2分钟): 60.8
    • 中等长度视频(4-15分钟): 47.7
    • 长视频(30-60分钟): 43.8
    • 总体得分: 50.8
    • 说明: Phi-3.5-vision在视频数据处理上的表现优异,尤其是在短视频的处理上表现突出,能够有效分析和总结视频内容。
BLINK基准测试

BLINK 是一个用于评估多模态大语言模型(Multimodal LLMs)性能的基准测试,包含14个视觉任务。这些任务是人类可以快速解决的,但对当前的多模态大语言模型来说仍然具有挑战性。BLINK 基准测试的设计旨在测试模型在处理复杂视觉信息时的能力,并在以下几个方面对模型进行评估:

在BLINK基准测试中,Phi-3.5-vision模型表现出色,在许多任务上取得了高分。例如,在艺术风格识别、法医检测、相对深度、空间关系等任务中表现尤为突出,显示了其在复杂视觉任务中的强大处理能力。

这个基准测试提供了一个多维度的视角,帮助研究人员了解和改进多模态大语言模型的性能,使其更接近人类在视觉任务上的表现。

主要任务类型:

  1. 艺术风格识别(Art Style Recognition):识别和区分图像的艺术风格。
  2. 计数(Counting):准确地数出图像中相同类型物体的数量。
  3. 法医检测(Forensic Detection):识别图像中的异常或篡改迹象。
  4. 功能对应(Functional Correspondence):检测图像中物体之间的功能性关系。
  5. 智力测试(IQ Test):通过图像推理来回答智力测试题目。
  6. 拼图(Jigsaw Puzzle):解决图像拼图,重建完整图像。
  7. 多视图推理(Multi-View Reasoning):通过多个视角的图像来进行推理。
  8. 物体定位(Object Localization):在图像中准确定位特定的物体。
  9. 相对深度(Relative Depth):判断图像中物体的相对深度。
  10. 相对反射率(Relative Reflectance):判断图像中物体的反射率差异。
  11. 语义对应(Semantic Correspondence):识别图像中物体或场景的语义对应关系。
  12. 空间关系(Spatial Relation):理解和判断图像中物体之间的空间关系。
  13. 视觉对应(Visual Correspondence):判断两个或多个图像之间的视觉相似性或一致性。
  14. 视觉相似性(Visual Similarity):评估不同图像之间的视觉相似度。
与其他模型的对比:
性能提升的具体应用场景:

模型下载:https://huggingface.co/microsoft/Phi-3.5-vision-instruct

退出移动版