面壁智能发布其多模态模型MiniCPM-V 2.6 性能越了 GPT-4V 可运行在iPad上

面壁智能发布其多模态模型：MiniCPM-V 2.6 MiniCPM-V 2.6 是MiniCPM-V系列的最新、性能最佳模型。总参数量 8B，单图、多图和视频理解性能 超越了 GPT-4V 。

在单图理解上，它取得了优于 GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等商用闭源模型的表现，并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。

基于其领先的视觉 token 密度，MiniCPM-V 2.6 成为了 首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。

支持包括英语、中文、德语、法语、意大利语、韩语等多种语言。

[video width="640" height="448" mp4="https://img.xiaohu.ai/2024/08/mXAEFQFqNd4nnvPk7r5eX.mp4"][/video] MiniCPM-V 2.6 的主要功能特点 领先性能 MiniCPM-V 2.6 在 OpenCompass 的综合评估中平均得分为65.2分，表现优于诸如 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等常用模型。 多图像理解与上下文学习 支持多图像对话和推理，在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等多图像基准测试中表现优异。 展示了显著的上下文学习能力，使其在多图像对话中表现卓越。 视频理解 可以处理视频输入，进行视频对话并提供详细的时空信息描述。 在 Video-MME 基准测试中，优于 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B 等模型。 强大的 OCR 能力 支持处理任意纵横比和高达180万像素的图像。 在 OCRBench 上实现了业界领先的表现，超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等模型。 高效性 处理180万像素图像时，仅生成640个视觉token，显著提高了推理速度、首token延迟、内存使用和功耗。 能够高效地支持实时视频理解，适用于诸如 iPad 等终端设备。 评估结果 MiniCPM-V 2.6 在多个基准测试中表现出色，以下是详细评估结果： 单图像理解 在 OpenCompass 基准测试中平均得分为 65.2 分。 超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等常用模型。 多图像理解 在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 基准测试中表现优异。 展现了强大的多图像对话和推理能力。 视频理解 在 Video-MME 基准测试中，MiniCPM-V 2.6 超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B。 能够处理视频输入，进行对话并提供详细的时空信息描述。 OCR 能力 在 OCRBench 基准测试中表现卓越，超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等模型。 支持处理任意纵横比和高达 180 万像素的图像。 效率评估 处理 180 万像素图像时，仅生成 640 个视觉 token，这比大多数模型减少了 75% 的 token 数量。 显著提高了推理速度、首 token 延迟、内存使用和功耗。 Examples 实例 MiniCPM-V 2.6 可以部署在终端设备上。演示视频直接从设备屏幕录制，没有进行任何后期编辑 单击此处试用 MiniCPM-V 2.6 演示版。 模型下载： https://huggingface.co/openbmb/MiniCPM-V-2_6 GitHub： https://github.com/OpenBMB/MiniCPM-V/tree/main