面壁智能发布其多模态模型:MiniCPM-V 2.6 <p dir="auto" data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05"><strong data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">MiniCPM-V 2.6</strong>是MiniCPM-V系列的最新、性能最佳模型。总参数量 8B,单图、多图和视频理解性能<strong data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">超越了 GPT-4V</strong>。</p> <p dir="auto" data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">在单图理解上,它取得了优于 <strong data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">GPT-4o mini、Gemini 1.5 Pro 和 Claude 3.5 Sonnet</strong>等商用闭源模型的表现,并进一步优化了 MiniCPM-Llama3-V 2.5 的 OCR、可信行为、多语言支持以及端侧部署等诸多特性。</p> <p dir="auto" data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">基于其领先的视觉 token 密度,MiniCPM-V 2.6 成为了<strong>首个支持在 iPad 等端侧设备上进行实时视频理解的多模态大模型。</strong></p> <p dir="auto" data-immersive-translate-walked="1b9a67e2-f7a8-40b5-baf0-c1c0f35c0d05">支持包括英语、中文、德语、法语、意大利语、韩语等多种语言。</p> [video width="640" height="448" mp4="https://img.xiaohu.ai/2024/08/mXAEFQFqNd4nnvPk7r5eX.mp4"][/video] <h5><strong>MiniCPM-V 2.6 的主要功能特点</strong></h5> <ol> <li><strong>领先性能</strong> <ul> <li>MiniCPM-V 2.6 在 OpenCompass 的综合评估中平均得分为65.2分,表现优于诸如 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等常用模型。</li> </ul> </li> <li><strong>多图像理解与上下文学习</strong> <ul> <li>支持多图像对话和推理,在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 等多图像基准测试中表现优异。</li> <li>展示了显著的上下文学习能力,使其在多图像对话中表现卓越。</li> </ul> </li> <li><strong>视频理解</strong> <ul> <li>可以处理视频输入,进行视频对话并提供详细的时空信息描述。</li> <li>在 Video-MME 基准测试中,优于 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B 等模型。</li> </ul> </li> <li><strong>强大的 OCR 能力</strong> <ul> <li>支持处理任意纵横比和高达180万像素的图像。</li> <li>在 OCRBench 上实现了业界领先的表现,超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等模型。</li> </ul> </li> <li><strong>高效性</strong> <ul> <li>处理180万像素图像时,仅生成640个视觉token,显著提高了推理速度、首token延迟、内存使用和功耗。</li> <li>能够高效地支持实时视频理解,适用于诸如 iPad 等终端设备。</li> </ul> </li> </ol> <h5>评估结果</h5> <img class="aligncenter size-full wp-image-12303" src="https://img.xiaohu.ai/2024/08/radar_final.png" alt="" width="1822" height="1314" /> MiniCPM-V 2.6 在多个基准测试中表现出色,以下是详细评估结果: <ol> <li><strong>单图像理解</strong> <ul> <li>在 OpenCompass 基准测试中平均得分为 65.2 分。</li> <li>超越了 GPT-4o mini、GPT-4V、Gemini 1.5 Pro 和 Claude 3.5 Sonnet 等常用模型。</li> </ul> </li> <li><strong>多图像理解</strong> <ul> <li>在 Mantis-Eval、BLINK、Mathverse mv 和 Sciverse mv 基准测试中表现优异。</li> <li>展现了强大的多图像对话和推理能力。</li> </ul> </li> <li><strong>视频理解</strong> <ul> <li>在 Video-MME 基准测试中,MiniCPM-V 2.6 超过了 GPT-4V、Claude 3.5 Sonnet 和 LLaVA-NeXT-Video-34B。</li> <li>能够处理视频输入,进行对话并提供详细的时空信息描述。</li> </ul> </li> <li><strong>OCR 能力</strong> <ul> <li>在 OCRBench 基准测试中表现卓越,超越了 GPT-4o、GPT-4V 和 Gemini 1.5 Pro 等模型。</li> <li>支持处理任意纵横比和高达 180 万像素的图像。</li> </ul> </li> <li><strong>效率评估</strong> <ul> <li>处理 180 万像素图像时,仅生成 640 个视觉 token,这比大多数模型减少了 75% 的 token 数量。</li> <li>显著提高了推理速度、首 token 延迟、内存使用和功耗。</li> </ul> </li> </ol> <h5>Examples <span class="notranslate immersive-translate-target-wrapper" lang="zh-CN" data-immersive-translate-translation-element-mark="1"><span class="notranslate" data-immersive-translate-translation-element-mark="1"> </span><span class="notranslate immersive-translate-target-translation-theme-none immersive-translate-target-translation-inline-wrapper-theme-none immersive-translate-target-translation-inline-wrapper" data-immersive-translate-translation-element-mark="1"><span class="notranslate immersive-translate-target-inner immersive-translate-target-translation-theme-none-inner" data-immersive-translate-translation-element-mark="1">实例</span></span></span></h5> <img class="aligncenter size-full wp-image-12300" src="https://img.xiaohu.ai/2024/08/multi_img-bike.png" alt="" width="4826" height="3694" /> <img class="aligncenter size-full wp-image-12304" src="https://img.xiaohu.ai/2024/08/ICL-elec.png" alt="" width="4821" height="2539" /> <img class="aligncenter size-full wp-image-12305" src="https://img.xiaohu.ai/2024/08/ICL-Mem.png" alt="" width="4821" height="1558" /> <img class="aligncenter size-full wp-image-12306" src="https://img.xiaohu.ai/2024/08/multi_img-menu.png" alt="" width="4821" height="1457" /> MiniCPM-V 2.6 可以部署在终端设备上。演示视频直接从设备屏幕录制,没有进行任何后期编辑 <img class="aligncenter size-full wp-image-12298" src="https://img.xiaohu.ai/2024/08/ai.gif" alt="" width="360" height="522" /> <img class="aligncenter size-full wp-image-12297" src="https://img.xiaohu.ai/2024/08/beer.gif" alt="" width="360" height="522" /> <img class="aligncenter size-full wp-image-12296" src="https://img.xiaohu.ai/2024/08/ticket.gif" alt="" width="360" height="522" /> <img class="aligncenter size-full wp-image-12295" src="https://img.xiaohu.ai/2024/08/wfh.gif" alt="" width="360" height="522" /> 单击此处试用 <a href="http://120.92.209.146:8887/" rel="nofollow" data-immersive-translate-walked="768ab2c1-feb1-4378-8ed4-4d560e77adc5">MiniCPM-V 2.6</a> 演示版。 模型下载:<a href="https://huggingface.co/openbmb/MiniCPM-V-2_6" target="_blank" rel="noopener">https://huggingface.co/openbmb/MiniCPM-V-2_6</a> GitHub:<a href="https://github.com/OpenBMB/MiniCPM-V/tree/main" target="_blank" rel="noopener">https://github.com/OpenBMB/MiniCPM-V/tree/main</a>