Mistral AI 发布了全新的 Pixtral Large 开源模型超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet

by 小互
2周 ago

Mistral AI 发布了全新的 Pixtral Large 模型，这是一款具备多模态能力的开源模型，基于 Mistral Large 2 构建，参数量达到 1240 亿，并进一步扩展了图像与文本理解能力。

多模态能力：配备 123B 参数解码器 和 1B 参数视觉编码器，在文本处理能力基础上显著提升了视觉处理性能。
超大上下文窗口：支持 128K Token，可同时处理多达 30 张高分辨率图像或复杂长文档。
文档解析、图像理解、图表分析。
能够处理 OCR（光学字符识别）、表格、公式和图形等多种输入格式。

主要性能表现

MathVista（数学推理任务）：
- 该模型在视觉数据的数学推理方面取得 69.4% 准确率，领先于目前市面上所有同类模型。
文档与图表问答能力（DocVQA 和 ChartQA）：
- 在复杂文档和图表推理中，Pixtral Large 凭借强大的视觉理解能力超越 GPT-4o 和 Gemini-1.5 Pro。
MM-MT-Bench（多模态综合评估）：
- 这是一个开放源代码的评估框架，模拟真实世界应用场景，Pixtral Large 在其中全面领先 Claude-3.5 Sonnet、GPT-4o 等最新模型。
  - 在图表、文档和图像处理能力上超越 GPT-4o、Gemini-1.5 Pro 和 Claude-3.5 Sonnet。
  - 更大的上下文窗口（128K Token）和强大的视觉编码器，使其能够处理更复杂的多模态任务。
  综合能力
  - 文本处理与视觉处理能力均达行业顶级。
  - 适合复杂场景的语义推理、多模态问答和自动化任务。

应用示例

多语言 OCR 与推理：
- 提示：我买了咖啡和香肠，加上 18% 的小费后我需要支付多少？
- 输出：模型能够清晰计算物品费用、小费金额和最终支付总额。
  Prompt: ：
  
  I bought the coffee and the sausage. How much do I owe? Add a 18% tip.
  我买了咖啡和香肠。我得付多少钱？添加 18% 的小费。
  
  Response: 回复：
  
  To calculate the total amount you owe, including the 18% tip, follow these steps:
  要计算您所欠的总金额（包括 18% 小费），请按照以下步骤操作：
  1. Calculate the cost of the coffee and the sausage:
    计算咖啡和香肠的成本：
    - 2x Latte Macchiato: 2 * 4.50 CHF = 9.00 CHF
      2 杯拿铁玛奇朵：2 * 4.50 瑞士法郎 = 9.00 瑞士法郎
    - 1x Schweinschnitzel: 22.00 CHF
      1x 炸猪排：22.00 瑞士法郎
    - Total cost for coffee and sausage: 9.00 CHF + 22.00 CHF = 31.00 CHF
      咖啡和香肠的总成本：9.00 瑞士法郎 + 22.00 瑞士法郎 = 31.00 瑞士法郎
  2. Calculate the 18% tip: 计算 18% 小费：
    - Tip: 31.00 CHF * 0.18 = 5.58 CHF
      小费：31.00 瑞士法郎 * 0.18 = 5.58 瑞士法郎
  3. Add the tip to the total cost:
    将小费添加到总成本中：
    - Total amount owed: 31.00 CHF + 5.58 CHF = 36.58 CHF
      欠款总额：31.00 瑞士法郎 + 5.58 瑞士法郎 = 36.58 瑞士法郎
  So, you owe a total of 36.58 CHF.
  因此，您总共欠 36.58 瑞士法郎。
图表分析：
- 提示：Dark Dragon 模型在什么时候开始表现不稳定？
- 输出：分析模型训练时损失值的波动，准确指出模型问题发生的步骤。
  Prompt: ：
  
  When did things start to go wrong for dark dragon?
  黑龙什么时候开始出问题的？
  
  Response: 回复：
  
  The training loss for the “dark-dragon-50” model starts to exhibit significant instability around the 10,000 steps mark. There is a noticeable spike in the loss value at this point, and the instability continues with another major spike around the 20,000 steps mark. These spikes indicate that the training process for the “dark-dragon-50” model began to encounter issues starting around the 10,000 steps mark.
  “dark-dragon-50”模型的训练损失在 10,000 步标记附近开始表现出明显的不稳定。此时损失值出现明显的峰值，并且不稳定状态仍在继续，在 20,000 步大关附近出现另一个峰值。这些峰值表明“dark-dragon-50”模型的训练过程从 10,000 步大关开始就开始遇到问题。
企业支持场景：
- 在知识探索与共享、文档语义理解、任务自动化以及改善客户体验等企业级场景中，Pixtral Large 展现了显著能力。
  Prompt: ：
  
  Which companies use models made by Mistral AI?
  哪些公司使用 Mistral AI 制作的模型？
  
  Response: 回复：
  
  The companies that use models made by Mistral AI, as shown in the image, are:
  如图所示，使用 Mistral AI 制作的模型的公司是：
  1. BNP Paribas 法国巴黎银行
  2. Brave 勇敢的
  3. Cloudflare 云耀
  4. CMA CGM 达飞轮船
  5. Front 正面