OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜

OpenAI推出了GPT-4o mini模型,用来取代GPT-3.5,这是目前市场上最具成本效益的小模型。

该模型在MMLU上得分为82%,在LMSYS排行榜上的聊天偏好测试中表现优于GPT-4。GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分,比之前的前沿模型便宜了一个数量级,比GPT-3.5 Turbo便宜了60%以上。

GPT-4o mini支持文本和视觉输入,未来还将支持图像、视频和音频输入输出。该模型拥有128K标记的上下文窗口,支持每次请求最多16K的输出标记,并且知识覆盖到2023年10月。改进的标记器使处理非英语文本更具成本效益。

GPT-4o mini在文本智能和多模态推理方面超越了GPT-3.5 Turbo和其他小模型,支持多种语言,并在函数调用、数学推理和编码任务上表现出色。

从今天开始,免费用户、Plus 用户和 Team 用户将能够访问 GPT-4o mini,取代 GPT-3.5。企业用户也将在下周开始访问。

GPT-4o mini 评估结果

GPT-4o mini在多个关键基准上进行了评估,显示出在文本智能、多模态推理、数学和编码任务上的强大性能。以下是具体的评估结果:

  1. 文本智能和推理任务
    • MMLU(文本智能和推理基准):GPT-4o mini得分82.0%,优于Gemini Flash的77.9%和Claude Haiku的73.8%。
  2. 数学和编码任务
    • MGSM(数学推理):GPT-4o mini得分87.0%,高于Gemini Flash的75.5%和Claude Haiku的71.7%。
    • HumanEval(编码性能):GPT-4o mini得分87.2%,超过Gemini Flash的71.5%和Claude Haiku的75.9%。
  3. 多模态推理任务
    • MMMU(多模态推理评估):GPT-4o mini得分59.4%,比Gemini Flash的56.1%和Claude Haiku的50.2%更高。

具体评估数据

任务/模型 GPT-4o mini Gemini Flash Claude Haiku GPT-3.5 Turbo
MMLU 82.0% 77.9% 73.8% 69.8%
MGSM 87.0% 75.5% 71.7% 56.3%
HumanEval 87.2% 71.5% 75.9% 68.0%
MMMU 59.4% 56.1% 50.2%

GPT-4o mini 成本情况

GPT-4o mini以其显著的成本效益为特色,价格大幅低于之前的模型,使得开发和运行AI应用变得更加经济高效。以下是详细的成本情况:

  1. 输入标记成本
    • 每百万输入标记(tokens)15美分(大约相当于标准书籍中的 2500 页)。
    • 这是之前前沿模型成本的一个数量级的降低。
  2. 输出标记成本
    • 每百万输出标记60美分。
    • 相比GPT-3.5 Turbo,成本降低了60%以上。
  3. 性价比优势
    • 大幅降价:GPT-4o mini的价格相比以前的模型,尤其是GPT-3.5 Turbo,具有显著的成本优势,使得AI应用的开发和运行更加负担得起。
    • 适用于大规模应用:低成本使得在大规模应用中,特别是需要大量上下文输入和快速实时响应的应用,如客户支持聊天机器人等,更具吸引力。
    • 高效能:尽管成本降低,GPT-4o mini仍然在多个评估基准上表现优异,提供了高性能的AI解决方案。

原文:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/

退出移动版