OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜

OpenAI推出了GPT-4o mini模型，用来取代GPT-3.5，这是目前市场上最具成本效益的小模型。

该模型在MMLU上得分为82%，在LMSYS排行榜上的聊天偏好测试中表现优于GPT-4。GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分，比之前的前沿模型便宜了一个数量级，比GPT-3.5 Turbo便宜了60%以上。

GPT-4o mini支持文本和视觉输入，未来还将支持图像、视频和音频输入输出。该模型拥有128K标记的上下文窗口，支持每次请求最多16K的输出标记，并且知识覆盖到2023年10月。改进的标记器使处理非英语文本更具成本效益。

GPT-4o mini在文本智能和多模态推理方面超越了GPT-3.5 Turbo和其他小模型，支持多种语言，并在函数调用、数学推理和编码任务上表现出色。

从今天开始，免费用户、Plus 用户和 Team 用户将能够访问 GPT-4o mini，取代 GPT-3.5。企业用户也将在下周开始访问。

GPT-4o mini在多个关键基准上进行了评估，显示出在文本智能、多模态推理、数学和编码任务上的强大性能。以下是具体的评估结果：

文本智能和推理任务：
- MMLU（文本智能和推理基准）：GPT-4o mini得分82.0%，优于Gemini Flash的77.9%和Claude Haiku的73.8%。
数学和编码任务：
- MGSM（数学推理）：GPT-4o mini得分87.0%，高于Gemini Flash的75.5%和Claude Haiku的71.7%。
- HumanEval（编码性能）：GPT-4o mini得分87.2%，超过Gemini Flash的71.5%和Claude Haiku的75.9%。
多模态推理任务：
- MMMU（多模态推理评估）：GPT-4o mini得分59.4%，比Gemini Flash的56.1%和Claude Haiku的50.2%更高。

任务/模型	GPT-4o mini	Gemini Flash	Claude Haiku	GPT-3.5 Turbo
MMLU	82.0%	77.9%	73.8%	69.8%
MGSM	87.0%	75.5%	71.7%	56.3%
HumanEval	87.2%	71.5%	75.9%	68.0%
MMMU	59.4%	56.1%	50.2%	–

GPT-4o mini以其显著的成本效益为特色，价格大幅低于之前的模型，使得开发和运行AI应用变得更加经济高效。以下是详细的成本情况：

输入标记成本：
- 每百万输入标记（tokens）15美分（大约相当于标准书籍中的 2500 页）。
- 这是之前前沿模型成本的一个数量级的降低。
输出标记成本：
- 每百万输出标记60美分。
- 相比GPT-3.5 Turbo，成本降低了60%以上。
性价比优势
- 大幅降价：GPT-4o mini的价格相比以前的模型，尤其是GPT-3.5 Turbo，具有显著的成本优势，使得AI应用的开发和运行更加负担得起。
- 适用于大规模应用：低成本使得在大规模应用中，特别是需要大量上下文输入和快速实时响应的应用，如客户支持聊天机器人等，更具吸引力。
- 高效能：尽管成本降低，GPT-4o mini仍然在多个评估基准上表现优异，提供了高性能的AI解决方案。