OpenAI推出了GPT-4o mini模型,用来取代GPT-3.5,这是目前市场上最具成本效益的小模型。
该模型在MMLU上得分为82%,在LMSYS排行榜上的聊天偏好测试中表现优于GPT-4。GPT-4o mini的定价为每百万输入标记15美分和每百万输出标记60美分,比之前的前沿模型便宜了一个数量级,比GPT-3.5 Turbo便宜了60%以上。
GPT-4o mini支持文本和视觉输入,未来还将支持图像、视频和音频输入输出。该模型拥有128K标记的上下文窗口,支持每次请求最多16K的输出标记,并且知识覆盖到2023年10月。改进的标记器使处理非英语文本更具成本效益。
GPT-4o mini在文本智能和多模态推理方面超越了GPT-3.5 Turbo和其他小模型,支持多种语言,并在函数调用、数学推理和编码任务上表现出色。
从今天开始,免费用户、Plus 用户和 Team 用户将能够访问 GPT-4o mini,取代 GPT-3.5。企业用户也将在下周开始访问。
GPT-4o mini 评估结果
GPT-4o mini在多个关键基准上进行了评估,显示出在文本智能、多模态推理、数学和编码任务上的强大性能。以下是具体的评估结果:
- 文本智能和推理任务:
- MMLU(文本智能和推理基准):GPT-4o mini得分82.0%,优于Gemini Flash的77.9%和Claude Haiku的73.8%。
- 数学和编码任务:
- MGSM(数学推理):GPT-4o mini得分87.0%,高于Gemini Flash的75.5%和Claude Haiku的71.7%。
- HumanEval(编码性能):GPT-4o mini得分87.2%,超过Gemini Flash的71.5%和Claude Haiku的75.9%。
- 多模态推理任务:
- MMMU(多模态推理评估):GPT-4o mini得分59.4%,比Gemini Flash的56.1%和Claude Haiku的50.2%更高。
具体评估数据
任务/模型 | GPT-4o mini | Gemini Flash | Claude Haiku | GPT-3.5 Turbo |
---|---|---|---|---|
MMLU | 82.0% | 77.9% | 73.8% | 69.8% |
MGSM | 87.0% | 75.5% | 71.7% | 56.3% |
HumanEval | 87.2% | 71.5% | 75.9% | 68.0% |
MMMU | 59.4% | 56.1% | 50.2% | – |
- 整体表现:GPT-4o mini在多个评估基准上表现优异,尤其是在文本智能、多模态推理、数学推理和编码任务上,显著优于同类小模型。
- 性价比:相比之前的模型,GPT-4o mini以更低的成本提供了更强的性能,适合大规模应用。
- 多模态能力:支持多模态输入(文本和视觉),并计划扩展到更多输入输出形式(图像、视频和音频),使其在广泛应用中具有更高的灵活性。
GPT-4o mini 成本情况
GPT-4o mini以其显著的成本效益为特色,价格大幅低于之前的模型,使得开发和运行AI应用变得更加经济高效。以下是详细的成本情况:
- 输入标记成本:
- 每百万输入标记(tokens)15美分(大约相当于标准书籍中的 2500 页)。
- 这是之前前沿模型成本的一个数量级的降低。
- 输出标记成本:
- 每百万输出标记60美分。
- 相比GPT-3.5 Turbo,成本降低了60%以上。
- 性价比优势
- 大幅降价:GPT-4o mini的价格相比以前的模型,尤其是GPT-3.5 Turbo,具有显著的成本优势,使得AI应用的开发和运行更加负担得起。
- 适用于大规模应用:低成本使得在大规模应用中,特别是需要大量上下文输入和快速实时响应的应用,如客户支持聊天机器人等,更具吸引力。
- 高效能:尽管成本降低,GPT-4o mini仍然在多个评估基准上表现优异,提供了高性能的AI解决方案。
原文:https://openai.com/index/gpt-4o-mini-advancing-cost-efficient-intelligence/