OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

OpenAI发布了全新的o1-preview” 推理模型系列,这是一个设计用于解决复杂问题的 AI 系列,能够进行复杂推理。

相比之前的模型,这些新模型在回应之前会花费更多时间思考,尤其在科学、编码和数学等领域具有卓越的表现,根据官方的报告它的推理性能远超GPT-4o,能够在许多基准测试中超过人类专家水平。

新的推理模型学会像人类一样花更多时间推理问题,尝试不同策略,并修正错误。它们通过训练学会了更有效地分析问题,尝试多种策略,并能够识别并纠正错误。通过这种方式,模型能够在更复杂的任务中表现出色。

技术原理:

大规模强化学习算法

OpenAI 使用了一种大规模的强化学习算法,来训练 o1-preview 模型。该算法通过高效的数据训练,让模型学会如何利用“思维链”(Chain of Thought)来生产性地思考问题。模型在训练过程中会通过强化学习不断优化其思维链,最终提升解决问题的能力。

OpenAI 发现,o1 模型的性能会随着强化学习时间(训练时计算量)和推理时间(测试时计算量)的增加而显著提高。这种基于推理的训练方式与传统的大规模语言模型(LLM)预训练方式不同,具有独特的扩展性优势。

o1 性能在训练时间和测试时间的计算中都平稳提升

思维链(Chain of Thought)

o1-preview 模型通过 思维链推理 显著增强了其在复杂推理任务中的能力。思维链的基本理念类似于人类思考困难问题的过程:逐步分解问题、尝试不同策略并纠正错误。通过强化学习训练,o1-preview 能够在回答问题前进行深入思考,逐步细化步骤。

这种推理方式大幅提升了 o1-preview 在复杂任务中的表现。例如,o1-preview 能够通过思维链识别问题中的关键步骤并逐步解决。这种推理模式特别适用于需要多步骤推理的任务,如复杂的数学问题或高难度编程任务。

举例说明:

评估与基准测试

在 OpenAI 的内部测试中,下一代模型在解决复杂问题方面表现接近博士生水平,尤其是在物理、化学和生物学等学科的任务中表现优异。

  1. AIME(美国数学邀请赛)

    在国际数学奥林匹克(IMO)的资格考试中,GPT-4o 模型仅正确解决了 13% 的问题,而新推理模型则正确解决了 83% 的问题。

    • GPT-4o 仅解决了 12% 的问题(平均每 15 题解答 1.8 题)。
    • o1-preview 平均解决了 74% 的问题(11.1/15),远远超越了 GPT-4o。
    • 使用共识评估方法时(64 次样本共识),o1-preview 的解答率提高至 83%
    • 在重新评分 1000 个样本后,模型的最终得分达到 93%(13.9/15),这一成绩足以使其跻身全美前 500 名高中生之列,并超越了参加美国数学奥林匹克竞赛的入围分数。
  2. GPQA(物理、化学和生物学的专家级测试):在 GPQA-diamond 基准测试中,o1-preview 超过了博士级专家的表现,成为第一个在该基准上优于人类博士的 AI 模型。这并不意味着 o1 比博士在所有任务中更强,而是它在某些问题上展示了超越博士解决能力的水平。

    • 为了进行公平的对比,OpenAI 招募了具有博士学位的专家来回答 GPQA-diamond 基准测试中的问题。o1-preview 成功超越了这些人类专家,成为第一个在这一基准测试上超越博士级水平的 AI 模型。
    • 需要注意的是,这并不意味着 o1-preview 模型在所有任务上都比博士专家更强,而是表明它在某些特定的问题上具备了超越专家的能力。
  3. MMLU(多任务语言理解):o1-preview 在 57 个子类别中的 54 个类别中超过了 GPT-4o。特别是在视觉感知启用的情况下,o1 模型在 MMLU 基准测试中的表现达到了 78.2%,首次与人类专家竞争。

    • GPT-4o 在 57 个子类别中仅在 3 个类别中超过了 o1-preview。
    • o1-preview 在 54 个子类别中的表现优于 GPT-4o,展示了其更为广泛的推理能力。
    • 尤其是在启用视觉感知功能时,o1-preview 在 MMLU 中得分达到了 78.2%,这是首个能与人类专家竞争的 AI 模型表现。
  4. 编码能力:新模型在编码能力上的表现也非常优越。在Codeforces编程竞赛中,o1模型也表现优异,超过了93%的竞争对手。特别是其编程能力,通过强化学习后的o1能够高效解决复杂的算法问题。
    • 2024 年国际信息学奥林匹克竞赛(IOI) 中,OpenAI 训练了一个基于 o1-preview 的模型参加比赛,并在相同的条件下与人类选手竞争。

      • 该模型在比赛中得到了 213 分,排名在第 49 百分位,表现优于大部分参赛者。
      • 模型在 10 小时内解决了 6 个复杂的算法问题,并且每个问题允许提交 50 次结果。通过多次样本提交,该模型的成绩得到了显著提升。
    • 在 Codeforces 编程竞赛中,o1-preview 模型达到了 1807 Elo 分数,这使得它超过了 93% 的人类竞争者。

      • 对比之下,GPT-4o 的 Elo 分数仅为 808,位于人类参赛者的 11 百分位

    通过这些评估,o1-preview 展示了其在编程任务中的显著优势,特别是在解决复杂算法和逻辑问题时表现卓越。

  5. 人类偏好评估

    除了学术基准测试,OpenAI 还进行了 人类偏好评估。评估方法是通过向人类评审者展示 o1-preview 和 GPT-4o 在相同问题上的匿名回答,评审者根据回答的质量选择他们更偏好的答案。

    结果显示:

    • 在涉及推理任务(如数据分析、编码、数学等)的领域,人类评审者明显偏好 o1-preview 模型的回答。
    • 然而,在一些自然语言处理任务中,GPT-4o 的表现优于 o1-preview,这表明 o1-preview 并不适合所有的应用场景,尤其是在语言生成和自然语言理解方面。

你可以在 OpenAI 的技术研究帖子中阅读更多详细数据。

适用用户

新的推理模型将特别适合处理科学、编程、数学等领域中的复杂问题。以下是一些可能的应用场景:

OpenAI o1-mini

为了满足开发者的需求,OpenAI 还发布了 OpenAI o1-mini,这是一个更小、更快速的推理模型,专注于代码生成和调试。o1-mini 模型相较于 o1-preview 更加便宜,成本降低了 80%,适合那些需要推理能力但不需要广泛世界知识的应用场景。

o1-mini 的优势:

STEM 推理的优化

相比大型语言模型(如 o1),o1-mini 专为 STEM 推理任务进行了优化。虽然大型模型如 o1 具有广泛的世界知识,但它们在实际应用中可能较为昂贵且运行速度较慢。与之相比,o1-mini 经过优化,专注于推理任务,在诸如数学和编码等领域表现出色。

o1-mini 在预训练阶段采用了与 o1 相同的高计算力强化学习(RL)管道,因此在许多推理任务中表现类似,但成本却大大降低。尽管 o1-mini 在需要非 STEM 知识的任务中表现较差,但在 STEM 推理领域,它的性能非常接近 o1-preview 和 o1。

数学表现 vs 推理成本

o1-mini 在多项 STEM 基准测试中表现出色,尤其在数学和编程任务上,显示出强大的推理能力。

  1. 数学表现

    • AIME(美国数学邀请赛)的高中数学竞赛中,o1-mini 得分为 70.0%,接近 o1 的 74.4%,并显著超过 o1-preview 的 44.6%。o1-mini 的成绩(约解决了 11/15 的问题)使其位列美国前 500 名高中生。
  2. 编程表现

    • Codeforces 编程比赛网站上,o1-mini 达到了 1650 Elo,与 o1 的 1673 Elo 接近,并高于 o1-preview 的 1258 Elo。这一 Elo 分数使得 o1-mini 位于 Codeforces 平台上 86% 的程序员之列。
    • o1-mini 在 HumanEval 编程基准测试和高中级别的网络安全夺旗挑战赛(CTF)中表现优异。
  3. 学术推理

    • 在某些学术推理基准测试上,如 GPQA(科学)和 MATH-500,o1-mini 的表现优于 GPT-4o,但由于缺乏广泛的世界知识,o1-mini 在 MMLU(多任务语言理解)等任务上的表现不如 GPT-4o,也落后于 o1-preview。
  4. 人类偏好评估:在人类评审员各种领域中比较 o1-mini 和 GPT-4o测试中,使用与o1-preview 与 GPT-4o 比较相同的方法。在重推理的领域中,o1-mini 比 GPT-4o 更受欢迎,但在语言集中领域中,o1-mini 不如 GPT-4o 受欢迎。
性能对比
模型速度

作为一个具体的例子,比较了 GPT-4o、o1-mini 和 o1-preview 在一个词语推理问题上的回答。虽然 GPT-4o 没有正确回答,但 o1-mini 和 o1-preview 都回答正确,并且 o1-mini 的回答速度大约快了 3-5 倍。

局限性

  • 限制:o1-preview 30 条/周,o1-mini 50 条/周,T5 级别的开发者可以访问其 API,每分钟最多20并发
  • 不支持网页浏览、文件和图片上传、画图等功能;
  • 在 API 里不支持 system、tool 等字段和 json mode、结构化输出等方法。
  • 模型说是有 32k/64k 的最大输出,但真实输出远没有这么多。
  • 从实际测试的角度,发现 o1 与其说是一个模型,不如说是基于 GPT-4o 的 agent。

价格与限制

目前 o1 系列模型可通过 ChatGPT 网页版,或者是 API 进行访问:

  • o1-preview
    • 128k 上下文
    • 32k 最大输出
    • 旨在解决各个领域复杂问题的推理模型
    • 训练数据截止于 23 年 10 月
  • o1-mini:
    • 128k 上下文
    • 64k 最大输出
    • 一种更快速、更经济的推理模型,特别擅长编程、数学和科学
    • 训练数据截止于 23 年 10 月

  • 对于 ChatGPT 网页版,目前仅 Plus 和 Team 用户目前已经可以访问了。对于 Enterprise 以及 Edu 的用户,还需要再等一周:
    • o1-preview:30 条/周
    • o1-mini:50 条/周

  • 对于 API 用户,如果你的等级在 Tire5 (支付金额>1000 美金),目前已经可以通过接口进行调用:
    • o1-preview:20 RPM,30,000,000 TPM
    • o1-mini:20 RPM,150,000,000 TPM

一些案例展示

OpenAI o1 翻译不完整的韩文

解决数学问题

编写谜题

代码编写

推理能力

逻辑谜题

原文:https://openai.com/index/introducing-openai-o1-preview/

技术报告:https://openai.com/index/learning-to-reason-with-llms/

退出移动版