路透社：OpenAI 正在开发代号为“Strawberry”的新模型可自主浏览互联网并自主推理

据路透社报道， OpenAI 正在开展一个代号为“Strawberry”的新人工智能模型项目。

“Strawberry”项目原名为 Q*，据路透社报道，去年已被公司内部视为一项突破。

内部文档显示团队正致力于此，但其工作细节及公开时间未明。该项目旨在让其人工智能不仅能回答问题，还能自主可靠地浏览互联网进行深度研究。

OpenAI 希望借此大幅提升模型的推理能力，这是克服挑战的关键组成部分。

根据内部文件和熟悉情况的人的描述，该项目正在进行中，尚未明确何时会公开发布。

Strawberry 项目的详细细节

1. 项目背景和目标

项目名称：Strawberry（草莓）
目标：通过增强推理能力，使AI能够自主进行深入研究和长周期任务（LHT），提高AI模型的智能水平。

2. 项目概述

启用深度研究：Strawberry项目的核心目标是使AI模型不仅能够生成答案，还能自主浏览互联网进行“深度研究”。这意味着AI将能够独立地进行信息检索和分析，并基于其发现采取行动。
推理能力提升：Strawberry旨在改进AI模型的推理能力，使其能够更好地处理多步骤问题和长周期任务。这种改进将使AI模型在科学发现、软件开发等复杂领域中表现出色。

3. 技术方法

后训练（Post-training）：项目涉及一种特殊的后训练方法，即在模型预训练之后，通过进一步的调整和优化，提升模型的性能。这一过程包括但不限于细调（fine-tuning），即通过人工反馈和示例调整模型的输出。
自我训练数据生成：Strawberry项目的方法类似于斯坦福大学开发的“Self-Taught Reasoner”（STaR），通过模型自我生成训练数据，不断提高其智能水平。理论上可使语言模型超越人类智能水平。

4. 内部泄露文件和开发进展

内部文档：根据内部文档，Strawberry项目已经在进行中，但具体发布日期尚未确定。
“深度研究”数据集：根据OpenAI的内部文件，OpenAI正在创建、训练和评估模型，使用该公司称之为“深度研究”数据集。
Strawberry将用于执行需要长时间规划和连续行动的任务，如科学研究和软件开发。

据文件和其中一位消息人士称，OpenAI特别希望其模型能够使用这些能力，在“CUA”或计算机使用代理的帮助下，通过自动浏览网络进行研究，CUA可以根据其发现采取行动。OpenAI还计划测试其在执行软件和机器学习工程师工作方面的能力。

计算机使用代理（CUA）

CUA的定义

CUA（Computer Using Agent）：这是指一种能够自主操作计算机系统的软件代理。CUA可以根据预设的指令和目标，自动浏览互联网，进行信息检索和分析，并基于其发现采取后续行动。

Strawberry项目中的CUA可能应用

自动浏览和研究

自动浏览互联网：Strawberry项目旨在让AI模型通过CUA自主浏览互联网。AI模型不仅可以查找和阅读在线信息，还能分析这些信息，进行深度研究。
行动决策：基于研究结果，CUA可以采取相应的行动。例如，如果AI模型在浏览过程中发现了一个新的科学研究方向，它可以自动下载相关论文，生成报告，甚至启动实验模拟。

在软件和机器学习工程中的可能应用

执行工程任务

软件工程：OpenAI计划测试Strawberry模型在软件开发中的应用。例如，CUA可以浏览代码库，查找和修复代码错误，生成新的代码模块，甚至开发完整的软件应用。
机器学习工程：在机器学习领域，CUA可以帮助AI模型进行数据预处理、模型训练和优化、结果分析等工作。CUA能够自主选择和下载数据集，调整模型参数，评估模型性能，并根据结果进行进一步的优化。

以下是路透社报道的翻译

据知情人士和路透社审查的内部文件显示，ChatGPT的制造商OpenAI正在开发一种新方法来改进其人工智能模型，该项目代号为“Strawberry”。

该项目的详细信息此前未曾报道过。在微软支持的OpenAI内部，团队正在展示其模型能够提供先进推理能力。

根据路透社在5月份看到的最近一份OpenAI内部文件副本，OpenAI的团队正在开发“Strawberry”。路透社无法确定文件的具体日期，但文件详细说明了OpenAI打算如何使用“Strawberry”进行研究。知情人士称，该计划正在进行中。路透社无法确定“Strawberry”距离公开发布还有多近。

即使在OpenAI内部，“Strawberry”的工作方式也是一个高度保密的秘密，知情人士称。

该文件描述了一个使用“Strawberry”模型的项目，旨在使该公司的AI不仅能够生成查询的答案，还能提前计划，自主且可靠地浏览互联网以进行“深度研究”。

据采访的十多位AI研究人员称，这是目前AI模型尚未实现的目标。

在被问及“Strawberry”和这篇报道中的细节时，OpenAI的一位发言人表示：“我们希望我们的AI模型能够像我们一样看待和理解世界。持续研究新的AI能力是行业中的常见做法，大家普遍认为这些系统的推理能力会随着时间的推移而提高。”

发言人没有直接回应有关“Strawberry”的问题。

“Strawberry”项目原名为Q*，路透社去年报道过，Q*已经被公司内部视为一项突破。

两位消息人士描述了今年早些时候观看的被OpenAI员工称为Q*演示的内容，能够回答今天市售模型无法解决的棘手科学和数学问题。

据彭博社报道，在周二的一次内部全员会议上，OpenAI展示了一个研究项目的演示，声称该项目具有人类般的新推理能力。OpenAI的一位发言人确认了会议的存在，但拒绝透露内容细节。路透社无法确定展示的项目是否为“Strawberry”。

知情人士称，OpenAI希望这一创新能够显著提高其AI模型的推理能力，并补充道，“Strawberry”涉及一种在模型经过大规模数据预训练后处理AI模型的特殊方法。

路透社采访的研究人员表示，推理是AI实现人类或超人类智能的关键。

虽然大语言模型已经能够比任何人类更快地总结密集文本和撰写优美的文章，但该技术在常识问题上往往表现不足，这些问题的解决方案对人类来说似乎是直观的，如识别逻辑谬误和玩井字棋。当模型遇到这些问题时，它往往会“幻觉”出虚假信息。

路透社采访的AI研究人员普遍认为，在AI背景下，推理涉及形成一个模型，使AI能够提前计划，反映物理世界的运作方式，并可靠地解决复杂的多步骤问题。

改进AI模型的推理能力被视为解锁模型能够做的一切事情的关键，从进行重大科学发现到规划和构建新的软件应用。

OpenAI首席执行官Sam Altman今年早些时候表示，在AI中，“最重要的进展领域将是推理能力。”

谷歌、Meta和微软等公司也在尝试不同的技术来提高AI模型的推理能力，大多数进行AI研究的学术实验室也是如此。然而，研究人员对大语言模型（LLM）是否能够将想法和长期规划纳入其预测方式存在分歧。例如，现代AI的先驱之一Yann LeCun在Meta工作，他经常表示LLM不具有人类般的推理能力。

AI挑战

知情人士称，“Strawberry”是OpenAI克服这些挑战的关键组成部分。路透社看到的文件描述了“Strawberry”旨在实现的目标，但没有说明如何实现。

据四位听过公司演讲的人士称，近几个月来，OpenAI私下向开发人员和其他外部人士表示，它即将发布具有显著更高推理能力的技术。他们拒绝透露姓名，因为他们无权谈论私人事务。

据一位消息人士称，“Strawberry”包括一种称为“后训练”（post-training）的OpenAI生成AI模型的特殊方法，即在模型已经在大量通用数据上“训练”之后，通过适应基本模型以特定方式优化其性能。

开发模型的后训练阶段涉及诸如“微调”（fine-tuning）的方法，这是一种在几乎所有语言模型上使用的过程，形式多种多样，例如让人类根据模型的响应提供反馈，并向模型提供好的和坏的答案的示例。

据一位知情人士称，“Strawberry”与斯坦福大学2022年开发的一种名为“自学推理者”（Self-Taught Reasoner，STaR）的方法有相似之处。STaR使AI模型能够通过迭代地创建自己的训练数据来“自举”到更高的智力水平，理论上可以用来使语言模型超越人类水平的智能，其创建者之一，斯坦福大学教授Noah Goodman告诉路透社。

“我认为这既令人兴奋又令人恐惧……如果事情继续朝这个方向发展，我们作为人类有一些严重的问题需要思考，”Goodman说。Goodman没有与OpenAI有联系，也不了解“Strawberry”。

据第一位消息人士解释，OpenAI将“Strawberry”瞄准的能力之一是执行长时间任务（LHT），即需要模型提前计划并在一段时间内执行一系列行动的复杂任务。

根据OpenAI的内部文件，OpenAI正在创建、训练和评估模型，使用该公司称之为“深度研究”数据集。路透社无法确定该数据集的内容或延长的时间段的具体意义。

报道由旧金山的Anna Tong和纽约的Katie Paul撰写；Ken Li和Claudia Parsons编辑

原文：https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/