OpenAI 开发了一个名为 CriticGPT 的模型 专门用来找ChatGPT的错误

OpenAI 开发了一种名为 CriticGPT 的模型,该模型基于 GPT-4,用于帮助发现 ChatGPT 生成代码中的错误。CriticGPT 会对 ChatGPT 的回答进行批评,指出其中的错误,这样可以帮助人工训练师更有效地发现问题,并在从人类反馈中进行强化学习(RLHF)时提高准确性。通过将 CriticGPT 整合到 RLHF 标注流程中,可以增强 AI 生成的批评的准确性和全面性,从而改进 ChatGPT 的整体表现和对齐度。

研究发现,在CriticGPT的帮助下,人们审查ChatGPT代码的表现比没有帮助时高出60%。

CriticGPT的主要功能

1. 错误检测

CriticGPT能够识别代码中的各种错误,包括语法错误、逻辑错误和安全漏洞。通过全面分析代码,它可以生成包含所有明显和严重错误的评论,并确保没有遗漏任何重要问题。同时,CriticGPT在生成评论时,会避免幻觉错误和不必要的挑剔问题。

功能描述

应用示例

2. 批评性评论生成

CriticGPT能够接受一个代码片段和其预期功能描述,并生成详细的自然语言评论。这些评论指出代码中的潜在错误,并提供改进建议。例如,它可能会指出某个代码段的安全漏洞,并建议使用更安全的方法。

功能描述

应用示例

3. 增强训练效果

功能描述

应用示例

4. 减少虚假错误

CriticGPT在生成评论时采用强制采样束搜索(FSBS)策略,通过强制采样生成多种评论,并选择得分最高的评论。这种方法确保生成的评论既全面又减少幻觉错误,使得评论的质量和准确性得到显著提升。

功能描述

应用示例

5. 模型训练与优化

CriticGPT生成的评论会根据其全面性、错误包含率、幻觉和挑剔的出现频率以及总体主观有用性进行评价和比较。通过这些评价指标,能够确定哪些评论对发现和解决问题最有帮助,从而不断优化和改进模型的性能。

功能描述

应用示例

6. 精确搜索与评估

功能描述

应用示例

7. 人类与AI协作增强

CriticGPT可以作为辅助工具,在评估过程中预填充初始评论,帮助人类评估者更快、更准确地识别问题。通过与人类评估者协同工作,CriticGPT能够生成更全面的评论,并减少幻觉和挑剔问题,显著提高评估效率和准确性。

功能描述

应用示例

技术方法

CriticGPT 也是通过强化学习从人类反馈(RLHF)进行训练的,但它的训练内容主要是包含错误的输入,专门用于进行批判性评估。研究人员会人为地在 ChatGPT 生成的代码中插入错误,然后编写这些错误代码的反馈,以此来训练 CriticGPT。实验结果表明,在有63%的情况下,训练师更喜欢 CriticGPT 提供的批评,而不是 ChatGPT 的批评。部分原因是 CriticGPT 减少了对细枝末节的“挑剔”以及虚构的问题数量,使得批评更为有效和准确。

实验结果

  1. 批评的偏好度
    • 在实验中,当训练师使用 CriticGPT 提供的批评时,63% 的情况下,他们更喜欢 CriticGPT 的批评而不是 ChatGPT 的批评。
    • 这种偏好主要因为 CriticGPT 减少了不必要的“小毛病”挑剔(即细枝末节的无关紧要的批评)和虚构的问题(即模型凭空想象出来的错误)。
  2. 人类与 CriticGPT 团队的效果
    • 实验中,第二名随机选择的训练师更倾向于人类与 CriticGPT 组合团队的批评,而不是单独由人类做出的批评,超过 60% 的时间里都是如此。
    • 这种结果显示出 CriticGPT 在帮助人类训练师进行批评时,能显著提升他们的效果。
  3. 减少虚构错误和挑剔
    • CriticGPT 的批评中,虚构错误和“小毛病”挑剔的数量显著减少,这使得批评质量和有效性得到了提升。
    • 这种减少虚构错误和挑剔的方法,使得批评更加精准,帮助训练师更好地发现真正的问题。

原文:https://openai.com/index/finding-gpt4s-mistakes-with-gpt-4/

论文:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

退出移动版