GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

“图灵测试”最初是由计算机科学家艾伦·图灵在1950年提出的“模仿游戏”,用于判断机器显示智能的能力是否与人类无异。要通过图灵测试,机器必须能够与人交谈,并使他们误以为是在与人类对话。尽管多年来有许多尝试,但很少有实验表明机器能够通过图灵测试。

Department of Cognitive Science, UC San Diego (圣地亚哥加州大学认知科学系)的科学家决定复制这一测试。

研究人员要求500名参与者与四个代理人交谈,其中包括一个人类和三个不同类型的AI模型,以测试他们是否能分辨出哪个是人类。这些代理人包括1960年代的ELIZA程序、GPT-3.5和GPT-4。对话持续五分钟后,参与者需要判断他们是否在与人类或AI交谈。

这是首次有实验证据表明人工智能系统通过了互动式的双人图灵测试,并暗示当前AI系统可能难以被人类察觉。结果表明,当前的AI系统可能会在实际应用中欺骗人类,这一结果对机器智能的讨论有重要影响,

测试方法

研究设计

1. 实验设计

2. 系统选择

3. 提示词设计

4. 游戏设置

数据收集:

测试过程

  1. 对话进行
    • 参与者在不知道代理人身份的情况下与四个代理人分别进行五分钟的对话。
    • 代理人包括一个人类和三个AI模型。
  2. 对话设置:
    • 对话通过一个模拟常规消息应用的界面进行(如图5所示)。
    • 从质询者发送第一条消息,每次对话持续5分钟,或直到质询者做出判断。
    • 每条消息限制在300字符以内,参与者不能粘贴内容。
  3. 判断任务
    • 对话结束后,参与者需要判断他们是否在与人类或AI交谈。
    • 参与者根据对话内容和代理人的表现作出判断。

图灵测试游戏界面。左侧:审讯者(绿色)和证人(灰色)之间正在进行的对话。顶部的计时器显示游戏剩余时间。右侧:审讯者用来做出裁决的决策界面。

结果评估

  1. 数据记录:参与者的判断结果被记录下来,统计参与者认为每个代理人是人类的概率。
  2. 结果分析:研究团队分析这些数据,比较不同代理人的被认为是人类的比例。
    • GPT-4被认为是人类的概率为54%。
    • GPT-3.5被认为是人类的概率为50%。
    • ELIZA被认为是人类的概率为22%。
    • 实际人类被认为是人类的概率为67%。

  3. 判别信心:判别者对他们判断的平均信心得分如下:
    • 人类证人:高信心,平均信心得分73%
    • GPT-4:中等信心
    • GPT-3.5:中等信心
    • ELIZA:低信心

  4. 策略与理由结果:
    • 质询者更倾向于使用小谈话和社会情感策略进行判断。
    • 判断理由主要集中在语言风格和社会情感因素上。

  5. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Subscribe

    Gain access to all our Premium contents.
    More than 100+ articles.
退出移动版