GPT 4在眼科领域达到专家级临床知识和推理水平

英国剑桥大学临床医学院和英国牛津大学临床学术研究生院发表了一个研究报告，评估大语言模型（LLMs），特别是GPT-3.5和GPT-4在眼科的临床潜力。通过使用英国眼科医生的资格考试问题来测试这些模型，并将它们与训练有素的眼科医生及其培训中的医生进行比较。研究发现， GPT-4的表现优于GPT-3.5和其他较早的模型，与专业眼科医生的表现相当，甚至在某些方面超过了培训中的医生。

本研究旨在评估最新大语言模型（LLMs）在眼科领域的临床潜力，采用比单纯考试成绩更为严格的评估标准。研究中使用了347个眼科问题对GPT-3.5、GPT-4、PaLM 2和LLaMA进行了测试，随后在一个包含87个问题的模拟考试中，将这些模型与经验丰富的眼科医生和在培训中的医生进行了比较。这些问题涵盖了基础回忆和高阶推理两种类型。

LLMs (GPT-3.5、GPT-4、LLaMA 和 PaLM 2)、眼科专家 (E1-E5)、眼科实习生 (T1-T3) 和非专业初级医生 (J1-J2) 的分数显示了问题科目和类型分布。中位数分数不一定与总分中位数相加，因为不可能有分数。

本研究采用了以下具体研究方法来评估大型语言模型（LLMs）在眼科领域的临床潜力：

问题选择和设计 ：

数据集 ：研究中使用了两组问题：一组包含347个眼科相关问题，用于初步测试LLMs的性能；另一组为模拟考试，包含87个问题，用于深入评估并与人类医生的表现进行对比。 问题类型 ：这些问题涵盖了从基础事实回忆到高阶推理的不同类型，以全面评估模型的认知和解决问题的能力。 参与者 ：

模型 ：包括GPT-3.5、GPT-4、PaLM 2和LLaMA。 人类评估者 ：包括经验丰富的眼科医生、正在接受专业培训的眼科医生和未专业化的初级医生。 性能评估 ：

客观评分 ：对每个问题的答案进行评分，以确定每种模型的正确率。 专家评审 ：身份不明的眼科医生对LLMs生成的答案进行盲审，评估答案的准确性和相关性，并表达总体偏好。使用统一的标准和量表来确保评估的一致性和可比性。 统计分析 ：

一致性测试 ：分析LLMs与人类医生之间的一致性，使用卡帕统计量来衡量答案的一致性。 性能比较 ：使用卡方检验和t检验等统计方法来比较不同参与者的表现，确定模型与人类医生之间在性能上的差异。 研究结果 GPT-4在全部347个问题中的平均正确率为61.7%，明显优于GPT-3.5的48.41%。在与眼科医生相比，GPT-4的表现在专家和培训中医生之间，显示出与专家医生相当的能力。此外，所有评估者都更倾向于选择GPT-4的回答，认为其准确性和相关性更高。 GPT-4不仅在通用的自然语言处理任务中表现优异，也在专业的眼科知识和推理测试中表现突出，几乎达到了专业眼科医生的水平。此外，GPT-4在准确性和相关性方面的优异表现，使其成为在资源有限的环境中提供眼科咨询和辅助的有力候选者。 GPT-4 和其他答案提供者考试成绩的成对比较结果。GPT-4成绩显著提高的部分以绿色标示，GPT-4成绩显著降低的部分以橙色标示。GPT-4 优于所有其他LLMs 和非专业初级医生，与大多数眼科专家和所有眼科实习生相当。

下面是关键的研究结果和数据分析：

模型性能对比 ：

GPT-4 的整体正确率为 69% ，表现出色，显著高于其他测试的模型。 GPT-3.5 的正确率为 48% 。 PaLM 2 的正确率为 56% 。 LLaMA 的正确率为 32% ，是所有模型中表现最差的。 与人类医生的表现对比 ：

专家眼科医生 的表现在中位数为 76% ，范围从 64% 到 90% 。 眼科医生培训者 （在培训中的医生）的表现中位数为 59% ，范围从 57% 到 63% 。 非专业的初级医生 的表现中位数为 43% ，范围从 41% 到 44% 。 准确性和相关性评估 ：

眼科医生在盲审中对GPT-4的答案给予了更高的评价，认为其在准确性和相关性方面优于GPT-3.5。 统计分析显示，GPT-4在准确性和相关性方面的表现显著优于GPT-3.5，差异具有统计学意义（ p ）。 一致性分析 ：

在LLMs和人类医生之间的一致性较低，这反映了在知识和推理上的个体差异。整体上，各主题和类型间的一致性没有显著差异（ p>0.05 ）。 总体偏好 ：

所有参与评估的眼科医生都更偏好GPT-4的回答，相比之下，GPT-3.5的回答在眼科专业领域中被认为较少符合专家的期望。 研究指出，尽管在某些情况下LLMs的表现不如顶尖医生，但它们在眼科知识和推理能力方面已接近或达到专家水平。这表明LLMs在提供眼科咨询和支持方面具有潜力，特别是在缺乏专业眼科医生的地区。 详细报告： https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000341