英国剑桥大学临床医学院和英国牛津大学临床学术研究生院发表了一个研究报告,评估大语言模型(LLMs),特别是GPT-3.5和GPT-4在眼科的临床潜力。通过使用英国眼科医生的资格考试问题来测试这些模型,并将它们与训练有素的眼科医生及其培训中的医生进行比较。研究发现,GPT-4的表现优于GPT-3.5和其他较早的模型,与专业眼科医生的表现相当,甚至在某些方面超过了培训中的医生。
本研究旨在评估最新大语言模型(LLMs)在眼科领域的临床潜力,采用比单纯考试成绩更为严格的评估标准。研究中使用了347个眼科问题对GPT-3.5、GPT-4、PaLM 2和LLaMA进行了测试,随后在一个包含87个问题的模拟考试中,将这些模型与经验丰富的眼科医生和在培训中的医生进行了比较。这些问题涵盖了基础回忆和高阶推理两种类型。