自从OpenAI在2022年11月发布 ChatGPT 以来,学术界的写作方式发生了巨大变化。根据最新研究显示,越来越多的科学家在撰写研究论文时依赖于ChatGPT这样的人工智能工具。
这项由德国图宾根大学Hertie脑健康人工智能研究所和图宾根人工智能中心的研究团队进行的研究,分析了2010年至2024年间的1400万篇PubMed文献摘要。他们发现,2024年发布的研究论文中,至少有10%使用了ChatGPT等大语言模型进行辅助写作。这个比例在一些特定领域和国家甚至更高。
研究表明,LLM辅助写作对科学文献产生了前所未有的影响,甚至超过了COVID-19疫情对学术写作的影响。
该研究还揭示了不同学科、国家和期刊之间的差异。计算机科学和生物信息学等领域的LLMs使用率最高,约为20%。而在非英语母语国家如中国、韩国和台湾,这一比例也相对较高。相反,英语母语国家如英国和新西兰的使用率较低。此外,高声望期刊如《Nature》、《Science》和《Cell》的LLMs使用率较低,而一些开放获取期刊如《Sensors》和《Cureus》的使用率则较高。
虽然LLMs在提升论文的语言质量和流畅性方面表现优异,但也引发了一些担忧。例如,LLMs可能会引入不准确的信息,或在科学讨论中强化现有的偏见。因此,如何合理使用这些工具,确保学术写作的真实性和公正性,将是未来需要解决的重要问题。
学术界应制定明确的政策和指南,规范LLM在学术写作中的使用。例如,一些出版商和资助机构已经禁止在同行评审中使用LLM,或要求公开声明LLM的使用。
这项研究表明,ChatGPT等大型语言模型正在显著改变科学家的写作方式。随着这些工具的不断普及,学术界可能需要重新审视和调整相关政策,以确保科学研究的高质量和可靠性。
研究方法
为了回答这些问题,研究者采用了一种无偏的大规模分析方法,通过分析2010-2024年间PubMed文献摘要中的词汇变化,研究LLMs的影响。具体方法包括:
- 数据收集:下载并整理2010至2024年的PubMed英文文献摘要,共1400万篇。
- 数据预处理:清理摘要中的非文本字符串,并计算每个词汇的年度出现频率。
- 统计分析:通过比较2024年的实际词频和基于2010-2022年数据的预期词频,确定哪些词汇是过度使用的,并计算它们的频率差距和比率。
主要发现
- LLMs的广泛使用:
- 研究估计,至少10%的2024年PubMed文献摘要经过LLMs处理。这是基于对特定词汇过度使用频率的分析所得出的保守估计,实际使用率可能更高。
- 词汇使用的显著变化:
- 自ChatGPT发布以来,许多风格词汇的使用频率显著增加。例如,“delves”(深入探讨)、“showcasing”(展示)、“underscores”(强调)等词汇在2023-2024年间的使用频率远高于预期。
- 自ChatGPT发布以来,许多风格词汇的使用频率显著增加。例如,“delves”(深入探讨)、“showcasing”(展示)、“underscores”(强调)等词汇在2023-2024年间的使用频率远高于预期。
- 学科和地区差异:
领域差异