AI写综述,靠谱吗?
创始人
2025-07-04 16:01:36
0

AI 写综述具有一定的可行性和优势,但也存在一些局限性。

一方面,AI 可以快速整合大量的文献和信息,通过其强大的算法和语言处理能力,能够对相关领域的研究进行系统的梳理和总结。它可以生成较为全面的综述内容,涵盖多个方面的观点和研究成果。

另一方面,AI 缺乏人类的批判性思维和深入理解。它可能只是机械地整合信息,而不能对研究的质量、方法的合理性等进行准确的评估和判断。此外,AI 生成的内容可能缺乏个性化的见解和创新思维,在一些需要深度分析和独特观点的综述中,其表现可能不尽如人意。

总体而言,AI 可以作为综述写作的辅助工具,帮助研究者快速获取信息和初步整理思路,但最终的综述仍需要人类的参与和审核,以确保其质量和可靠性。



当Sam Rodriques还是神经生物学的研究生时,他发现了科学研究中的一个基本问题。他说:“我们说不定已经拥有了理解人体细胞或大脑的所有必要信息,但不知道到底能否确定这一点,因为没有人类能读完和搞懂所有这些文献。”


五年后,Rodriques说用人工智能(AI)已经接近解决这个问题。2023年9月,他和初创公司FutureHouse的团队开发出了一个人工智能系统。这个系统能在几分钟内完成科学知识的总结,准确度超过了维基百科页面[1]。团队随后用这个系统快速生成了大约17000个人类基因的维基百科式条目,之前它们大多没有详细介绍页。


Rodriques不是唯一用人工智能来汇总科学知识的人。几十年来,学者们一直在寻找方法来加快文献综述这项耗时的工作。伦敦国王学院的研究综述专家Iain Marshall说,“综述太长、强度太高,而且经常写完就过时了。”最近,随着支撑ChatGPT等工具的生成式AI即大语言模型(LLM)的快速发展,人们对自动化综述工作有了新的期待。


一些较新的基于人工智能的科学搜索引擎已经能通过查找、分类和总结出版物,帮助人们撰写叙述性文献综述,也就是用文字形式系统地整理研究成果。但它们还不能独立完成高质量的综述。其中最具挑战性的是系统综述:它要求严格执行文献搜索和评估流程,还得用元分析来整合各项研究结果。大多数研究人员同意,要实现系统综述的完全自动化还有很长的路要走。澳大利亚邦德大学的系统综述专家Paul Glasziou说:“我相信以后总会实现这个目标,就是说不准10年还是100年。”


然而,研究人员正在担心人工智能工具可能会导致更多粗制滥造、不准确或误导性的综述充斥学术文献。伦敦大学学院研究证据综合的James Thomas说:“人们担心,我们几十年来建立的证据综合方法体系,可能正被颠覆。”


计算机辅助综述


几十年来,计算机软件一直在帮助研究人员搜索和解析研究文献。早在大语言模型出现之前,科学家们就已经在使用机器学习和其他算法来识别特定研究或快速提取论文中的发现。但像ChatGPT这样的系统的出现,引发了人们将大语言模型与其他软件结合来加速这一过程的浓厚兴趣。


研究人员表示,让ChatGPT(或其他任何AI聊天机器人)直接从头写学术综述的想法太天真了。这些大语言模型通过对海量文本的训练来生成内容,但大多数商业人工智能公司并不透露模型的训练数据来源。Marshall表示,如果让ChatGPT这样的大语言模型对某个主题进行综述,它很可能会夹杂着可靠学术研究、不准确的博客文章和其他不知哪来的信息,“它不会权衡寻找更相关、更高质量的文献。”而且由于大语言模型是通过不断生成统计上可能的词语来回应查询,它们对同一个问题会给出不同的答案,还会产生“幻觉”错误,包括捏造不存在的学术参考文献。Marshall补充说:“这些流程都不遵循研究综述中公认的良好实践。”


一个复杂点的方法是将预先筛选好的论文上传到大语言模型中,让它基于这些研究来提取见解。这种“检索增强生成”方法似乎减少了幻觉,但不能完全避免。这个过程还可以设置让大语言模型标注其信息的来源出处。


这就是专门的人工智能科学搜索引擎(如Consensus和Elicit等)的基本工作原理。虽然大多数公司不公开系统的具体运作方式,但它们一般都是把用户的问题转换成计算机检索指令,然后在Semantic Scholar和PubMed等学术数据库中进行搜索,最终返回相关性高的结果。


大语言模型随后会总结这些研究,并把它们整合成一个有完整引用的回答;用户还可以通过不同选项筛选想要采纳的研究。新加坡管理大学数据服务主管、人工智能博主Aaron Tay说:“这些工具本质上还是搜索引擎,不过它们引用的内容至少都是真实存在的。”


南丹麦大学奥登塞分校的博士后研究员Mushtaq Bilal说,这些工具“肯定能让文献综述和写作的过程更高效”。他除了培训学者使用人工智能工具,还开发了自己的工具“Research Kick”。另一个名为Scite的人工智能系统能快速找出支持或反驳某个观点的文献,并做出详细分析。除此之外,Elicit等系统还能从论文的方法、结论等不同章节中提取重要信息。Bilal说,“这能节约很大工作量。”


和其他一些人工智能工具一样,Elicit旨在通过总结论文和提取数据来协助学术文献综述。来源:《自然》


但Bilal指出,目前大多数人工智能科学搜索引擎还不能独立完成高质量的文献综述。它们的输出水平“就像一个赶工熬夜的本科生,只能抓住几篇论文的主要观点”。他建议研究人员最好将这些工具用于优化综述的特定环节。Elicit的工程总监James Brady说,他们的用户正在各个环节中增加审查步骤,以发挥更好效果。


包括Elicit在内的一些工具还有另一个局限:它们只能搜索开放获取的论文和摘要,无法检索论文全文。(加州奥克兰的Elicit可以搜索约1.25亿篇论文,马萨诸塞州波士顿的Consensus能搜索超过2亿篇论文。)Bilal指出,大量研究文献都设有付费墙,而且搜索大量全文需要极大的计算资源。他说:“用人工智能处理数百万篇论文的全文不仅耗时,成本也会高得难以承受。”


全文检索


资金对Rodriques来说不是问题,因为他创立的非营利组织FutureHouse获得了谷歌前首席执行官Eric Schmidt等人的资助。这家位于加州旧金山的机构成立于2023年,致力于利用人工智能实现研究工作的自动化。


去年9月,Rodriques和他的FutureHouse团队公布了开源人工智能原型系统PaperQA2。当用户查询时,PaperQA2会在多个学术数据库中搜索相关论文,并尝试访问免费和付费论文的全文。(Rodriques说其团队成员通过学术机构的身份可以访问许多付费论文。)该系统随后会识别并总结最相关的内容。他说,PaperQA2需要处理论文全文,这也是其运行成本高的原因之一。


为了测试系统性能,FutureHouse团队让人工智能生成了一系列关于人类基因的维基百科式文章。他们从中选取了数百条陈述,并对应收集了真实维基百科(人工撰写)中相同主题的陈述,将这些内容一起提交给由生物学博士和博士后组成的盲审专家组。专家组发现,人工撰写的文章中出现“推理错误”的频率是人工智能撰写文章的两倍,这里的推理错误指的是文章中的论述缺乏引用文献的充分支持。由于人工智能在这方面表现超过了人类,团队将这篇论文命名为《语言代理实现超人类水平科学知识综合》(Language agents achieve superhuman synthesis of scientific knowledge)。


Tay表示,PaperQA2和另一个名为Undermind的工具返回结果的时间要比传统搜索引擎长,从传统搜索的几秒钟延长到了几分钟,这是因为它们执行更复杂的搜索,例如利用初步搜索的结果来追踪其他引用和关键短语。他说:“虽然这让计算成本增加和速度变慢,但能提供质量大为提升的搜索结果。”


系统性综述的挑战


写叙述性文献综述已经很困难了,而系统性综述还要更难。这类工作往往需要数月甚至数年才能完成[2]。


据Glasziou团队细分,完成一份系统性综述至少需要25个严谨的步骤。研究人员在梳理文献后,需要从初选文献中筛选出相关高的论文,接着提取数据,检查研究中可能存在的偏差,最后对结果进行综合。(为了确保一致性,这些步骤中许多都需要另一位研究人员重复进行)。这种耗时耗力的方法虽然严格,但在医学领域被认为很有必要,因为临床医生要依据这些结果来制定重要的治疗方案。


2019年,在ChatGPT出现之前,Glasziou和他的同事们在着手创造一项科学界的世界纪录:在两周内完成一份系统性综述。他和其他人,包括Marshall和Thomas,已经开发了一些计算机工具来缩短所需时间。当时可用的软件包括RobotSearch,这是一个经过训练的机器学习模型,可以快速在大量文献中找出随机对照试验的研究。另一个人工智能系统RobotReviewer则可以帮助评估研究是否存在偏差风险,例如研究是否采用了适当的双盲设计。Glasziou说,这些小工具都很重要,能够大大缩短做系统性综述的时间。


2019年1月21日星期一上午9点半,倒计时开始。到2月1日星期五中午,团队就完成了任务,总共用时九个工作日[3]。团队负责人、牛津大学的流行病学家Anna Mae Scott回忆说:“那时我特别兴奋。”全队一起切蛋糕庆祝这一成就。之后,团队更是把完成时间缩短到了五天。


还能再快吗?除了他们,其他研究人员也在探索如何让系统性综述实现自动化。2015年,Glasziou创立了国际系统性综述自动化协作组织(International Collaboration for the Automation of Systematic Reviews)。有意思的是,这个专业组织自己就发表了几篇系统性综述文章来评估自动化工具的研究[4]。不过Marshall说,“目前真正得到广泛应用的工具并不多,主要是技术成熟度的问题。”


Elicit公司表示,他们的工具不仅可以帮助研究人员做叙述性综述,还能协助系统性综述。Brady指出,该公司并不提供一键生成系统性综述的服务,但他们的系统确实可以自动完成一些步骤,包括筛选论文、提取数据和见解。他补充说,大多数用它来做系统性综述的研究人员都是先通过其他搜索方式找到相关论文,然后再上传到系统中。


做系统性综述的专家们担心,人工智能工具可能达不到这类研究的两个基本要求:透明性和可重复性。Glasziou团队负责开发综述自动化工具的Justin Clark说:“如果看不到具体使用的方法,那就不能算是系统性综述,就只是普通的综述文章。”Brady解释说,研究者上传到Elicit的论文能够“极佳、透明地记录”他们所选用的文献来源。谈到可重复性,他说:“我们虽然不能保证每次重复相同步骤都能得到完全一样的结果,但我们想在合理范围内达到这个目标。”他还表示,随着系统不断完善,透明性和可重复性会是公司重点关注的方向。


专门做综述的研究者们表示,对于那些辅助文献综述的人工智能系统,他们希望看到更多关于其准确性和可重复性的评估研究。Clark说:“开发新颖的工具做各种尝试都很有趣,而做严格的评估研究则是劳心劳力的活。”


2023年早些时候,Clark带领团队做了一项系统性综述来研究使用生成式人工智能来辅助系统性综述的情况。他们只找到了15篇充分对比了人工智能与人类表现的已发表研究。这项工作还没有发表和通过同行评议,其结果显示这些人工智能系统确实能从上传的研究中提取部分数据,和评估临床试验中的偏差风险。Clark说:“它在阅读和评估论文方面表现挺好,但其他方面都挺差的。”比如设计和开展全面的文献搜索。(目前的计算机软件已经可以完成最后一步:用元分析来整合数据。)


Glasziou和团队正在开发更好的工具,希望能进一步缩短做综述的时间。这些工具都可以在他们的“证据综述加速器(Evidence Review Accelerator)”网站上找到。Glasziou认为:“这不是一次的大突破,每年都会快一点、再快一点。”比如在2022年,他们开发了一个叫“方法向导(Methods Wizard)”的工具,用户只需回答一系列关于研究方法的问题,工具就能自动生成研究方案,而且不需要用到人工智能技术。


急就综述?


信息综合的自动化也有风险。研究人员早就发现,很多系统性综述要么重复要么质量不高[5],而人工智能可能会让这些问题更加严重。研究者可能会有意无意地借助人工智能工具来赶制综述,不严格遵循规范流程或使用质量不佳的研究,最终得出误导性的结论。


Glasziou说,另一方面,AI也会鼓励研究人员快速检查以前不会费心查阅的文献。“人工智能可能会提高工作水平。”Brady表示,将来人工智能工具可能会通过识别一些明显特征,比如数据操纵中常见的P值操纵,来标记并筛除质量差的论文。


Glasziou觉得这是一种平衡:人工智能工具可以帮助科学家做出高质量的综述,但同时也可能催生大量质量不佳的综述。他说:“我不知道回头看这对学术文献产生的影响是正是负。”


有人认为,总结和理解全球知识的能力不应该只掌握在不透明的商业公司手中。Clark希望非营利组织也能参与开发人工智能工具,并对其进行严格测试。上个月,两家英国资助机构宣布将投入超过7000万美元来开发证据综合系统,这个消息让他和其他研究人员都很振奋。Clark说:“在这个问题上我们必须谨慎。我们需要确保这项技术帮我们得出的每个结论都可靠。”


参考文献:

1.Skarlinski,M.D.et al.Preprint at arXiv https://doi.org/10.48550/arXiv.2409.13740(2024).

2.Borah,R.,Brown,A.W.,Capers,P.L.&Kaiser,K.A.BMJ Open7,e012545(2017).

3.Clark,J.et al.J.Clin.Epidemiol.121,81–90(2020).

4.Blaizot,A.et al.Res.Synth.Methods13,353–362(2022).

5.Ioannidis,J.P.A.Milbank Q.94,485–514(2016).


原文以Can AI review the scientific literature—and figure out what it all means?标题发表在2024年11月13日《自然》的新闻特写版块上


©nature

Doi:10.1038/d41586-024-03676-9


本文来自微信公众号:自然系列 (ID:nature-portfolio),作者:Helen Pearson

相关内容

热门资讯

桔子树开什么花 桔子树开什么花桔子树开什么花桔子花单生或2-3朵簇生;花萼不规则5-3浅裂;花瓣通常长1.5厘米以内...
翻译成英语你编的那个故事确实有... 翻译成英语你编的那个故事确实有趣The story you made up is really fu...
董博文是谁的孩子 董博文是谁的孩子 看上去很美 导演:张元 主演:董博文 饰 方枪枪 宁元元 饰 南燕 原著/这个有...
EDA出口管制解除,对中国半导... EDA 出口管制解除,对中国半导体产业影响深远。一方面,解除管制有望缓解国内半导体企业在高端 EDA...
中国古代神话故事传说的读后感怎... 中国古代神话故事传说的读后感怎么写 方法如下:1、选择自己印象深刻的一物碧篇,和写其他读后感方法...
世界上最早出现的科幻电影是那部... 世界上最早出现的科幻电影是那部?不知道,我看过早起的就是 科学怪人和化身博士,在早的没看过了。《月...
大理市上榜全国县域旅游综合实力... 近日 第七届全国县域旅游研究成果发布系列活动 在浙江省诸暨市举行 活动中发布了 《全国县域旅游研究报...
上海市委书记陈吉宁会见乐高集团... 上海市委书记陈吉宁今天(7月4日)上午会见了乐高集团总裁兼首席执行官倪志伟、默林娱乐集团首席执行官菲...
湘江和珠江流域是一回事吗 湘江和珠江流域是一回事吗湘江是长江的支流。不是,中间隔着南岭。湘江北去,珠江往南。
求,介绍一本专门讲诗词格律,押... 求,介绍一本专门讲诗词格律,押韵的书?楼主应先学格律,人间词话主要在讲意境,鄙人推荐《诗词格律》王力...