利用大语言模型和贝叶斯分析量化相互竞争的生物医学假设的证据

root 提交于 周一, 06/08/2026 - 02:47
科学从根本上依赖于假说的提出与检验,其中许多假说具有争议性。科学文献的爆炸式增长,使得即便在单一领域内评估假说也成为一个规模化难题,并有可能拖慢本已漫长的共识形成过程。尽管这一挑战引发了人们对自动化假说评估工具的兴趣,但现有方法在比较不同假说方面尚未被证明是有效的。在此,我们提出KM-GPT-DCH,这是一种将共现方法与大语言模型(LLMs)相结合的算法,用于构建一种透明且可复现的、基于文献的算法,以通过结构化评分方法比较具有争议的假说,并采用贝叶斯方法估计置信度。在对既往已被裁定的历史性争议假说进行测试时,KM-GPT-DCH能够在科学界或公众作出判断的数年前,以较高置信度选择出正确的假说。我们进一步将该算法应用于比较二十组尚未解决的争议性假说对,为未来研究提供指导。该方法可帮助研究人员和公众评估生物医学假说,例如“更有可能是单胺缺乏还是炎症导致抑郁?”它还可用于评估并可视化科学文献中的历史趋势。该算法的网页版实现可在 https://skim.morgridge.org 免费获取。

科学从根本上依赖于假设的提出与检验,其中许多假设具有争议性。科学文献的爆炸式增长使得即便在单一领域内评估假设也成为一个规模化问题,并有可能进一步拖慢本已漫长的共识形成过程。尽管这一挑战促使人们对自动化假设评估工具产生了兴趣,但现有方法尚未证明其在假设比较方面具有有效性。在此,我们介绍 KM-GPT-DCH,这是一种将共现方法与大语言模型(LLM)相结合的算法,用于构建一种透明且可复现的、基于文献的算法,以结构化评分方法比较有争议的假设,并采用贝叶斯方法估计置信度。在对既往已有定论的历史性争议假设进行测试时,KM-GPT-DCH 能够在科学界或公众形成结论之前数年,以高置信度选择出正确的假设。我们进一步应用该算法比较了二十对尚未解决的争议性假设,为未来研究提供指导。

该方法能够帮助研究人员和公众评估生物医学假设,例如“更有可能是单胺缺乏还是炎症导致抑郁?”它还可用于评估并可视化科学文献中的历史趋势。该算法的网页版实现可通过 https://skim.morgridge.org 免费获取。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730173v1?rss=1

🏷️ 大语言模型 贝叶斯分析 假说评估 文献挖掘 生物医学