GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理

root 提交于 周三, 07/01/2026 - 00:47
我们推出了 GeneBench-Pro,这是 GeneBench 的扩展与改进版本,涵盖了更高难度且跨越更广泛领域的问题。GeneBench-Pro 是一个面向 AI 智能体的基准,用于评估其在基因组学、定量生物学和转化生物医学中执行真实世界多阶段科学分析的能力;其目标是捕捉计算生命科学家在需要产出一个结论、且该结论将影响后续科学或转化决策时所面临的现实问题复杂性。该基准包含 129 个评测任务,聚焦于 10 个主要领域和 21 个终端子领域中具有直接实际意义的量,以基因组学为核心。与 GeneBench 类似,每个问题仅向智能体提供简要背景、目标待估量以及除此之外尽可能少的指导;随后,智能体必须在多个相互依赖的决策节点之间进行判断,即在那些看似合理但错误的选择会改变后续分析路径的关键推断分叉点上,识别并执行正确的分析工作流程,最终得出正确答案。相较于 GeneBench,GeneBench-Pro 新增了 29 个问题,移除了 3 个问题,并对其余 100 个重叠问题中的 54 个进行了显著重构。129 个问题中有 82 个经过外部领域专家审查,其审查结果促成了提示词与数据的修改,并重新设计了那些目标不可充分识别的问题。其中,10 个经外部审查的问题已公开发布,50 个保留问题被提供给 Artificial Analysis 用于独立的第三方模型基准测试,其余则保留为内部留出集。在覆盖全部 129 个问题的评测中,GPT-5.6 Sol 在最高推理级别下达到 28.7% 的评测级通过率,而 GPT-5.6 Sol Pro 在单独报告的 GPT Pro 运行中达到 31.5%。GPT-5.5 达到 12.0%,GPT-5.4 达到 8.9%,而最强的非 GPT 基线模型 Claude Opus 4.8 达到 16.0%。与 GeneBench 一样,各模型往往能够完成工作流程中的相当一部分,但在“察觉”与“采取行动”之间持续存在明显差距:它们能够识别局部诊断信号,却未能将其含义传导到相应的分析决策中。因此,模型常常会选择错误的估计量,或坚持沿着初看合理但实际上错误的分析路径继续推进。因此,GeneBench-Pro 衡量的是一种正在显现、但目前仍不可靠的长程生物学推理能力。

GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理 | bioRxiv

跳转至主要内容 首页 关于 投稿 提醒 / RSS 搜索此关键词 高级搜索 新结果

GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理

查看 ORCID 个人资料 Jeremiah H Li, Andrew J Ho

doi: https://doi.org/10.64898/2026.06.29.735386

Jeremiah H Li OpenAI 在 Google Scholar 上查找该作者 在 PubMed 上查找该作者 在本站搜索该作者 Jeremiah H Li 的 ORCID 记录

通讯作者: h.jeremy.li{at}gmail.com

Andrew J Ho OpenAI 在 Google Scholar 上查找该作者 在 PubMed 上查找该作者 在本站搜索该作者

摘要 信息/历史 指标 预览 PDF

摘要

我们提出了 GeneBench-Pro,这是 GeneBench 的扩展与改进版本,包含了更难的问题,并覆盖更广泛的领域。GeneBench-Pro 是一个面向 AI 智能体的基准,用于评估其在基因组学、定量生物学和转化生物医学中执行真实多阶段科学分析的能力;该基准旨在刻画现实世界问题的复杂性,即计算生命科学家在需要得出一个结论、且下游科学或转化决策依赖于该结论时所面临的问题复杂性。该基准包含 129 项评测,聚焦于 10 个主要领域和 21 个终端子领域中具有直接实际相关性的量值,并以基因组学为核心。与 GeneBench 类似,每个问题都会为智能体提供简要背景、目标被估量以及除此之外极少的指导;随后,智能体必须穿越多个相互依赖的决策点;即在这些实质性的推断分叉处,一个看似合理但错误的选择会改变下游分析,从而要求智能体识别并执行正确的分析工作流程,并得出正确答案。相较于 GeneBench,GeneBench-Pro 新增了 29 个问题,删除了 3 个问题,并对其余 100 个重叠问题中的 54 个进行了显著重设计。129 个问题中有 82 个经过外部领域专家审阅,其审阅结果促成了提示词/数据的修改,并对那些目标不具备充分可识别性的问题进行了重新设计。10 个经外部审阅的问题已公开发布,50 个保留集问题提供给 Artificial Analysis 进行独立第三方模型基准测试,其余问题则保留为内部保留集。在对完整 129 题套件的评估中,GPT-5.6 Sol 在最高推理级别下达到 28.7% 的评测级通过率,而 GPT-5.6 Sol Pro 在单独报告的 GPT Pro 运行中达到 31.5%。GPT-5.5 达到 12.0%,GPT-5.4 达到 8.9%,而最强的非 GPT 基线模型 Claude Opus 4.8 达到 16.0%。与 GeneBench 一样,模型往往能够完成工作流程中的相当大一部分,但在“注意到”与“采取行动”之间持续存在差距:它们能够识别局部诊断信号,却未能将这些信号的含义传递到相应的分析决策中。因此,模型常常选择错误的估计量,或持续沿着起初看似合理但实际上错误的分析路径前进。因此,GeneBench-Pro 测量的是一种正在兴起的长程生物学推理能力,而这种能力目前仍不可靠。

利益冲突声明

版权

本预印本的。 本文依据 CC-BY-NC 4.0 国际许可协议 提供。

返回顶部 上一篇 下一篇

发布于 2026 年 6 月 30 日。

下载 PDF 电子邮件

感谢您有兴趣传播 bioRxiv 的内容。 您的电子邮件 * 您的姓名 * 发送至 * 请输入多个地址,每行一个,或用逗号分隔。

您将通过电子邮件发送以下内容 GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理

邮件主题 (您的姓名)已从 bioRxiv 转发一个页面给您

邮件正文 (您的姓名)认为您可能希望查看 bioRxiv 网站上的此页面。

您的个人留言

验证码

此问题用于测试您是否为人类访客,并防止自动垃圾信息提交。

分享

GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理 Jeremiah H Li, Andrew J Ho bioRxiv 2026.06.29.735386; doi: https://doi.org/10.64898/2026.06.29.735386

分享本文: 复制

引文工具

GeneBench-Pro:评估基因组学、定量生物学与转化生物医学中的多阶段统计推理 Jeremiah H Li, Andrew J Ho bioRxiv 2026.06.29.735386; doi: https://doi.org/10.64898/2026.06.29.735386


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.29.735386v1?rss=1

🏷️ 基准评测 基因组学 多阶段推理 统计分析 AI智能体 转化生物医学