- 4 次围观
生物学已经积累了庞大的组学方法生态系统,但其中大部分仍是为专家人类而非科学智能体构建的。这些方法散布于 Python 包、R/Bioconductor 和 CRAN 工作流、命令行工具、不兼容的数据容器以及隐式对象状态之中,使得即便是常规分析,AI 系统也难以可靠地选择、执行并验证。本文提出 OmicOS,这一综合性的组学生态基础设施与智能体系统将开放源代码组学社区 OmicVerse V2 转化为面向智能体生物学的可执行基础。OmicVerse V2 提供了社区底座:可扩展的、兼容 AnnDataOOM 的 Rust 后端、面向智能体的单细胞、空间、宏基因组及多组学分析 Python 算法、单细胞基础模型接口,以及对历史上以 R 为中心的 Bioconductor/CRAN 风格工作流的 Python 原生重建。OmicOS 通过将分析函数注册为具备状态感知的能力契约,使这一底座具备可操作性,从而允许智能体检查实时数据对象、选择有效方法、执行受控工作流并记录溯源信息。其结果并非固定流程,而是一个可编程的组学环境,在其中智能体基于经过验证的社区方法组合真实分析,而非凭空发明工具。在外部及专门构建的基准测试中,OmicOS 在所评估系统中排名第一,在 BiomniBench 上达到 81.2%。在 qwen-3.6-35b 上,将 OmicVerse 接入一个最小智能体使任务完成率最高提升了 34.2 个百分点,而受控消融实验表明,这些提升源于基于注册表的执行,而非更大的模型、文档检索或无约束的工具暴露。相同基础设施还扩展到图谱级数据,能够在 Python 中复现以 R 为中心的工作流,并将外部病理软件转换为智能体可用技能。在一个从全身空间图谱和“阿尔茨海默病”这一术语出发的发现任务中,OmicOS 组合出一种非经典工作流,整合空间表达、遗传关联、eQTL 和共定位证据,提名出一个以 PICALM、CD2AP 和 CR1 为核心的结肠上皮风险轴。总体而言,OmicVerse 与 OmicOS 为 AI 时代的组学定义了一个开放基础,展示了如何将生物学方法社区转化为一个可靠、可扩展且可由智能体操作的发现系统。
生物学已经积累了庞大的组学方法生态系统,但其中很大一部分仍然是为人类专家而非科学智能体构建的。各种方法分散在 Python 包、R/Bioconductor 和 CRAN 工作流、命令行工具、不兼容的数据容器以及隐式对象状态之中,这使得即便是常规分析,AI 系统也难以可靠地进行方法选择、执行与验证。在此,我们介绍 OmicOS——一个全面的组学生态基础设施与智能体系统,它将开源组学社区 OmicVerse V2 转化为面向智能体生物学的可执行基础。OmicVerse V2 提供了社区底座:可扩展且兼容 AnnDataOOM 的 Rust 后端、面向智能体的 Python 算法,支持单细胞、空间、bulk 以及多组学分析,面向单细胞基础模型的接口,以及对历史上以 R 为中心的 Bioconductor/CRAN 风格工作流的 Python 原生重构。OmicOS 则通过将分析函数注册为具备状态感知能力的能力契约,使这一底座具备可操作性,从而允许智能体检查实时数据对象、选择有效方法、执行受控工作流并记录溯源。其结果并非一条固定流水线,而是一个可编程的组学环境,在其中,智能体能够基于经验证的社区方法组合出真实分析,而不是臆造工具。
在外部基准和专门构建的基准测试中,OmicOS 在所评估系统中排名第一,在 BiomniBench 上达到 81.2%。将 OmicVerse 加入一个最简智能体后,在 qwen-3.6-35b 上任务完成率最高提升了 34.2 个百分点;受控消融实验表明,这些增益来源于基于注册表的执行,而非更大的模型、文档检索或不受限制的工具暴露。同一基础设施还可扩展至图谱级数据,在 Python 中复现以 R 为中心的工作流,并将外部病理软件转化为智能体可用的技能。在一项从全身空间图谱和术语“阿尔茨海默病”出发的发现任务中,OmicOS 组合出了一条非常规工作流,整合了空间表达、遗传关联、eQTL 和共定位证据,从而提出了一条以 PICALM、CD2AP 和 CR1 为中心的结肠上皮风险轴。总体而言,OmicVerse 与 OmicOS 共同定义了一个面向 AI 时代组学的开放基础,展示了如何将一个由生物学方法构成的社区转化为一个可靠、可扩展且可由智能体操作的发现系统。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.11.731775v1?rss=1
🏷️ 组学生态基础设施 智能体系统 多组学分析 单细胞分析 空间转录组 生物AI平台