MarkerScout:一种从多尺度机制模型中预测生物标志物的疾病无关机器学习框架

root 提交于 周六, 06/06/2026 - 18:47
从高维生物医学数据中识别稳健的生物标志物是转化研究中的核心挑战,但任何单一特征选择或分类方法产生的候选排序都依赖于算法选择,并且很少能在不同分析流程之间得到复现。我们提出了一种与疾病无关的机器学习框架,通过在五折分层交叉验证下系统评估25种(特征选择 × 分类器)流程,利用两种相互独立的方法对每个特征的证据进行汇总(加权选择共识评分和稳健排序聚合),并使用Cohen's d表征每个候选标志物的效应方向,从而应对这种依赖性。 我们在两个临床阶段的免疫应答测量数据上展示了该框架:SARS-CoV-2住院期和重症监护收治期;获得了超过0.99的交叉验证平均F1值,同时分类错误保持均衡,并为每个阶段生成了分层且具有方向信息的生物标志物列表。白细胞介素-18(IL-18)在两个阶段中均达到最高层级,且方向一致。该框架可推广至任何二分类临床分类问题,并支持对生物标志物进行有原则且可复现的优先级排序。

从高维生物医学数据中识别稳健的生物标志物是转化研究中的核心挑战,但任何单一特征选择或分类方法所产生的候选排序都依赖于算法选择,且很少能够在不同分析流程之间复现。我们提出了一种与疾病无关的机器学习框架,以解决这种依赖性:该框架在五折分层交叉验证下,系统性地基准评估了25种(特征选择 × 分类器)分析流程,采用两种相互独立的方法对每个特征的证据进行汇总(加权选择共识评分和稳健秩聚合),并使用Cohen's d表征每个候选标志物的方向性。

我们在两个临床阶段的免疫反应测量数据上展示了该框架的应用:SARS-CoV-2住院阶段和重症监护入院阶段;结果获得了超过0.99的交叉验证平均F1值,同时分类错误保持平衡,并为每个阶段生成了分层且具有方向性信息的生物标志物列表。白细胞介素-18(IL-18)在两个阶段均达到最高层级,且方向一致。该框架可推广至任何二分类临床分类问题,并支持有原则且可复现的生物标志物优先级排序。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.30.727266v1?rss=1

🏷️ 生物标志物预测 机器学习框架 特征选择 稳健排序聚合 免疫应答 SARS-CoV-2