专家指导的单细胞RNA测序中红系分化的监督注释

root 提交于 周日, 06/07/2026 - 18:47
对中间细胞状态进行准确注释仍然是单细胞RNA测序(scRNA-seq)中的一项重大挑战,尤其是在红系生成等连续分化系统中。现有基于参考的方法往往缺乏区分早期及过渡性红系祖细胞所需的分辨率,并且在跨数据集和跨模态应用时可能泛化能力较差。在此,我们提出了一种基于专家策划训练数据的红系谱系注释监督学习框架,该框架整合了bulk转录组与单细胞转录组信息。 以人骨髓scRNA-seq图谱为起点,我们通过引入此前未能解析的祖细胞阶段对红系注释进行了细化,这些阶段包括红系爆式集落形成单位(BFU-E)、红系集落形成单位(CFU-E)和原红细胞(ProE);其界定依据为经典标志基因和bulk RNA-seq参考数据。我们训练并评估了四种经典机器学习模型,确定LightGBM为表现最佳的方法,在验证集上获得了0.821的宏平均F1分数和0.826的平衡准确率。在保留测试集中,该模型在大多数红系阶段均表现出较强性能,错误主要局限于相邻分化状态之间。 随后,我们将该分类器进一步迁移应用于独立的bulk RNA-seq样本和一个外部骨髓scRNA-seq数据集,在这些数据中成功恢复了预期的红系分化进程,并将粗粒度注释细化为更高分辨率的细胞状态。综上,这些结果表明,基于专家策划的监督学习能够改善scRNA-seq中的红系细胞状态注释,并为在高精细公共参考资源有限的情形下研究分化层级提供了一个实用框架。

对单细胞RNA测序(scRNA-seq)中间细胞状态的准确注释仍然是一项重大挑战,尤其是在红细胞生成这类连续分化系统中。现有基于参考的方法往往缺乏区分早期及过渡性红系祖细胞所需的分辨率,并且在跨数据集和跨模态应用时泛化能力较差。在此,我们提出了一种基于专家整理训练数据的红系谱系注释监督学习框架,该框架整合了bulk转录组与单细胞转录组信息。

以人骨髓scRNA-seq图谱为起点,我们通过引入此前尚未解析的祖细胞阶段,对红系注释进行了细化,包括爆式集落形成单位-红系(BFU-E)、集落形成单位-红系(CFU-E)和原红细胞(ProE);这一过程以经典标志基因和bulk RNA-seq参考数据为指导。我们训练并评估了四种经典机器学习模型,确定LightGBM为表现最佳的方法,在验证集中实现了0.821的宏平均F1分数和0.826的平衡准确率。

在独立留出的测试集中,该模型在大多数红系阶段均表现出较强性能,错误主要局限于相邻分化状态之间。该分类器还进一步迁移应用于独立的bulk RNA-seq样本和一个外部骨髓scRNA-seq数据集,在其中重建了符合预期的红系发育进程,并将粗粒度注释细化为更高分辨率的细胞状态。综上,这些结果表明,基于专家整理数据的监督学习能够改善scRNA-seq中的红系细胞状态注释,并为在高分辨率公共参考有限的情况下研究分化层级提供了一个实用框架。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730313v1?rss=1

🏷️ 单细胞RNA测序 红系分化 监督学习注释 LightGBM 骨髓造血 转录组整合