使用机器学习为染色质可及性 bigWig 轨迹学习质量评分

root 提交于 周日, 06/07/2026 - 20:47
诸如群体和单细胞 ATAC-seq 等高通量染色质可及性检测技术,已经产生了大量以 bigWig 格式存储的处理后信号轨道集合,这些数据被广泛用于可视化、数据整合以及基于机器学习(ML)的分析。尽管这类数据具有核心作用,但直接在 bigWig 信号轨道层面开展的系统性质量控制(QC)框架仍不够完善。这一缺口限制了对数据可靠性的评估,并阻碍了稳健的下游分析。在此,我们提出了一个具有生物学基础的染色质可及性 bigWig 文件 QC 框架,该框架整合了峰水平信息、背景噪声估计以及稳定基因组参考特征的恢复。通过使用基于 ML 的峰调用工具(LanceOtron),我们构建了互补的质量指标,用于刻画信号结构及其信噪比特性。我们进一步将恒定启动子区域和 CTCF 区域定义为内部生物学对照,并表明这些区域的恢复情况能够在多样化细胞环境中作为数据质量的敏感度量。 我们将该框架应用于一个包含 502 条人类染色质可及性 bigWig 轨道的数据集合,覆盖了广泛的组织和细胞类型。所提出的指标能够捕捉信号质量中相互关联但不冗余的不同方面,并进一步支持将恒定启动子和 CTCF 区域的恢复作为具有生物学意义的目标。基于 LanceOtron 衍生特征训练的 XGBoost 模型,能够在留出数据上准确预测这些稳定基因组元件的恢复情况(R2 = 0.97),从而得到一个连续且可解释的质量评分。利用 SHAP 值进行的特征重要性分析表明,模型决策是由具有生物学相关性的信号特征所驱动,而非任意启发式规则。基于分位数的质量评分分层,也进一步得到了基因组浏览器可视化中清晰定性差异的支持。综上,本研究为评估染色质可及性 bigWig 轨道质量提供了一个原则明确且可扩展的框架,从而实现更可靠的数据整合,并支持调控基因组学中的下游机器学习应用。

高通量染色质可及性检测方法,如群体水平和单细胞 ATAC-seq,已经产生了大量以 bigWig 格式存储的已处理信号轨道,这些轨道被广泛用于可视化、数据整合以及基于机器学习(ML)的分析。尽管其具有核心作用,但直接在 bigWig 信号轨道层面开展的系统性质量控制(QC)框架仍不完善。这一缺口限制了对数据可靠性的评估,并阻碍了稳健的下游分析。在此,我们提出了一种具有生物学依据的染色质可及性 bigWig 文件 QC 框架,该框架整合了峰水平信息、背景噪声估计以及稳定基因组参考特征的恢复。利用基于机器学习的峰识别工具(LanceOtron),我们构建了互补的质量指标,以刻画信号结构和信噪比特性。我们进一步将恒定启动子区域和 CTCF 区域定义为内部生物学对照,并表明这些区域的恢复能够在多样化的细胞环境中作为数据质量的敏感衡量指标。

我们将该框架应用于 502 条人类染色质可及性 bigWig 轨道的集合,这些轨道覆盖了广泛的组织和细胞类型。所提出的指标捕捉了信号质量中相互关联但不冗余的不同方面,并支持将恒定启动子和 CTCF 区域的恢复作为具有生物学意义的目标。基于 LanceOtron 特征训练的 XGBoost 模型,能够在留出测试数据上准确预测这些稳定基因组元件的恢复情况(R2 = 0.97),从而产生一个连续且可解释的质量评分。使用 SHAP 值进行的特征重要性分析表明,模型决策由具有生物学相关性的信号属性驱动,而非任意的启发式规则。基于分位数的质量评分分层也进一步得到了基因组浏览器可视化中清晰定性差异的支持。总体而言,本研究为评估染色质可及性 bigWig 轨道质量提供了一个原则清晰且可扩展的框架,从而实现更可靠的数据整合,并支持调控基因组学中的下游机器学习应用。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730303v1?rss=1

🏷️ 染色质可及性 ATAC-seq bigWig轨道 质量控制 机器学习 XGBoost