低频体细胞突变检测的评估与优化:基于多平台高通量测序的视角

root 提交于 周二, 06/02/2026 - 06:47
多种商用短读长测序平台的可获得性,使得开展系统性的跨平台性能比较成为必要,尤其是对于低频体细胞突变检测等具有挑战性的应用。在本研究中,我们利用五种 Genome in a Bottle(GIAB)人类基因组 DNA 参考标准品(HG001 至 HG005)以及携带 1% 变异等位基因频率(VAF)的 Twist Biosciences cfDNA 参考标准品,构建了一个大规模靶向测序数据集,该数据集由六个平台生成(NovaSeq 6000、NovaSeq X、FASTASeq 300、GenoLab M、SURFSeq 5000 和 MGISEQ-T7)。为在保留真实测序背景的同时建立一个贴近实际的基准体系,我们开发了 PosMix,这是一种可生成位点特异性 VAF 的模拟工具。为克服传统变异检测工具的局限性(VarScan2 召回率高但精确率较差,Strelka2/Mutect2 精确率较高但召回率较低),我们开发了基于机器学习的检测工具 SomaticXGB。在本研究中,SURFSeq 5000 持续表现出最低的错误率,并在低至 0.5% 的 VAF 水平下实现了更优的检测准确性,优于所有其他测序平台。另一方面,SomaticXGB 在 VAF 为 0.5% 至 1.5% 的模拟数据集上取得了约 0.92 的 F1 分数,在 Twist 1% 标准品上取得了 0.89 的 F1 分数,显著优于传统方法。本研究提供了一个具有重要价值的丰富多平台数据资源,提出了用于性能基准评估的标准化流程,并提供了一种基于机器学习的体细胞突变优化检测策略。

多种商业化短读长测序平台的可获得性,使得有必要开展系统性的跨平台性能比较,尤其是针对低频体细胞突变检测等具有挑战性的应用。在本研究中,我们利用六种平台(NovaSeq 6000、NovaSeq X、FASTASeq 300、GenoLab M、SURFSeq 5000 和 MGISEQ-T7)生成了一个大规模靶向测序数据集,样本包括五种 Genome in a Bottle(GIAB)人类基因组 DNA 参考标准品(HG001 至 HG005),以及携带 1% 变异等位基因频率(VAF)的 Twist Biosciences cfDNA 参考标准品。

为了在保留真实测序背景的同时构建一个更贴近实际的基准,我们开发了 PosMix,这是一种能够生成位点特异性 VAF 的模拟工具。为克服传统变异检测工具的局限性(如 VarScan2 召回率高但精确率较差,Strelka2/Mutect2 精确率较高但召回率较低),我们开发了基于机器学习的检测工具 SomaticXGB。在本研究中,SURFSeq 5000 始终表现出最低的错误率,并在低至 0.5% 的 VAF 条件下实现了最优检测准确性,优于所有其他测序平台。另一方面,SomaticXGB 在 VAF 范围为 0.5% 至 1.5% 的模拟数据集上取得了约 0.92 的 F1 分数,在 Twist 1% 标准品上取得了 0.89 的 F1 分数,性能显著优于传统方法。

本研究提供了宝贵且丰富的多平台数据资源,提出了一条用于性能基准评估的标准化流程,以及一种用于优化体细胞突变检测的基于机器学习的策略。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.28.728367v1?rss=1

🏷️ 体细胞突变检测 低频变异 高通量测序 跨平台评估 机器学习 基准测试