- 2 次围观
高通量下一代测序(NGS)对于不同应用场景中的遗传变异发现至关重要。随着NGS技术的发展,越来越需要能够支持真实数据模拟与降采样的基准测试工具。现有降采样工具通常对测序读段进行均匀采样,这无法充分刻画真实的覆盖度分布,尤其是在难测序区域以及混合测序设计中。 本文提出了samsampleX,这是一种基于Python的工具,实现了一种新颖的分布感知降采样算法,可通过动态调整读段保留概率来模拟源自真实测序数据的覆盖度谱。利用超高覆盖度参考数据集,samsampleX能够准确重现典型测序实验中观察到的覆盖模式,在保持诸如HLA位点以及混合全外显子组/全基因组测序配置等基因组区域的测序深度变异性方面,优于均匀降采样方法。samsampleX通过为专门化的NGS基准测试场景提供更高的灵活性,扩展了现有的降采样策略,从而促进对测序数据分析方法的更有效评估。
高通量下一代测序(NGS)对于不同应用场景中的遗传变异发现至关重要。随着NGS技术的发展,亟需能够支持真实数据模拟与降采样的基准测试工具。现有降采样工具通常对测序读段采用均匀抽样,但这种方法无法充分建模真实的覆盖度分布,尤其是在难测序区域和混合测序设计中。
本文提出了samsampleX,这是一种基于Python开发的工具,实现了一种新颖的分布感知降采样算法,能够动态调整读段保留概率,以模拟来源于真实测序数据的覆盖度谱。基于超高覆盖度参考数据集,samsampleX能够准确重现典型测序实验中观察到的覆盖模式,在保留诸如HLA位点以及杂交全外显子组/全基因组测序配置等基因组区域的测序深度变异性方面,其表现优于均匀降采样方法。samsampleX通过为专门化的NGS基准测试场景提供更高的灵活性,扩展了当前的降采样策略,并促进了对测序数据分析方法的更优评估。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.03.729942v1?rss=1
🏷️ 下一代测序 分布感知下采样 基准测试 覆盖度分布 变异检测 测序模拟
来源出处
samsampleX:用于下一代测序数据基准测试的分布感知下采样方法
https://www.biorxiv.org/content/10.64898/2026.06.03.729942v1?rss=1