- 2 次围观
检测来自未采样或已灭绝来源群体的渐渗基因组片段仍然具有挑战性。S*统计量为此目的被广泛使用,但原始的 sstar 实现依赖广义加性模型,对从固定计数分箱中预先计算的特定分位数数值进行平滑处理,因此需要在固定分离位点数量的条件下进行模拟。本文提出 sstar2,这是一个 Python 更新版本,以分位数回归替代了该过程,从模拟的基因组窗口中直接估计指定零假设分位数下的 S* 阈值。 我们在三种群体统计学模型下,使用单倍型已定相和未定相的模拟数据,将 sstar2 与原始 sstar、线性分位数回归以及随机森林分位数回归进行了基准比较。sstar2 在所评估的方法中表现出最佳的总体性能,其中在倭黑猩猩幽灵渐渗这一具有挑战性的群体统计学模型下,改进最为显著。 这些结果表明,sstar2 在提升 S* 阈值校准效果的同时,也使基于 S* 的渐渗分析更加灵活,并与现代模拟工作流程具有更好的兼容性。
从未采样或已灭绝的源种群中检测渗入的基因组片段仍然具有挑战性。S* 统计量被广泛用于这一目的,但原始的 sstar 实现依赖广义加性模型,对预先根据固定计数分箱计算得到的特定分位数数值进行平滑处理,因此需要在具有固定分离位点数目的条件下开展模拟。在此,我们提出 sstar2,这是一个 Python 更新版本,它以分位数回归替代了上述过程,从模拟得到的基因组窗口中直接估计给定零假设分位数下的 S* 阈值。我们在三种人口统计学模型下,使用相位已知和相位未知的模拟数据,将 sstar2 与原始 sstar、线性分位数回归以及随机森林分位数回归进行了基准比较。结果表明,在所评估的方法中,sstar2 整体表现最佳,且在倭黑猩猩幽灵渗入这一具有挑战性的人口统计学模型下,其改进最为显著。这些结果表明,sstar2 在提高 S* 阈值校准效果的同时,也使基于 S* 的渗入分析更加灵活,并更好地兼容现代模拟工作流程。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.31.729079v1?rss=1
🏷️ 古人类基因渗入 机器学习 S*统计量 分位数回归 Python软件包 群体遗传学
来源出处
sstar2:一个基于机器学习的、用于基于 S* 的古人类基因渗入检测的 Python 软件包
https://www.biorxiv.org/content/10.64898/2026.05.31.729079v1?rss=1