在稀有等位基因频率谱中考虑重复突变的影响

root 提交于 周日, 05/31/2026 - 22:47
随着全基因组和全外显子组数据集规模的不断扩大,它们能够揭示出群体中频率越来越低的等位基因。稀有等位基因的样本往往包含重复突变,在这种情况下,衍生等位基因是“同态相同”而非“同祖相同”。因此,位点频率谱(SFS)的分析变得具有挑战性,因为它强烈依赖于突变率。 为克服这一障碍,我们定义了单次突变频率谱(SMFS),即来源于单一突变事件的等位基因的频率谱。对于稀有等位基因,存在重复突变时的SFS可以表示为SMFS与其自身卷积的加权和。这一简单而有力的模型将重复突变与产生SMFS的人口遗传学过程(如遗传漂变和自然选择)解耦。我们展示了如何将包含重复突变的前向时间模型和后向时间模型都重述为SMFS的形式。随后,我们发展了一种用于SMFS的组合分层估计方法(命名为CHES)。我们将这一简单而稳健的方法应用于一个人类外显子组测序数据集,结果表明,包含重复突变的SMFS能够解释低突变率位点与高突变率位点之间SFS的差异。所推断的SMFS显示出与等位基因频率之间近似的标度律关系,这与恒定群体大小模型和指数增长群体模型均不一致。

随着全基因组和全外显子组数据集规模的不断扩大,研究者能够发现在人群中频率越来越低的等位基因。稀有等位基因的样本往往包含重复突变,其中衍生等位基因在状态上相同,而非在谱系上同源。因此,位点频率谱(site frequency spectrum, SFS)的分析变得具有挑战性,因为它对突变率具有很强的依赖性。为克服这一障碍,我们定义了单次突变频率谱(single mutation frequency spectrum, SMFS),即来源于单一突变事件的等位基因的频率谱。对于稀有等位基因,在存在重复突变时,SFS可表示为SMFS与其自身卷积的加权和。这个简单而强大的模型,将重复突变与产生SMFS的人口遗传学过程——如遗传漂变和选择——解耦开来。我们展示了如何将同时包含重复突变的前向时间模型和后向时间模型都重新表述为SMFS的形式。随后,我们提出了一种用于SMFS组合分层估计的方法(我们将其命名为CHES)。我们将这一简单而稳健的方法应用于一个人类外显子组测序数据集,表明在存在重复突变时,SMFS能够解释低突变率位点与高突变率位点之间SFS的差异。所推断的SMFS显示出一种关于等位基因频率的近似标度律,这与恒定群体大小模型和指数增长群体模型均不一致。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.29.728884v1?rss=1

🏷️ 位点频率谱 重复突变 稀有等位基因 群体遗传学 外显子组测序 组合分层估计