校正全局同义选择可提高情景性正选择推断的准确性

root 提交于 周日, 06/07/2026 - 06:47
非同义替换率与同义替换率之比({omega})是推断蛋白质适应性进化的一个基本参数,其前提是假定同义替换在选择上是中性的。然而,随着越来越多的证据表明同义替换也会受到选择作用,这一前提正变得越来越难以成立;这种选择可由多种生物学过程驱动,例如翻译效率和mRNA稳定性。 在本研究中,我们表明,未被建模的同义位点选择会在{omega}估计中引入显著偏差,并导致正选择检验中的假阳性率升高。为纠正这一问题,我们提出了BUSTED+S+MSS,这是一种将多类别同义替换(Multiclass Synonymous Substitution, MSS)模型整合进用于检测间歇性选择的BUSTED方法中的统计框架。通过将同义密码子划分为基于经验推导得到的速率类别,该方法能够对全局性的同义位点约束进行建模。 对五个多样化类群——果蝇属(Drosophila)、秀丽隐杆线虫属(Caenorhabditis)、肠杆菌类(Enterobacteria)、酿酒酵母属(Saccharomyces)和灵长类(Primates)——的应用表明,纳入MSS组分后,模型拟合均得到持续改善,同时被推断为处于正选择之下的基因比例有所降低。在肠杆菌类中,经校正模型后仍保持显著性的基因在同义替换(dSs)上表现出较弱的约束,这与“未建模的纯化选择会驱动虚假的适应性信号”这一假说相一致。 此外,信息论分析表明,尽管位点特异性变异(site-specific variation, SRV)提供了主要的校正作用,但全局同义速率变异(MSS)也贡献了一个独立的二阶校正。在高度分化的序列比对中,这些信号协同作用以改进模型拟合。因此,BUSTED+S+MSS框架,尤其是在结合用于吸收序列比对伪影的“error-sink”机制时,提供了一种计算上可行的方法,用以区分适应性非同义替换与同义位点约束所造成的混杂效应。

非同义替代率与同义替代率之比({omega})是推断蛋白质适应性进化的一个基本参数,其前提是假定同义替代在选择上是中性的。然而,随着越来越多的证据表明多种生物学过程——如翻译效率和 mRNA 稳定性——会驱动作用于同义替代的选择,这一前提已日益难以成立。

在本研究中,我们表明,未被建模的同义选择会在 {omega} 估计中引入显著偏差,从而导致正选择检验中的假阳性率升高。为纠正这一问题,我们提出了 BUSTED+S+MSS,这是一种将多类别同义替代(MSS)模型纳入用于检测间歇性选择的 BUSTED 方法中的统计框架。通过将同义密码子划分为经验推导的速率类别,该方法能够解释全局性的同义约束。

对五个不同类群——果蝇属(Drosophila)、秀丽隐杆线虫属(Caenorhabditis)、肠杆菌(Enterobacteria)、酿酒酵母属(Saccharomyces)和灵长类(Primates)——的应用表明,纳入 MSS 组分可持续改善模型拟合,并降低被推断为处于正选择之下的基因比例。在肠杆菌中,经校正模型后仍保持显著性的基因表现出较弱的同义替代约束(dSs),这与“未建模的纯化选择会驱动虚假的适应性信号”这一假说一致。

此外,信息论分析表明,尽管位点特异性变异(SRV)提供了主要校正,但全局同义速率变异(MSS)贡献了一个独立的二阶校正。在高度分化的序列比对中,这些信号协同作用以改进模型拟合。因而,BUSTED+S+MSS 框架,尤其是在结合用于吸收比对伪影的“误差汇”机制时,为将适应性非同义替代与同义约束所造成的混杂效应区分开来,提供了一种计算上可行的方法。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.02.729680v1?rss=1

🏷️ 正选择推断 同义替换选择 dN/dS比率 系统发育模型 统计方法 适应性进化