- 2 次围观
祖先序列重建(ASR)是研究分子进化与蛋白质功能起源的一种强有力方法。然而,大多数ASR方法假设各个位点独立进化,忽略了塑造蛋白质结构、稳定性和功能的上位性约束。这种简化同时影响祖先推断及其评估:最大后验(maximum-a-posteriori, MAP)重建可能将概率过度集中到某一条过于理想化的单一序列上,而独立的后验采样则可能产生不合理或功能较差的祖先序列。在此,我们提出一种考虑共进化信息的ASR框架,将标准系统发育推断与直接耦合分析(Direct Coupling Analysis, DCA)相结合,从而在保留位点层面祖先不确定性的同时,施加从现存蛋白质家族中学习得到的残基—残基约束。 为了对该方法进行基准测试,我们构建了一个受控的前向进化框架,其基础是一个DCA进化采样器,从而能够将重建得到的祖先序列与在现实上位性约束下生成的、已知真实值的序列进行比较。将该方法应用于β-内酰胺酶和DNA结合结构域时,我们发现,当祖先状态受到上位性约束时,该方法能够提升重建效果,并产生一组候选祖先序列集合;这些序列不仅在系统发育上保持一致,而且在统计意义上与天然蛋白质家族相容。该框架弥合了单序列MAP重建与无约束后验采样之间的鸿沟,为获得更能反映蛋白质进化耦合本质的祖先重建提供了一条切实可行的路径。
祖先序列重建(ASR)是研究分子进化和蛋白质功能起源的一种强有力方法。然而,大多数 ASR 方法都假定位点独立进化,忽略了塑造蛋白质结构、稳定性和功能的上位性约束。这种简化同时影响祖先推断及其评估:最大后验(maximum-a-posteriori, MAP)重建可能会将概率过度集中于某一条过于理想化的单一序列,而独立后验采样则可能生成不合理或功能较差的祖先序列。在此,我们提出一种考虑共进化的 ASR 框架,将标准系统发育推断与直接耦合分析(DCA)相结合,从而在保留位点层面祖先不确定性的同时,施加从现存蛋白质家族中学习得到的残基—残基约束。
为了对该方法进行基准测试,我们开发了一个受控的前向进化框架,其基础是一个 DCA 进化采样器,使重建得到的祖先序列能够与在现实上位性约束下生成的、已知真实值序列进行比较。将该方法应用于 $beta$-内酰胺酶和 DNA 结合结构域时,我们发现,当祖先状态受到上位性约束时,该方法能够提升重建效果,并产生一组候选祖先序列,这些序列既与系统发育一致,又在统计意义上与天然蛋白质家族相容。该框架弥合了单序列 MAP 重建与无约束后验采样之间的鸿沟,为获得更能反映蛋白质进化耦合本质的祖先重建提供了一条切实可行的路径。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.08.731024v1?rss=1
🏷️ 祖先序列重建 共进化 直接耦合分析 分子进化 蛋白质进化
来源出处