- 2 次围观
进化中间体将已观测到的蛋白质连接起来,但仅凭现存数据往往难以恢复产生它们的具体步骤序列。在这里,我们探讨仅根据两个端点,关于这类中间体究竟能够推断什么,以及不能推断什么。利用生成式序列景观作为蛋白质家族进化的可控模型,我们将数据驱动的重建方法与具有真实参考答案的模拟轨迹进行了基准比较。我们发现,最佳点预测并不一定是最忠实的进化重建:最大似然中间体在残基层面上可能是准确的,但在统计上却并不典型;相比之下,条件采样能够更好地刻画合理进化历史的集合。可预测性受景观拓扑结构的限制。受约束、低可变性的区域能够保留关于进化路径的信息,而高容许度、高可变性的区域则打开了许多替代路线,并抹去了路径特异性的记忆。我们还表明,仅凭序列分化程度并不足以衡量已逝去的进化时间;将端点可变性纳入考虑,能够为在景观中定位中间体提供更可靠的方法。这些结果将中间体重建重新定义为一个经过校准的概率性问题。数据驱动模型不应执着于寻找单一“真实”序列,而应识别端点何时包含进化信息,并返回现实的序列集合。
本网站正在使用一项安全服务来保护自身免受网络攻击。您刚才执行的操作触发了该安全解决方案。可能触发此拦截的行为有多种,包括提交某个特定单词或短语、SQL 命令或格式错误的数据。
您可以向网站所有者发送电子邮件,告知您被拦截的情况。请在邮件中说明该页面出现时您正在进行的操作,并附上位于本页底部的 Cloudflare Ray ID。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.18.733143v1?rss=1
🏷️ 蛋白质进化 上位性景观 进化中间体 生成式模型 序列重建 概率推断
来源出处
生成性上位性景观中进化中间体的可重构性
https://www.biorxiv.org/content/10.64898/2026.06.18.733143v1?rss=1