利用多样化蛋白质谱和结构信息改进病毒蛋白质聚类

root 提交于 周日, 05/31/2026 - 04:47
病毒是丰富、古老且可能快速进化的生物实体。因此,其编码蛋白质具有高度多样性,在序列之间识别同源关系对于系统发育分析和功能注释而言与其具有挑战性同样重要。传统方法通过序列相似性对病毒蛋白进行分组,为每个蛋白家族构建HMM谱,并进一步通过谱之间的比较进行聚类。在此,我们提出了一种改进框架:通过用数千万条宏基因组序列丰富参考病毒HMM谱,从而提升HMM的敏感性。这提高了大多数蛋白家族内部的多样性,使多样性指数从92.7%的聚类中低于2提升至中位数为6。与原始谱相比,这种对谱的丰富使检测到的同源关系数量增加了三倍以上。随后,利用这些关系可更有效地对第一步聚类进行分组,并通过结构预测与比较进一步加以统一。序列丰富策略在连接小蛋白方面表现尤为突出,而结构信息则更有利于连接尾部蛋白和头部蛋白等高度结构化的蛋白。将该方法应用于142万个蛋白后,我们获得了56,560个家族——远少于200,018个(基于序列)或135,048个(原始HMM)——这表明先前方法严重高估了病毒蛋白的多样性。通过外部序列丰富目标序列的多样性,并结合结构信息的互补使用,这一策略揭示了深层进化联系,从而为病毒蛋白进化提供了更为准确的图景。

病毒是数量丰富、起源古老且可能快速进化的生物实体。因此,其编码蛋白具有高度多样性,在序列之间识别同源关系对于系统发育分析和功能注释而言至关重要,但同时也极具挑战。传统方法依据序列相似性对病毒蛋白进行分组,为每个蛋白家族构建 HMM 谱,并通过谱之间的比较进一步聚类。在此,我们提出了一种改进框架:通过利用数千万条宏基因组序列对参考病毒 HMM 谱进行富集,从而提升 HMM 的灵敏度。这一过程增加了大多数蛋白家族内部的多样性,使多样性指数从 92.7% 的聚类中低于 2 提升至中位数为 6。与原始谱相比,这种对谱的富集使检测到的同源关系数量增加了三倍以上。随后,利用这些关系可更有效地对第一步聚类进行分组,并进一步通过结构预测与比较实现统一。序列富集策略在连接小型蛋白方面表现尤为突出,而结构信息则更适于连接尾部蛋白和头部蛋白等高度结构化的蛋白。将该方法应用于 142 万个蛋白后,我们获得了 56,560 个家族——远少于基于序列方法得到的 200,018 个家族或基于原始 HMM 得到的 135,048 个家族——这表明先前方法极大高估了病毒蛋白的多样性。通过外部序列对目标序列的多样性进行富集,并结合结构信息的互补使用,这一策略揭示了深层进化联系,从而为病毒蛋白进化提供了更为准确的图景。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.26.727815v1?rss=1

🏷️ 病毒蛋白聚类 HMM谱增强 结构信息整合 宏基因组序列 同源关系检测 病毒进化