用于人类旁系同源基因发现的新型蛋白质功能表征:挖掘基因组学的最后宝藏

root 提交于 周一, 06/01/2026 - 06:47
增加相关蛋白旁系同源物的数量对于全面理解蛋白质之间的关系至关重要,然而对于处于“模糊区”(twilight zone)的序列而言,这仍然具有挑战性。在此,我们提出了一种整合同源检测框架,结合基于序列的相似性度量(BLASTp、MMseqs2)、基于结构的相似性度量(Foldseek)以及基于嵌入距离的相似性度量(PROST),以识别更多的旁系同源物。为了表征功能相关的蛋白质对,我们构建了蛋白家族特异性的有监督逻辑回归模型,并利用来自 MEROPS 蛋白酶和 KinHub 激酶的人工整理功能注释数据进行训练。所得模型能够成功对蛋白质进行分类,在测试数据集上达到 0.99 的 ROC-AUC 和 0.92 的 F1 分数。应用该模型后,我们初步鉴定出 686 个蛋白酶和 298 个激酶新候选成员。随后通过结构验证以及与既往注释的比较,在人类蛋白质组中确定了 7 个新的蛋白酶旁系同源物和 3 个新的激酶旁系同源物,其中大多数此前缺乏功能表征。另一个附加结果是,通过结构分析鉴定了更多蛋白酶和激酶中对催化至关重要的残基。尽管对于研究较为充分的蛋白酶和激酶而言,新发现的旁系同源物数量较少,我们的结果表明,将正交的同源检测方法与家族特异性的回归模型相结合,为发现新的功能相关蛋白质提供了一种稳健且可扩展的策略。这是一种可推广的新型蛋白质功能发现方法,并可更广泛地应用于注释不足的蛋白质组。

增加相关蛋白旁系同源物的数量,对于全面理解蛋白质之间的关系至关重要;然而,对于处于“暮光区”的序列而言,这仍然是一项挑战。在此,我们提出了一种整合的同源检测框架,结合了基于序列(BLASTp、MMseqs2)、基于结构(Foldseek)以及基于嵌入距离(PROST)的相似性度量,以鉴定更多的旁系同源物。

为了表征功能相关的蛋白质对,我们开发了蛋白家族特异性的监督式逻辑回归模型,并利用来自 MEROPS 蛋白酶和 KinHub 激酶的人工整理功能注释进行训练。所得模型能够成功对蛋白质进行分类,在测试数据集上达到 0.99 的 ROC-AUC 和 0.92 的 F1-score。应用该模型后,我们初步鉴定出 686 个蛋白酶和 298 个激酶新候选成员。随后,通过结构验证以及与既有注释的比较,我们在人类蛋白质组中发现了 7 个新的蛋白酶旁系同源物和 3 个新的激酶旁系同源物,这些蛋白大多此前缺乏功能表征。

此外,另一项结果是通过结构分析鉴定出更多蛋白酶和激酶中在催化作用中具有重要意义的残基。尽管对于研究较为充分的蛋白酶和激酶而言,新发现的旁系同源物数量较少,但我们的结果表明,将正交同源检测方法与家族特异性回归模型相结合,可为发现新的功能相关蛋白提供一种稳健且可扩展的策略。这是一种可推广的新型蛋白功能发现方法,并且能够更广泛地应用于注释不足的蛋白质组。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.28.728578v1?rss=1

🏷️ 旁系同源基因 蛋白质功能预测 同源检测 结构生物信息学 逻辑回归 人类蛋白质组注释