握手:利用 ProstT5 和跨链注意力机制大规模进行伙伴特异性蛋白质-蛋白质结合位点预测

root 提交于 周日, 06/07/2026 - 20:47
针对特定互作伙伴的蛋白质-蛋白质结合位点预测,即识别蛋白质在与特定伙伴结合时哪些残基构成相互作用界面,仍然是一项具有挑战性的任务,并且对药物发现以及理解蛋白质结构与功能具有重要意义。现有计算方法受限于训练数据集规模较小、冗余过滤标准不一致,以及在测试时依赖三维结构信息。 本文提出了一种仅基于序列、面向特定互作伙伴的蛋白质-蛋白质界面预测器,称为 Handshake。该方法将基于结构数据预训练的蛋白质语言模型 ProstT5 与低秩适配(Low-Rank Adaptation, LoRA)、跨链注意力机制以及接触监督头相结合。我们的方法既能够检测结合界面,也能够预测成对接触矩阵。 我们在源自 PPInterface 数据集的大规模非冗余蛋白质-蛋白质配对数据集上训练模型。PPInterface 是迄今为止最全面的结构蛋白质-蛋白质数据库。我们还在经过系统过滤的基准数据集上,于四个冗余阈值(30%–90% 序列一致性)下对模型进行了评估。结果表明,在相同模型上,序列冗余会使报告的 AUROC 最高虚增 0.079、MCC 最高虚增 0.145,说明这是该领域中一个重要的方法学混杂因素。 即使在 30% 的冗余阈值下,我们的结果(AUROC=0.811,MCC=0.367,F1=0.45)仍优于在该标准下已发表的最佳纯序列方法。我们的方法还达到了与现有依赖显式结构信息的特定伙伴预测方法相当的性能。除系统揭示冗余导致的性能膨胀之外,这一全面的训练与评估数据集还有助于加深对蛋白质-蛋白质相互作用以及当前检测方法能力与局限性的理解。

针对特定互作伙伴的蛋白质-蛋白质结合位点预测,即识别某一蛋白质在与特定伙伴结合时哪些残基构成其相互作用界面,仍然是一项具有挑战性的任务,并且对药物发现以及理解蛋白质结构与功能具有重要意义。现有计算方法受限于训练数据集规模较小、冗余过滤标准不一致,以及在测试阶段依赖三维结构信息。

本文提出了一种仅基于序列的、针对特定伙伴的蛋白质-蛋白质界面预测器,称为 Handshake。该方法将基于结构数据预训练的蛋白质语言模型 ProstT5 与低秩适配(LoRA)、跨链注意力机制以及接触监督头相结合。我们的方法既能够检测结合界面,也能够预测成对接触矩阵。我们在由 PPInterface 数据集构建而来的大规模非冗余蛋白质-蛋白质对数据集上训练了该模型;PPInterface 是迄今为止最全面的结构蛋白质-蛋白质数据库。我们还在经过系统性过滤的基准数据集上、针对四个冗余阈值(30%–90% 序列一致性)对模型进行了评估。

我们证明,序列冗余会使相同模型所报告的 AUROC 最高虚增 0.079、MCC 最高虚增 0.145,表明这是该领域中一个重大的方法学混杂因素。即使在 30% 的冗余阈值下,我们的结果(AUROC=0.811,MCC=0.367,F1=0.45)仍优于在这一标准下已发表的最佳仅基于序列的方法。我们的方法还达到了与现有使用显式结构信息的特定伙伴预测方法相当的性能。除系统揭示冗余膨胀效应外,这一全面的训练与评估数据集还有助于加深对蛋白质-蛋白质相互作用以及当前检测方法能力与局限性的理解。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.04.730144v1?rss=1

🏷️ 蛋白质-蛋白质相互作用 结合位点预测 蛋白质语言模型 跨链注意力 序列分析 机器学习