- 2 次围观
蛋白质-蛋白质相互作用(PPI)调控着关键的细胞过程,因此,对相互作用位点的计算识别已成为结构生物学中的核心挑战,并对蛋白质工程和靶向治疗药物的开发具有重要意义。现有预测算法包括基于序列的方法,这类方法缺乏结构信息;以及基于结构的方法,但这类方法往往难以有效整合进化背景。在此,我们提出ESM3-PPISites,这是一种用于PPI界面残基层级分类的监督模型,利用了ESM3蛋白质语言模型的多模态表征。 为确保无偏评估,我们采用了严格的冗余过滤方案,在序列空间和结构空间中系统性地消除训练数据与精心整理的基准数据集之间的潜在同源性。我们的研究结果表明,尽管ESM3最大专有版本具有最高的预测能力,但对其小型开放权重对应版本进行有针对性的微调,能够显著缩小性能差距。ESM3-PPISites在推理时仅需一级序列数据,即可实现前所未有的准确性,并显著优于当前方法。 关键的是,我们通过将这些预测结果作为空间约束整合到HADDOCK3对接平台中,展示了其实际应用价值。在Docking Benchmark v5的一个独立子集中的12个复合物上进行评估时,与从头开始的盲对接相比,我们的预测引导流程在识别近天然结合构象方面表现出显著增强,同时将计算运行时间降低了一个数量级。该框架为高通量结构互作组学建立了一种可扩展的范式。
蛋白质-蛋白质相互作用(PPI)调控着关键的细胞过程,因此,对相互作用位点的计算识别已成为结构生物学中的核心挑战,并对蛋白质工程和靶向治疗药物的开发具有重要意义。现有预测算法包括基于序列的方法,这类方法缺乏结构信息;以及基于结构的方法,这类方法往往难以有效整合进化背景。在此,我们提出了 ESM3-PPISites,这是一种用于 PPI 界面残基水平分类的监督模型,利用了 ESM3 蛋白质语言模型的多模态表征。为确保评估无偏,我们采用了严格的冗余过滤协议,在序列空间和结构空间中系统性地消除了训练数据与精心整理的基准数据集之间的潜在同源性。我们的研究结果表明,尽管 ESM3 最大的专有版本具有最高的预测能力,但其小型开源权重对应版本经过针对性微调后,显著缩小了性能差距。
在推理阶段仅需一级序列数据的条件下,ESM3-PPISites 实现了前所未有的准确性,显著优于当前方法。关键的是,我们通过将这些预测结果作为空间约束整合到 HADDOCK3 对接平台中,展示了其实际应用价值。在 Docking Benchmark v5 的一个独立子集(包含 12 个复合物)上进行评估时,与从头开始的盲对接相比,我们的预测引导流程显著提升了近天然结合构象的识别能力,同时将计算运行时间降低了一个数量级。该框架为高通量结构互作组学建立了一种可扩展的范式。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.29.728739v1?rss=1
🏷️ 蛋白质-蛋白质相互作用 界面残基预测 蛋白质语言模型 多模态表征 分子对接
来源出处
利用多模态表征解码蛋白质-蛋白质相互作用界面的语法
https://www.biorxiv.org/content/10.64898/2026.05.29.728739v1?rss=1