学习残基水平上下文以建模蛋白质-蛋白质相互作用

root 提交于 周五, 06/05/2026 - 08:47
蛋白质语言模型(PLM)通过从序列中学习残基水平的特征来实现对蛋白质性质的预测,然而,大多数基于PLM的蛋白质-蛋白质相互作用方法是在整个蛋白质范围内聚合信息,这限制了分辨率和可解释性。在此,我们提出ReCLIP,这是一种基于Transformer的框架,通过结合蛋白质内部的残基邻域与由残基条件化的相互作用伙伴表征,在单个残基层面学习相互作用特异性表征。我们表明,以残基为中心的上下文为在多种生物学情境下建模蛋白质相互作用提供了一个通用框架。ReCLIP能够准确预测由突变引起的扰动(AUROC = 0.973),可推广至不改变序列的翻译后修饰(AUROC = 0.822),并能够在未见过的等位基因上实现对肽-MHC结合的零样本预测(AUROC最高达0.972)。对所学习残基邻域的分析揭示了在结构和功能上具有一致性的模式,这些模式与已知的结合决定因素相一致。应用于具有临床注释的遗传变异时,ReCLIP能够识别与疾病相关的相互作用扰动,并将致病变异关联到特定的分子相互作用背景中。我们的结果确立了一个可泛化且可解释的蛋白质相互作用建模框架,并为理解残基水平上下文如何塑造相互作用特异性及其扰动提供了见解。

蛋白质语言模型(PLM)通过从序列中学习残基水平的特征,使蛋白质性质预测成为可能;然而,大多数基于 PLM 的蛋白质—蛋白质相互作用方法是在整个蛋白质范围内聚合信息,从而限制了分辨率和可解释性。在此,我们提出 ReCLIP,这是一种基于 Transformer 的框架,通过结合蛋白质内残基邻域与由残基条件化的相互作用伙伴表征,在单个残基水平学习相互作用特异性表征。我们表明,以残基为中心的上下文为跨多种生物学场景建模蛋白质相互作用提供了一个通用框架。ReCLIP 能够准确预测突变诱导的扰动(AUROC = 0.973),可推广至不改变序列的翻译后修饰(AUROC = 0.822),并可实现对未见等位基因的肽-MHC 结合零样本预测(AUROC 最高达 0.972)。对所学习残基邻域的分析揭示了在结构和功能上具有一致性的模式,这些模式与已知的结合决定因素相一致。应用于具有临床注释的遗传变异时,ReCLIP 能够识别与疾病相关的相互作用扰动,并将致病变异关联到特定的分子相互作用背景中。我们的结果确立了一个可泛化且可解释的蛋白质相互作用建模框架,并为理解残基水平上下文如何塑造相互作用特异性及其扰动提供了见解。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.01.729118v1?rss=1

🏷️ 蛋白质-蛋白质相互作用 蛋白质语言模型 残基水平建模 Transformer 突变效应预测 肽-MHC结合预测