蛋白质语言模型的机制可解释性:一个验证框架

root 提交于 周三, 06/03/2026 - 08:47
蛋白质语言模型(PLMs)已被证明是预测蛋白质结构与功能的强大工具,但其内部机制仍然缺乏充分理解。近期的机制可解释性方法已将PLM表征分解为可解释特征,但尚未在单一、具有生物学意义的任务上结合这些方法进行研究。本文检验了InterPLM稀疏自编码器与ProtoMech跨层转码器是否能够在ESM-2(6层,8M)中发现主要用于区分A类{beta}-内酰胺酶与B类{beta}-内酰胺酶的特征,并将C类和D类作为更具挑战性的比较对象。本文的主要目标是寻找A类{beta}-内酰胺酶所特有、且不被其他类别共享的独特特征。 我们发现,这两种方法都能识别出A类{beta}-内酰胺酶的独特特征,但跨层转码器表明,与A类{beta}-内酰胺酶相关的概念似乎分布在多个节点之间,例如第4层和第6层中的节点,而非集中于单一节点。我们还展示了一个用于防止对节点作用作出过度宣称的验证框架,并利用该框架表明,若干表现强劲的节点在该框架的某些阶段未能通过验证,这意味着它们不能作为定义A类{beta}-内酰胺酶的唯一节点。

蛋白质语言模型(PLMs)已被证明是预测蛋白质结构与功能的强大工具,但其内部机制仍然缺乏充分理解。近期的机械可解释性方法已将PLM表征分解为可解释特征,但尚未在单一具有生物学意义的任务上结合使用这些方法。本文检验了InterPLM稀疏自编码器和ProtoMech跨层转码器是否能够在ESM-2(6层,8M)中发现主要用于区分A类β-内酰胺酶与B类β-内酰胺酶的特征,并将C类和D类作为更具挑战性的比较对象。其主要目标是找到A类β-内酰胺酶所特有、且不被其他类别共享的显著特征。

我们发现,这两种方法都能找到A类β-内酰胺酶的 distinct 特征,但跨层转码器表明,A类β-内酰胺酶的相关概念似乎分布在多个节点之间,例如第4层和第6层中的节点,而非集中于单一节点。我们还展示了一个用于防止夸大节点作用的验证框架,并利用该框架表明,若干表现强的节点在框架的某些阶段未能通过验证,这意味着它们不能作为定义A类β-内酰胺酶的唯一节点。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.29.727021v1?rss=1

🏷️ 蛋白质语言模型 机制可解释性 稀疏自编码器 跨层转码器 β-内酰胺酶 验证框架