蛋白质语言模型的机制可解释性：一个验证框架|||北京沫之东生物技术有限公司

4 次围观

蛋白质语言模型（PLMs）已被证明是预测蛋白质结构与功能的强大工具，但其内部机制仍然缺乏充分理解。近期的机制可解释性方法已将PLM表征分解为可解释特征，但尚未在单一、具有生物学意义的任务上结合这些方法进行研究。本文检验了InterPLM稀疏自编码器与ProtoMech跨层转码器是否能够在ESM-2（6层，8M）中发现主要用于区分A类{beta}-内酰胺酶与B类{beta}-内酰胺酶的特征，并将C类和D类作为更具挑战性的比较对象。本文的主要目标是寻找A类{beta}-内酰胺酶所特有、且不被其他类别共享的独特特征。我们发现，这两种方法都能识别出A类{beta}-内酰胺酶的独特特征，但跨层转码器表明，与A类{beta}-内酰胺酶相关的概念似乎分布在多个节点之间，例如第4层和第6层中的节点，而非集中于单一节点。我们还展示了一个用于防止对节点作用作出过度宣称的验证框架，并利用该框架表明，若干表现强劲的节点在该框架的某些阶段未能通过验证，这意味着它们不能作为定义A类{beta}-内酰胺酶的唯一节点。

蛋白质语言模型（PLMs）已被证明是预测蛋白质结构与功能的强大工具，但其内部机制仍然缺乏充分理解。近期的机械可解释性方法已将PLM表征分解为可解释特征，但尚未在单一具有生物学意义的任务上结合使用这些方法。本文检验了InterPLM稀疏自编码器和ProtoMech跨层转码器是否能够在ESM-2（6层，8M）中发现主要用于区分A类β-内酰胺酶与B类β-内酰胺酶的特征，并将C类和D类作为更具挑战性的比较对象。其主要目标是找到A类β-内酰胺酶所特有、且不被其他类别共享的显著特征。

我们发现，这两种方法都能找到A类β-内酰胺酶的 distinct 特征，但跨层转码器表明，A类β-内酰胺酶的相关概念似乎分布在多个节点之间，例如第4层和第6层中的节点，而非集中于单一节点。我们还展示了一个用于防止夸大节点作用的验证框架，并利用该框架表明，若干表现强的节点在框架的某些阶段未能通过验证，这意味着它们不能作为定义A类β-内酰胺酶的唯一节点。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.05.29.727021v1?rss=1

🏷️ 蛋白质语言模型机制可解释性稀疏自编码器跨层转码器 β-内酰胺酶验证框架

来源出处

蛋白质语言模型的机制可解释性：一个验证框架 https://www.biorxiv.org/content/10.64898/2026.05.29.727021v1?rss=1