通过引导蛋白质语言模型中的稀疏机制特征来改进变异效应预测|||北京沫之东生物技术有限公司

通过引导蛋白质语言模型中的稀疏机制特征来改进变异效应预测

像 ESM 系列这样的蛋白质语言模型（PLM）在其高维连续嵌入中封装了海量的进化知识。然而，这些潜在表征高度纠缠，掩盖了实现精确功能解析所必需的细粒度生物物理约束。

为释放这些嵌入的全部表达能力，我们提出了 PLM-SAE，这是一种机制性框架，利用稀疏自编码器（SAE）将 PLM 表征解缠为离散且具有生物学可解释性的激活。通过分离并直接干预关键功能特征，我们从根本上增强了底层嵌入对结构和突变的感知能力。

我们在变体效应预测（VEP）任务上对这种嵌入增强进行了严格验证。在无监督零样本设定下，我们的稀疏调制提升了最先进的 ESM-3 模型，在 114 个深度突变扫描数据集上均带来了性能改进，并在人类 E3 泛素连接酶 HECD1 等具有挑战性的目标上实现了 80.8% 的相对性能提升。

此外，我们面向特定目标的可微门控机制在超过 80% 的评估数据集上实现了稳定的性能增益，Spearman 相关系数平均提高了 +0.138。

最后，将该方法扩展到跨适应度的多任务架构后，我们在 17 个 VenusMutHub 数据集上取得了新的最先进结果，其中小分子结合预测性能提升了 169.0%，尤为突出。

我们的工作表明，通过稀疏调制来优化高度纠缠的潜在流形，为增强 PLM 的下游能力提供了稳健且具有泛化性的基础。

🏷️ 蛋白质语言模型稀疏自编码器变异效应预测零样本学习深度突变扫描可解释性建模

来源出处

通过引导蛋白质语言模型中的稀疏机制特征来改进变异效应预测 https://www.biorxiv.org/content/10.64898/2026.05.12.724472v1?rss=1