通过引导蛋白质语言模型中的稀疏机制特征来改进变异效应预测

root 提交于 周一, 06/08/2026 - 06:47

像 ESM 系列这样的蛋白质语言模型(PLM)在其高维连续嵌入中封装了海量的进化知识。然而,这些潜在表征高度纠缠,掩盖了实现精确功能解析所必需的细粒度生物物理约束。

为释放这些嵌入的全部表达能力,我们提出了 PLM-SAE,这是一种机制性框架,利用稀疏自编码器(SAE)将 PLM 表征解缠为离散且具有生物学可解释性的激活。通过分离并直接干预关键功能特征,我们从根本上增强了底层嵌入对结构和突变的感知能力。

我们在变体效应预测(VEP)任务上对这种嵌入增强进行了严格验证。在无监督零样本设定下,我们的稀疏调制提升了最先进的 ESM-3 模型,在 114 个深度突变扫描数据集上均带来了性能改进,并在人类 E3 泛素连接酶 HECD1 等具有挑战性的目标上实现了 80.8% 的相对性能提升。

此外,我们面向特定目标的可微门控机制在超过 80% 的评估数据集上实现了稳定的性能增益,Spearman 相关系数平均提高了 +0.138。

最后,将该方法扩展到跨适应度的多任务架构后,我们在 17 个 VenusMutHub 数据集上取得了新的最先进结果,其中小分子结合预测性能提升了 169.0%,尤为突出。

我们的工作表明,通过稀疏调制来优化高度纠缠的潜在流形,为增强 PLM 的下游能力提供了稳健且具有泛化性的基础。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724472v1?rss=1

🏷️ 蛋白质语言模型 稀疏自编码器 变异效应预测 零样本学习 深度突变扫描 可解释性建模