- 2 次围观
像 ESM 系列这样的蛋白质语言模型(PLM)在其高维连续嵌入中封装了海量的进化知识。然而,这些潜在表征高度纠缠,掩盖了实现精确功能解析所必需的细粒度生物物理约束。
为释放这些嵌入的全部表达能力,我们提出了 PLM-SAE,这是一种机制性框架,利用稀疏自编码器(SAE)将 PLM 表征解缠为离散且具有生物学可解释性的激活。通过分离并直接干预关键功能特征,我们从根本上增强了底层嵌入对结构和突变的感知能力。
我们在变体效应预测(VEP)任务上对这种嵌入增强进行了严格验证。在无监督零样本设定下,我们的稀疏调制提升了最先进的 ESM-3 模型,在 114 个深度突变扫描数据集上均带来了性能改进,并在人类 E3 泛素连接酶 HECD1 等具有挑战性的目标上实现了 80.8% 的相对性能提升。
此外,我们面向特定目标的可微门控机制在超过 80% 的评估数据集上实现了稳定的性能增益,Spearman 相关系数平均提高了 +0.138。
最后,将该方法扩展到跨适应度的多任务架构后,我们在 17 个 VenusMutHub 数据集上取得了新的最先进结果,其中小分子结合预测性能提升了 169.0%,尤为突出。
我们的工作表明,通过稀疏调制来优化高度纠缠的潜在流形,为增强 PLM 的下游能力提供了稳健且具有泛化性的基础。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724472v1?rss=1
🏷️ 蛋白质语言模型 稀疏自编码器 变异效应预测 零样本学习 深度突变扫描 可解释性建模
来源出处
通过引导蛋白质语言模型中的稀疏机制特征来改进变异效应预测
https://www.biorxiv.org/content/10.64898/2026.05.12.724472v1?rss=1