可解释机器学习揭示了外显子跳跃的RBP调控逻辑

root 提交于 周日, 05/31/2026 - 20:47
RNA结合蛋白(RBP)通过RBP-RNA相互作用调控mRNA的生命周期。该生命周期包括剪接过程,即将前体mRNA(pre-mRNA)的内含子序列去除,并将外显子连接在一起。然而,导致不同剪接结果的RBP结合模式仍未被完全理解。 在此,我们利用两个细胞系(HepG2和K562)中超过168种RBP的RBP-RNA结合数据和敲低RNA-seq数据构建机器学习模型,以更好地理解能够预测外显子跳跃的结合模式。外显子跳跃是人类中最主要的可变剪接形式。我们表明,仅基于RBP结合模式训练的模型确实具有预测能力,且更为复杂的机器学习模型(XGBoost)优于较为简单的线性模型。 此外,我们能够提取出嵌入这些模型中的、具有生物学可解释性的逻辑。我们表明,SHAP这一机器学习可解释性技术能够捕捉RBP结合在位置特异性上的激活和抑制行为。此外,我们发现,SHAP值能够预测未见过的剪接事件中的变化,而RBP成对之间的SHAP相互作用则能够预测蛋白质-蛋白质相互作用。 我们的结果表明,将机器学习与可解释性技术结合使用,能够揭示RBP结合的调控逻辑。通过估计某一RBP结合位点对剪接事件的影响,SHAP值还提供了可直接检验的科学假设。我们预期,围绕生物学过程设计并聚焦于可解释性的模型,将在剪接研究以及更广泛的基因组学领域产生可操作的生物学洞见。

RNA结合蛋白(RBP)通过RBP-RNA相互作用调控mRNA的生命周期。该生命周期包括剪接过程,在此过程中,pre-mRNA中的内含子序列被移除,外显子被连接在一起。然而,导致不同剪接结果的RBP结合模式目前仍未被完全理解。在此,我们基于两个细胞系(HepG2和K562)中超过168种RBP的RBP-RNA结合数据和敲低RNA-seq数据构建机器学习模型,以更好地理解能够预测外显子跳跃的结合模式;外显子跳跃是人类中最主要的可变剪接形式。我们表明,仅基于RBP结合模式训练的模型确实具有预测能力,并且更复杂的机器学习模型(XGBoost)优于更简单的线性模型。

此外,我们能够提取出嵌入这些模型中的、具有生物学可解释性的逻辑。我们表明,SHAP这一机器学习可解释性技术能够捕捉RBP结合在位置特异性上的激活和抑制行为。此外,我们发现,SHAP值能够预测未见过的剪接事件中的变化,而成对RBP之间的SHAP相互作用能够预测蛋白质-蛋白质相互作用。我们的结果表明,将机器学习与可解释性技术相结合,能够揭示RBP结合的调控逻辑。通过估计某个RBP结合位点对剪接事件的影响,SHAP值还提供了可直接检验的科学假设。我们预计,围绕生物学过程设计并聚焦于可解释性的模型,将在剪接研究以及更广泛的基因组学领域产生可付诸实践的生物学见解。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.29.728731v1?rss=1

🏷️ 可变剪接 外显子跳跃 RNA结合蛋白 可解释机器学习 SHAP RNA-seq