在基因组语言模型中解耦 RNA 演化与热力学|||北京沫之东生物技术有限公司

4 次围观

仅基于大规模核酸序列数据训练的基因组语言模型（gLMs）似乎能够捕捉 RNA 结构信号，然而其具体机制仍不清楚。利用分类雅可比（categorical Jacobian, CJ）操作——一种与模型无关、用于探测成对依赖关系的操作——我们系统比较了三种代表性的 gLM：RNA-FM、Evo 2 和 gLM2。我们发现，CJ 信号能够恢复得到受进化共变分析支持的碱基配对，这与蛋白质语言模型中的发现一致。令人惊讶的是，CJ 还能够恢复那些缺乏进化支持、但可由生物物理最近邻模型预测的碱基配对。是否可能 gLM 已经“学习”了 RNA 热力学？我们注意到，当输入反向序列时，最近邻 RNA 折叠模型往往会预测出镜像反射的结构，这与这些模型的模块化和类语法性质一致。我们利用这一观察构建了一个简单的“镜像测试”，并发现 gLM 经常无法通过该测试，这表明它们尚未学会基于 RNA 结构的、可泛化的生物物理规则。尽管如此，它们所表现出的表观热力学信号，可能会混淆我们将 gLM 的成对依赖关系解释为进化保守性证据的判断。因此，我们提出了一种以合成序列作为对照的方法，用于检测显著的习得信号。我们的结果表明，gLM 可以通过学习到的序列上下文来模拟热力学，而非依赖一般性的物理原理；不过，仍然存在将语言模型中的这些模式加以区分的方法。

仅在大规模核酸序列数据上训练的基因组语言模型（genomic language models, gLMs）似乎能够捕捉RNA结构信号，然而其具体机制仍不清楚。利用类别雅可比（categorical Jacobian, CJ）操作——一种与模型无关、用于查询成对依赖关系的操作——我们系统比较了三个旗舰级gLM：RNA-FM、Evo 2和gLM2。我们发现，CJ信号能够恢复得到进化协变分析所支持的碱基对，这与蛋白质语言模型中的发现一致。令人惊讶的是，CJ还能够恢复缺乏进化支持、但可由生物物理最近邻模型预测的碱基对。gLM是否有可能已经“学会”了RNA热力学？

我们注意到，当输入反向序列时，最近邻RNA折叠模型常常会预测出镜像结构，这与此类模型的模块化和类语法特性一致。基于这一观察，我们构建了一个简单的“镜像测试”，并发现gLM通常无法通过该测试，这表明它们并未学会基于生物物理学的一般化RNA结构规则。尽管如此，它们所表现出的表观热力学信号，可能会混淆将gLM成对依赖关系解释为进化保守性证据的过程。因此，我们提出了一种以合成序列作为对照、用于检测显著已学习信号的方法。我们的结果表明，gLM能够通过已学习的序列上下文来模拟热力学，而非依赖一般性的物理原理；但同时，也存在可用于解耦语言模型中各类模式的解决方案。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.05.28.728275v1?rss=1

🏷️ 基因组语言模型 RNA结构进化共变 RNA热力学碱基配对分类雅可比

来源出处

在基因组语言模型中解耦 RNA 演化与热力学 https://www.biorxiv.org/content/10.64898/2026.05.28.728275v1?rss=1