在基因组语言模型中解耦 RNA 演化与热力学

root 提交于 周日, 05/31/2026 - 06:47
仅基于大规模核酸序列数据训练的基因组语言模型(gLMs)似乎能够捕捉 RNA 结构信号,然而其具体机制仍不清楚。利用分类雅可比(categorical Jacobian, CJ)操作——一种与模型无关、用于探测成对依赖关系的操作——我们系统比较了三种代表性的 gLM:RNA-FM、Evo 2 和 gLM2。我们发现,CJ 信号能够恢复得到受进化共变分析支持的碱基配对,这与蛋白质语言模型中的发现一致。令人惊讶的是,CJ 还能够恢复那些缺乏进化支持、但可由生物物理最近邻模型预测的碱基配对。是否可能 gLM 已经“学习”了 RNA 热力学?我们注意到,当输入反向序列时,最近邻 RNA 折叠模型往往会预测出镜像反射的结构,这与这些模型的模块化和类语法性质一致。我们利用这一观察构建了一个简单的“镜像测试”,并发现 gLM 经常无法通过该测试,这表明它们尚未学会基于 RNA 结构的、可泛化的生物物理规则。尽管如此,它们所表现出的表观热力学信号,可能会混淆我们将 gLM 的成对依赖关系解释为进化保守性证据的判断。因此,我们提出了一种以合成序列作为对照的方法,用于检测显著的习得信号。我们的结果表明,gLM 可以通过学习到的序列上下文来模拟热力学,而非依赖一般性的物理原理;不过,仍然存在将语言模型中的这些模式加以区分的方法。

仅在大规模核酸序列数据上训练的基因组语言模型(genomic language models, gLMs)似乎能够捕捉RNA结构信号,然而其具体机制仍不清楚。利用类别雅可比(categorical Jacobian, CJ)操作——一种与模型无关、用于查询成对依赖关系的操作——我们系统比较了三个旗舰级gLM:RNA-FM、Evo 2和gLM2。我们发现,CJ信号能够恢复得到进化协变分析所支持的碱基对,这与蛋白质语言模型中的发现一致。令人惊讶的是,CJ还能够恢复缺乏进化支持、但可由生物物理最近邻模型预测的碱基对。gLM是否有可能已经“学会”了RNA热力学?

我们注意到,当输入反向序列时,最近邻RNA折叠模型常常会预测出镜像结构,这与此类模型的模块化和类语法特性一致。基于这一观察,我们构建了一个简单的“镜像测试”,并发现gLM通常无法通过该测试,这表明它们并未学会基于生物物理学的一般化RNA结构规则。尽管如此,它们所表现出的表观热力学信号,可能会混淆将gLM成对依赖关系解释为进化保守性证据的过程。因此,我们提出了一种以合成序列作为对照、用于检测显著已学习信号的方法。我们的结果表明,gLM能够通过已学习的序列上下文来模拟热力学,而非依赖一般性的物理原理;但同时,也存在可用于解耦语言模型中各类模式的解决方案。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.28.728275v1?rss=1

🏷️ 基因组语言模型 RNA结构 进化共变 RNA热力学 碱基配对 分类雅可比