- 2 次围观
Enformer 是一种深度学习模型,基于人类和小鼠基因组训练,用于从 196,608 bp 的 DNA 窗口预测调控活性。其主干嵌入能够捕捉长程顺式调控相互作用,但这一信号是否能够在整个生命之树范围内泛化,尚未得到评估。我们在三个分类尺度上对来自 OrthoDB v12 的通用单拷贝直系同源群(OGs)进行嵌入,并使用 Mantel r 和归一化 Robinson-Foulds(NRF)指标,将重建树与 TimeTree5 进行比较评估。在 34 个灵长类物种([≤]74 Mya)的 702 个 OG 上,共识树达到 Mantel r=0.902 和 NRF=0.481,正确恢复了主要演化支系。一个关键发现是,携带系统发育信号的是侧翼调控背景,而非基因位点本身:将池化限制在中央 448 个 bin 会使 Mantel r 降至 0.355。将相同的固定配置应用于脊椎动物([≤]450 Mya,83 个 OG,150 个物种)和植物([≤]1,500 Mya,92 个 OG,40 个物种)后,所得共识 Mantel r 分别为 0.752 和 0.803,而 NRF 则随层级递增而单调恶化。距离排序保真度随着进化距离平滑下降,而拓扑准确性则持续稳步下降,未出现明显的分类学边界。这些结果表明,一个未经修改的调控深度学习模型在远超其训练分布的范围内编码了稳健的系统发育信号,其适用范围可跨越长达 15 亿年的分化历史。
Enformer 是一种在人体和小鼠基因组上训练的深度学习模型,用于从 196,608 bp 的 DNA 窗口预测调控活性。其主干嵌入能够捕捉长程顺式调控相互作用,但这一信号是否能够在整个生命树范围内泛化尚未得到评估。我们在三个分类学尺度上对来自 OrthoDB v12 的通用单拷贝直系同源群(OGs)进行嵌入,并使用 Mantel r 和标准化 Robinson-Foulds(NRF)指标,将重建树与 TimeTree5 进行比较评估。在 34 个灵长类物种([≤]74 Mya)的 702 个 OG 上,共识树达到 Mantel r=0.902 和 NRF=0.481,并正确恢复了主要谱系。一个关键发现是,携带系统发育信号的是侧翼调控背景,而非基因位点本身:当池化限制于中心 448 个 bin 时,Mantel r 降至 0.355。将相同的固定配置应用于脊椎动物([≤]450 Mya,83 个 OG,150 个物种)和植物([≤]1,500 Mya,92 个 OG,40 个物种)后,所得共识 Mantel r 分别为 0.752 和 0.803,而 NRF 则随层级递增而单调恶化。距离排序保真度随着进化距离增加而平滑下降,而拓扑准确性则持续稳步降低,且不存在明显的分类学边界。这些结果表明,一个未经修改的调控深度学习模型能够编码远超其训练分布范围的稳健系统发育信号,其适用范围可跨越 15 亿年的分化历史。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730316v1?rss=1
🏷️ 系统发育树重建 Enformer 深度学习 基因组调控 直系同源基因 跨物种进化分析
来源出处
基于Enformer的系统发育树重建
https://www.biorxiv.org/content/10.64898/2026.06.05.730316v1?rss=1