表观遗传条件化提升了跨细胞类型和等位基因的基于序列的基因调控建模能力

root 提交于 周一, 06/08/2026 - 20:47
表观遗传状态以一种并不总能仅由 DNA 序列预测的方式调节基因调控,然而当前的基因组深度学习模型并未将表观遗传状态作为输入加以利用。我们提出 MethylSeqNet,这是一种利用 CpG 甲基化对预训练序列嵌入进行条件化的模型;CpG 甲基化是一种稳定的表观遗传标记,并且正越来越多地可由长读长测序数据获得。借助一种兼具可扩展性与可解释性的全新条件化机制,MethylSeqNet 在差异性表观遗传状态驱动调控变异的情形下提升了预测性能。我们表明,与仅使用序列的基线模型相比,该模型在细胞类型特异性的染色质可及性和转录预测方面均有改进。表观遗传条件化使得模型能够预测等位基因序列中未编码的现象,包括亲本来源印记、随机单等位基因活性以及 X 染色体失活。我们通过一个罕见病患者病例研究,预测某一结构重排的效应,展示了甲基化条件化的一个有前景的应用。计算机模拟的基序插入分析进一步证实,MethylSeqNet 学习到了依赖甲基化的调控语法,从而确立了一种将表观遗传信息整合进基因组深度学习的新范式,并可立即应用于罕见病解释。

表观遗传状态以一种并非总能仅由 DNA 序列预测的方式调节基因调控,然而当前的基因组深度学习模型并未将表观遗传状态作为输入加以利用。我们提出了 MethylSeqNet,这是一种将预训练序列嵌入与 CpG 甲基化状态相结合的模型;CpG 甲基化是一种稳定的表观遗传标记,并且随着长读长测序数据的日益丰富而越来越容易获得。借助一种兼具可扩展性与可解释性的全新条件化机制,MethylSeqNet 在差异性表观遗传状态驱动调控变异的情形下提升了预测性能。我们表明,相较于仅基于序列的基线模型,该模型在细胞类型特异性的染色质可及性和转录预测方面均有所改进。表观遗传条件化使得模型能够预测等位基因序列中未编码的现象,包括亲本来源印记、随机单等位基因活性以及 X 染色体失活。我们通过一个罕见病患者病例研究,展示了甲基化条件化的一个有前景的应用,即预测结构重排的效应。计算机模拟的基序插入分析进一步证实,MethylSeqNet 学习到了依赖甲基化的调控语法,从而为将表观遗传信息整合到基因组深度学习中建立了一种范式,并可立即应用于罕见病解读。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.02.729723v1?rss=1

🏷️ 表观遗传调控 DNA甲基化 基因调控建模 深度学习 染色质可及性 罕见病解释