- 3 次围观
摘要 背景 将远端调控元件与其靶基因关联起来,是解释染色质可及性及其他非编码基因组数据的核心问题。基于邻近性的映射方法虽然方便,但忽略了增强子—启动子三维结构,可能会错误归因长程调控效应。基于相关性的方法也可能由于统计效能有限以及距离或显著性阈值设置过于严格而遗漏调控联系。单细胞和单核多组学数据集,例如在同一细胞或细胞核中联合测量染色质可及性和基因表达的 10x Multiome 数据,如今为评估基因—峰链接策略提供了途径,即通过检验被链接的可及性特征对基因表达的预测能力来进行评估。现有方法通常侧重于对单个增强子—基因配对进行评分。在本研究中,我们提出并构建了一种快速的、基于注释的候选基因—峰网络,并检验其是否能够改进下游的基因表达预测。 方法 我们首先通过整合基于增强子、基于启动子和基于邻近性的链接策略,构建了一个统一的基因—峰调控网络。随后,我们利用肾脏精准医学项目(Kidney Precision Medicine Project,KPMP)10x Multiome 队列的单细胞多组学数据,评估所提出链接是否捕获了调控信号。我们在细胞类型簇水平上聚合 RNA 表达和 ATAC 可及性,并训练预测模型,以评估不同链接策略基于可及性解释基因表达的能力。我们在一个严格基因集合(1,704 个基因)和一个要求更宽松的自适应基因集合(7,973 个基因)中,使用测试集 R 平方和均方误差(MSE)比较基于注释的基因—峰链接(包括基于增强子和基于启动子的链接)与基于邻近性的基因—峰链接的模型表现。 结果 在严格设定下(1,704 个基因,要求按最近 TSS 规则至少分配 20 个峰,且至少有 10 个基于注释的增强子峰),基于注释的模型始终比基于邻近性的模型取得更高的测试集 R 平方和更低的测试集 MSE。在更大的自适应设定下(7,973 个基因,要求至少有 5 个基于邻近性的峰和至少 2 个基于增强子的峰),我们根据每个基因可用的最近链接和增强子链接,为其定义了一个平衡的候选峰选择数量;在该设定下,基于注释的模型同样表现出整体更高的测试集 R 平方和更低的测试集 MSE。这些改进在广泛范围的候选链接峰数量下均可观察到。 结论 利用人肾脏 10x Multiome 数据,我们表明,与传统方法相比,一种快速的、基于注释的基因—峰链接框架能够提高基于染色质可及性对基因表达的预测能力。这些结果支持在构建候选基因调控网络时使用具有生物学信息支持的增强子和启动子注释。我们的框架还显示出与基于相关性的 Signac LinkPeaks 方法具有一致性,同时提供了更广的覆盖范围和更高的计算效率。我们已在 `GPlinksR` R 包中实现了这些基于注释的链接方法,为构建调控网络提供了一个快速且可扩展的工具。
本网站正在使用一项安全服务来保护自身免受在线攻击。您刚才执行的操作触发了该安全防护机制。可能导致此次拦截的行为有多种,包括提交某些特定的词语或短语、SQL 命令,或格式错误的数据。
您可以发送电子邮件给网站所有者,告知其您已被拦截。请在邮件中说明当该页面出现时您正在进行的操作,并附上位于本页面底部的 Cloudflare Ray ID。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.12.731741v1?rss=1
🏷️ 基因-峰链接 单细胞多组学 染色质可及性 基因表达预测 肾脏调控网络
来源出处
基于注释的基因-峰链接提高了人类肾脏多组学中基因表达调控网络的预测能力
https://www.biorxiv.org/content/10.64898/2026.06.12.731741v1?rss=1