CN-RNN:一种利用外显子组测序数据进行拷贝数变异检测的深度学习框架

root 提交于 周六, 05/30/2026 - 02:47

拷贝数变异(copy number variations,CNVs)是重要的基因组结构变异,参与多种人类疾病的发生。基于全外显子组测序(whole-exome sequencing,WES)数据准确检测CNV,一直是临床研究和群体遗传学研究长期追求的目标。尽管近年来取得了一定进展,现有基于WES的CNV检测方法仍然存在较高的假阳性率,并且对短长度变异的召回率较低;同时,当前的深度学习方法尚未充分利用区域水平基因组特征中的互补信息。本文提出了用于WES数据的基于深度学习的CNV检测方法CN-RNN。该模型结合了双向长短期记忆网络(BiLSTM)分支和并行的多层感知机(MLP)分支:前者用于捕获局部测序深度变化以及相邻外显子之间的上下文依赖关系,后者用于编码区域水平的元数据,如GC含量、可比对性和外显子长度。CN-RNN在自闭症测序联盟(Autism Sequencing Consortium,ASC)的亲子三联体队列上进行训练,并利用孟德尔遗传规则构建高质量训练集。该方法在三个独立数据集上进行了评估,结果表明,CN-RNN优于现有基于WES的CNV检测方法及其他深度学习方法。CN-RNN为基于WES研究中的CNV分析提供了一种可扩展且准确的工具,并支持CNV分析在群体研究和临床研究中的更广泛应用。CN-RNN可从https://github.com/FeifeiXiao-lab/CN-RNN获取


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.13.724920v1?rss=1

🏷️ 拷贝数变异 全外显子组测序 深度学习 BiLSTM 基因组变异检测