- 1次围观
在DNA和RNA序列中进行基序发现与结合位点预测是调控基因组学中的核心任务,然而现有方法学格局分裂于两类方法之间:一类是可解释但较为僵化的位置权重矩阵(PWM),另一类是性能优异但不透明的机器学习模型。我们提出KDM,这是一个统一框架,在该框架中,基序和序列都被表示为共享k-mer字典上的概率分布,并通过Hellinger变换进行嵌入。这种共同的几何结构使得仅通过一个基本量——Bhattacharyya系数——即可实现基序-序列打分、基序-基序比较、从头发现以及结合预测。基于这一表示,我们构建了四种工具:用于位置富集分析的KDMMap、用于考虑信息含量的基序匹配的KDMMatch、通过投影非负矩阵分解进行无监督基序发现的KDMFind,以及采用Lasso正则化逻辑回归进行结合预测的KDM-LRLM。在覆盖1,324个转录因子ChIP-seq实验和161个RBP eCLIP实验的评估中,KDMMap在84%的转录因子实验和79%的RBP实验中与CentriMo的基序排序结果一致,而KDMMatch在74.5%的转录因子中与Tomtom的基序注释结果一致。在涵盖2,475个实验的四个数据集上的结合预测任务中,KDM-LRLM与八种深度学习方法和三种基于k-mer的方法相比,表现持平或更优。值得注意的是,只有在训练集规模位于最高四分位数时,人工智能方法才超过基于k-mer的方法,这表明推动近年来深度模型占据主导地位的关键因素是数据规模,而非模型架构。KDM在整个基序分析流程中提供了一种统一且可解释的表示。
DNA 和 RNA 序列中的基序发现与结合位点预测是调控基因组学中的核心任务,然而现有方法学格局分裂于两类方法之间:一类是具有可解释性但较为僵化的位置权重矩阵(PWM),另一类是性能优异但缺乏透明性的机器学习模型。我们提出了 KDM,这是一种统一框架,其中基序和序列均被表示为共享 k-mer 词典上的概率分布,并通过 Hellinger 变换嵌入到同一空间中。这种共同几何结构使得基于单一基本原语——Bhattacharyya 系数——即可实现基序-序列评分、基序-基序比较、从头发现以及结合预测。我们基于该表示实例化了四种工具:用于位置富集分析的 KDMMap、用于考虑信息含量的基序匹配的 KDMMatch、通过投影非负矩阵分解进行无监督基序发现的 KDMFind,以及使用 Lasso 正则化逻辑回归进行结合预测的 KDM-LRLM。在 1,324 个转录因子 ChIP-seq 实验和 161 个 RNA 结合蛋白 eCLIP 实验中,KDMMap 在 84% 的转录因子实验和 79% 的 RNA 结合蛋白实验中与 CentriMo 的基序排序结果一致,而 KDMMatch 在 74.5% 的转录因子基序注释中与 Tomtom 保持一致。在涵盖 2,475 个实验的四个数据集上的结合预测任务中,KDM-LRLM 与八种深度学习方法和三种基于 k-mer 的竞争方法相比,表现持平或更优。值得注意的是,人工智能方法仅在训练集规模处于最高四分位数时才超过基于 k-mer 的方法,这表明近期深度模型占据主导地位的驱动因素是数据规模而非模型架构。KDM 在整个基序分析工作流程中提供了单一且可解释的表示。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730329v1?rss=1
🏷️ DNA/RNA基序 k-mer表示 结合位点预测 基序发现 ChIP-seq/eCLIP 可解释机器学习