一种用于犬种推断与祖源分解的可解释机器学习框架

root 提交于 周五, 06/05/2026 - 00:47
目前已被识别的300多个家养犬品种,是数百年来强烈人工选择和反复种群瓶颈共同作用的结果。尽管品种标签在遗传学和兽医学研究中被广泛使用,但由于基因型数据具有高维特性、不同品种间采样不均衡,以及杂交导致混种个体的存在,基于基因组数据推断犬只品种身份仍然具有挑战性。在此,我们提出了一种可解释的机器学习框架,用于根据全基因组SNP数据推断犬品种标签。我们的方法将降维与多输出随机森林模型相结合,把遗传变异映射为品种归属的连续表征,从而同时支持分类和混种推断。 我们将该框架应用于Dog Aging Project(DAP)数据集,该数据集包含6,572只纯种犬和混种犬,覆盖100个品种类别。采用基于重叠的评价指标时,该方法实现了91.7%的准确率,优于基于ADMIXTURE的基准方法(其准确率为87.8%)。值得注意的是,我们发现仅需150个信息量丰富的SNP即可达到接近最大化的预测性能,这凸显了犬类遗传变异高度结构化的特征。我们还引入了一种SNP重要性评分指标,将模型预测结果回溯到单个遗传变异位点。对排名靠前变异的分析揭示了先前已与形态、色素沉着和行为性状相关的基因座,以及缺乏既有表型注释的候选基因座,从而支持了该框架在生物学上的相关性及其发现潜力。总体而言,这些结果表明,我们的框架为预测品种祖源提供了一种准确、灵活且可解释的方法,并可应用于兽医基因组学、犬类群体遗传学,以及与典型品种表型相关位点的鉴定。

目前已被认可的300多个家犬品种,是数百年来高强度人工选择和反复种群瓶颈共同作用的结果。尽管品种标签在遗传学和兽医学研究中被广泛使用,但由于基因型数据具有高维性、不同品种间采样不均衡,以及杂交导致混种个体的存在,基于基因组数据推断品种身份仍然具有挑战性。本文提出了一种可解释的机器学习框架,用于根据全基因组SNP数据推断犬的品种标签。我们的方法将降维与多输出随机森林模型相结合,将遗传变异映射到品种归属的连续表征上,从而同时支持分类和混种推断。

我们将该框架应用于狗衰老计划(Dog Aging Project, DAP)数据集。该数据集包含6,572只纯种犬和混种犬,覆盖100个品种类别。采用基于重叠的评价指标时,该方法达到91.7%的准确率,优于基于ADMIXTURE的基准方法,后者的准确率为87.8%。值得注意的是,我们发现仅需150个信息性SNP即可实现接近最大值的预测性能,这凸显了犬类遗传变异高度结构化的特征。

我们还引入了一种SNP重要性评分指标,将模型预测结果追溯到单个遗传变异位点。对排名靠前变异的分析揭示了此前已与形态、色素沉着和行为性状相关的基因座,以及缺乏既往表型注释的候选基因座,这同时支持了该框架的生物学相关性和发现潜力。总体而言,这些结果表明,我们的框架为预测品种祖源提供了一种准确、灵活且可解释的方法,并可应用于兽医基因组学、犬类群体遗传学以及决定典型品种表型之遗传位点的鉴定。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.03.729926v1?rss=1

🏷️ 犬类基因组学 品种推断 祖源分解 全基因组SNP 可解释机器学习 群体遗传学