一种用于犬种推断与祖源分解的可解释机器学习框架|||北京沫之东生物技术有限公司

2 次围观

目前已被识别的300多个家养犬品种，是数百年来强烈人工选择和反复种群瓶颈共同作用的结果。尽管品种标签在遗传学和兽医学研究中被广泛使用，但由于基因型数据具有高维特性、不同品种间采样不均衡，以及杂交导致混种个体的存在，基于基因组数据推断犬只品种身份仍然具有挑战性。在此，我们提出了一种可解释的机器学习框架，用于根据全基因组SNP数据推断犬品种标签。我们的方法将降维与多输出随机森林模型相结合，把遗传变异映射为品种归属的连续表征，从而同时支持分类和混种推断。我们将该框架应用于Dog Aging Project（DAP）数据集，该数据集包含6,572只纯种犬和混种犬，覆盖100个品种类别。采用基于重叠的评价指标时，该方法实现了91.7%的准确率，优于基于ADMIXTURE的基准方法（其准确率为87.8%）。值得注意的是，我们发现仅需150个信息量丰富的SNP即可达到接近最大化的预测性能，这凸显了犬类遗传变异高度结构化的特征。我们还引入了一种SNP重要性评分指标，将模型预测结果回溯到单个遗传变异位点。对排名靠前变异的分析揭示了先前已与形态、色素沉着和行为性状相关的基因座，以及缺乏既有表型注释的候选基因座，从而支持了该框架在生物学上的相关性及其发现潜力。总体而言，这些结果表明，我们的框架为预测品种祖源提供了一种准确、灵活且可解释的方法，并可应用于兽医基因组学、犬类群体遗传学，以及与典型品种表型相关位点的鉴定。

目前已被认可的300多个家犬品种，是数百年来高强度人工选择和反复种群瓶颈共同作用的结果。尽管品种标签在遗传学和兽医学研究中被广泛使用，但由于基因型数据具有高维性、不同品种间采样不均衡，以及杂交导致混种个体的存在，基于基因组数据推断品种身份仍然具有挑战性。本文提出了一种可解释的机器学习框架，用于根据全基因组SNP数据推断犬的品种标签。我们的方法将降维与多输出随机森林模型相结合，将遗传变异映射到品种归属的连续表征上，从而同时支持分类和混种推断。

我们将该框架应用于狗衰老计划（Dog Aging Project, DAP）数据集。该数据集包含6,572只纯种犬和混种犬，覆盖100个品种类别。采用基于重叠的评价指标时，该方法达到91.7%的准确率，优于基于ADMIXTURE的基准方法，后者的准确率为87.8%。值得注意的是，我们发现仅需150个信息性SNP即可实现接近最大值的预测性能，这凸显了犬类遗传变异高度结构化的特征。

我们还引入了一种SNP重要性评分指标，将模型预测结果追溯到单个遗传变异位点。对排名靠前变异的分析揭示了此前已与形态、色素沉着和行为性状相关的基因座，以及缺乏既往表型注释的候选基因座，这同时支持了该框架的生物学相关性和发现潜力。总体而言，这些结果表明，我们的框架为预测品种祖源提供了一种准确、灵活且可解释的方法，并可应用于兽医基因组学、犬类群体遗传学以及决定典型品种表型之遗传位点的鉴定。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.03.729926v1?rss=1

🏷️ 犬类基因组学品种推断祖源分解全基因组SNP 可解释机器学习群体遗传学

来源出处

一种用于犬种推断与祖源分解的可解释机器学习框架 https://www.biorxiv.org/content/10.64898/2026.06.03.729926v1?rss=1