基于PCA-XGBoost方法的洲际人群生物地理祖源推断模型研究

root 提交于 周三, 12/25/2024 - 19:38
目的 通过DNA推断个体的生物地理祖源(biogeographical ancestry,BGA)在人类学、法医学等领域广受关注。目前常用方法是使用几十个祖先信息单核苷酸多态性(single nucleotide polymorphism,SNP)位点,通过主成分分析(principal component analysis,PCA)、似然比(likelihood ratio,LR)等方法判断个体的祖源。伴随高通量测序技术的发展,批量获取人群样本的高密度SNP数据集变得容易,同时计算机领域中机器学习等技术的引入,使得BGA研究发展出新的变化。本研究旨在构建适应高密度SNP数据,且具有高准确率和良好泛化能力的BGA推断模型。方法 首先基于307 866个SNP的数据,使用机器学习领域中的监督学习模型XGBoost,构建了基于多维度主成分(principal component,PC)的PCA-XGBoost推断模型,其次基于LR对推断结果进行评估和优化模型,确定了最佳PC数目和模型训练轮数,最后在其他公共数据的测试集上进一步验证模型的表现。结果 基于LR的结果评估方法,模型在参考集中人群预测准确率可以达到95%以上,在测试集中准确率可以达到90%以上,结论 PCA-XGBoost模型具有较高的洲际人群预测准确性,基于LR的结果评估方法有助于对预测结果的可靠性进行进一步评估。该模型具有很好的泛化能力,更换参考集的人群数据后,有望实现更加精细的人群分析。

相关内容

发布日期 06/05/2024 - 17:45
发布日期 06/17/2022 - 10:21
发布日期 07/14/2024 - 17:58
发布日期 06/17/2022 - 10:21
发布日期 06/14/2024 - 17:47
发布日期 06/17/2022 - 10:21
发布日期 08/04/2020 - 01:35