- 1次围观
目的 通过DNA推断个体的生物地理祖源(biogeographical ancestry,BGA)在人类学、法医学等领域广受关注。目前常用方法是使用几十个祖先信息单核苷酸多态性(single nucleotide polymorphism,SNP)位点,通过主成分分析(principal component analysis,PCA)、似然比(likelihood ratio,LR)等方法判断个体的祖源。伴随高通量测序技术的发展,批量获取人群样本的高密度SNP数据集变得容易,同时计算机领域中机器学习等技术的引入,使得BGA研究发展出新的变化。本研究旨在构建适应高密度SNP数据,且具有高准确率和良好泛化能力的BGA推断模型。方法 首先基于307 866个SNP的数据,使用机器学习领域中的监督学习模型XGBoost,构建了基于多维度主成分(principal component,PC)的PCA-XGBoost推断模型,其次基于LR对推断结果进行评估和优化模型,确定了最佳PC数目和模型训练轮数,最后在其他公共数据的测试集上进一步验证模型的表现。结果 基于LR的结果评估方法,模型在参考集中人群预测准确率可以达到95%以上,在测试集中准确率可以达到90%以上,结论 PCA-XGBoost模型具有较高的洲际人群预测准确性,基于LR的结果评估方法有助于对预测结果的可靠性进行进一步评估。该模型具有很好的泛化能力,更换参考集的人群数据后,有望实现更加精细的人群分析。
来源出处
基于PCA-XGBoost方法的洲际人群生物地理祖源推断模型研究
https://www.pibb.ac.cn/pibbcn/article/abstract/20230453
相关内容
发布日期
01/22/2024 - 00:46
发布日期
11/17/2024 - 19:48
发布日期
08/04/2020 - 01:35
发布日期
09/02/2024 - 19:26
发布日期
08/04/2020 - 01:35
发布日期
11/13/2024 - 19:47
发布日期
06/17/2022 - 10:21
发布日期
10/31/2021 - 01:47
发布日期
01/10/2022 - 19:31
发布日期
10/13/2024 - 19:35
发布日期
05/06/2024 - 09:39
发布日期
08/04/2020 - 01:35
发布日期
10/09/2024 - 19:31
发布日期
11/22/2023 - 00:25
发布日期
06/23/2024 - 17:52
发布日期
07/27/2023 - 21:49
发布日期
10/31/2021 - 01:48
发布日期
02/17/2024 - 13:54
发布日期
10/31/2021 - 01:12
发布日期
06/17/2022 - 10:21