- 3 次围观
研究动机:临床遗传学中的下一代测序研究常常受限于人类基因型数据的稀缺,而这种稀缺性源于伦理、监管和经济方面的障碍。这一数据缺口在近亲婚配人群中尤为突出;此类人群在南亚和中东较为常见,而基于家系的研究设计需要规模较大的系谱,但这些系谱很少被完整测序。现有模拟器尚未能在单一工具中同时结合家系感知的遗传传递、真实的人群分层以及临床导出格式。 研究结果:我们提出了 GenoSim,这是一个用于二倍体 SNP 基因型前向时间模拟的 R 软件包。它有两种运行模式:其一为群体模式,实现了考虑近交校正的 Hardy-Weinberg 抽样、Wright-Fisher 漂变、定向选择、重复突变以及跨多代的 Haldane 重组;其二为家系约束模式,可导入真实家系 VCF 文件和系谱,在系谱使单倍型相位可识别的情况下重建相位,通过观测到的家系结构传播基因型,并附加合成世代。1.1.1 版本新增了基于 Balding-Nichols 模型的人群分层功能,其参数由 gnomAD v3.1 中八个祖源群体(AFR、AMR、EAS、EUR、FIN、MID、SAS、ASJ)的固定指数(F_ST)设定;同时支持从外部参考面板加载经验等位基因频率,以及混合祖源队列模拟。其分析功能涵盖 Hardy-Weinberg 检验、连锁不平衡、纯合区段、主成分分析、以奠基者为参照及代际间的 F 统计量,以及 Nei 基因多样性。 可获取性与实现:GenoSim 可作为 R 软件包在 https://github.com/malikbak/GenoSim 获取,采用 MIT 许可协议。它要求 R [≥] 4.0.0,且仅依赖基础 R 软件包(stats、utils、graphics、grDevices、tools)。
研究动机:临床遗传学中的下一代测序研究常常受限于人类基因型数据的稀缺性,而这种稀缺性源于伦理、监管和经济方面的障碍。这一缺口在近亲婚配人群中尤为突出;此类人群在南亚和中东较为常见,而基于家系的研究设计需要规模较大的谱系,但这些谱系很少被完整测序。现有模拟器尚未能够在单一工具中同时结合谱系感知的遗传传递、真实的人群分层以及临床导出格式。
研究结果:我们提出 GenoSim,这是一个用于二倍体 SNP 基因型前向时间模拟的 R 软件包。它有两种运行模式:其一为人群模式,实现了经近交校正的 Hardy-Weinberg 抽样、Wright-Fisher 漂变、定向选择、重复突变以及跨多代的 Haldane 重组;其二为谱系约束模式,可导入真实家系 VCF 和家系信息,在谱系能够识别的情况下重建单倍型相位,沿观测到的家系结构传播基因型,并附加合成世代。1.1.1 版本新增了通过 Balding-Nichols 模型实现的人群分层,该模型由 gnomAD v3.1 中八个祖源群体(AFR、AMR、EAS、EUR、FIN、MID、SAS、ASJ)的固定指数(F_ST)参数化;同时支持从外部参考面板加载经验等位基因频率,以及混合祖源队列模拟。分析功能涵盖 Hardy-Weinberg 检验、连锁不平衡、纯合区段、主成分分析、以始祖为参照及代际间的 F 统计量,以及 Nei 基因多样性。
可获取性与实现:GenoSim 以 R 软件包形式发布于 https://github.com/malikbak/GenoSim,采用 MIT 许可证。其要求 R 版本 [≥] 4.0.0,且仅依赖基础 R 软件包(stats、utils、graphics、grDevices、tools)。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.20.733503v1?rss=1
🏷️ 基因型模拟 群体分层 群体遗传学 临床遗传学 前向时间模拟 家系分析