微型子样本与上采样驯服了系统基因组学中大数据的进化分析

root 提交于 周三, 06/24/2026 - 06:47
长运行时间、高内存需求以及对高性能计算的依赖,正日益限制对长系统发育基因组数据集的进化分析。我们综述了一种基于系统发育基因组学下采样与上采样(phylogenomic subsampling and upsampling, PSU)的可扩展框架:在该框架中,从长的拼接序列比对中抽取许多较小的位点子样本,并在推断之前通过上采样对其进行扩展,随后对所得分析结果加以汇总,以获得稳定的进化估计。PSU 利用了分子系统发育统计方法中一个有用的区分:计算负担主要受拼接比对中不同位点模式数量的强烈影响,而统计效能则主要取决于位点和替换所承载的进化信息量。通过减少前者,并借助上采样恢复后者,PSU 能够以显著更低的计算成本近似许多全数据分析。来自模拟和经验数据集的证据表明,PSU 能够准确估计自助法支持值,选择最优替换模型,检验进化假设,并推断分支长度、分化时间及其相关不确定性度量,同时常常将运行时间和内存需求降低若干个数量级。相同的“下采样—上采样—汇总”原理构成了所有这些应用的基础。PSU 还可提供独立子样本间推断得到的支系支持度分布,从而能够检测在传统拼接系统发育基因组分析中可能仍被掩盖的一致性与冲突性系统发育信号。针对子样本大小、子样本数量以及上采样重复次数的自适应选择程序,使该框架能够在多样化数据集上切实可行。我们认为,PSU 是一种适用于广泛统计方法的、可扩展系统发育基因组推断的通用策略。通过使基于标准计算硬件对基因组尺度比对开展严格分析成为可能,PSU 在降低大数据系统发育基因组学环境与基础设施成本的同时,也扩大了对计算密集型进化方法的可及性。

该网站正在使用一项安全服务来保护自身免受在线攻击。您刚才执行的操作触发了该安全解决方案。可能触发此拦截的行为有多种,包括提交某个特定的单词或短语、SQL 命令或格式错误的数据。

您可以向网站所有者发送电子邮件,告知您被拦截的情况。请在邮件中说明当该页面出现时您正在进行的操作,并附上该页面底部显示的 Cloudflare Ray ID。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.21.733599v1?rss=1

🏷️ 系统发育基因组学 下采样与上采样 进化推断 替换模型选择 分化时间估计