使用蛋白质语言模型进行泛基因组构建|||北京沫之东生物技术有限公司

2 次围观

当前的泛基因组构建方法在很大程度上依赖于核苷酸或蛋白质序列比对，这限制了其检测远缘直系同源基因及语义关系的能力。我们提出了一种新方法，利用蛋白质语言模型嵌入来捕捉超越序列相似性的功能和语义关系。我们的方法采用近似最近邻搜索，并结合使用 HDBSCAN、DBSCAN 或带有多个相似性阈值的加权单链接聚类步骤。该方法利用 GPU 加速、动态批处理和 ONNX 优化，使其能够随蛋白质数量近似线性扩展，从而支持对包含数百万蛋白质的数据集进行分析。我们在 OrthoDB 的随机抽样子集和 CAFA5 数据集上评估了该方法，并将其与 SCARAP 进行基准比较。SCARAP 是一种近期发表的工具，其性能与多种其他常见的泛基因组计算工具相近。我们的基准测试表明，在这两个数据集上，我们的方法生成的聚类比 SCARAP 更具特异性。SCARAP 在 OrthoDB 数据集上的簇内术语一致性方面表现更优，而该数据集中的标签是通过序列比对（使用 MMseqs2）推断得到的。当转向经实验验证的 CAFA5 数据集时，两种方法的术语一致性都显著下降，最终两种方法获得了相近的术语一致性得分。关键的是，我们的方法在两个数据集上都产生了更优的聚类质量，并且在实验性 CAFA5 数据集的所有功能一致性和连贯性指标上都显著优于 SCARAP。最后，我们通过表征 1,034 个链霉菌属基因组的泛基因组，展示了该方法的可扩展性和实用性。该流程可在我们的 GitHub 上获取并使用：https://github.com/jakob949/pan_genome

当前的泛基因组构建方法主要依赖于核苷酸或蛋白质序列比对，这限制了其检测远缘直系同源基因和语义关系的能力。我们提出了一种新方法，利用蛋白质语言模型嵌入来捕捉超越序列相似性的功能与语义关系。我们的方法采用近似最近邻搜索，并结合使用 HDBSCAN、DBSCAN 或带有多个相似性阈值的加权单链接聚类的聚类步骤。该方法利用 GPU 加速、动态批处理和 ONNX 优化，实现了相对于蛋白质数量近似线性的扩展能力，从而能够分析包含数百万蛋白质的数据集。

我们在 OrthoDB 的随机采样子集和 CAFA5 数据集上评估了该方法，并将其与 SCARAP 进行了基准比较。SCARAP 是近期发表的一种工具，其性能与多种其他常用泛基因组计算工具相近。我们的基准测试表明，在这两个数据集上，我们的方法比 SCARAP 产生了更具体的聚类结果。在 OrthoDB 数据集中，SCARAP 在簇内术语一致性方面表现更优，其中标签是通过序列比对（使用 MMseqs2）推断得到的。当转向经实验验证的 CAFA5 数据集时，这两种方法在术语一致性方面都出现了显著下降，最终使两种方法获得了相似的术语一致性得分。关键的是，我们的方法在这两个数据集上都产生了更高质量的聚类，并且在实验性 CAFA5 数据集上，在功能一致性和连贯性的所有指标上均显著优于 SCARAP。

最后，我们通过对 1,034 个链霉菌属（Streptomyces）基因组的泛基因组进行表征，展示了该方法的可扩展性和实用性。该流程可在我们的 GitHub 上获取并使用：https://github.com/jakob949/pan_genome

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.04.730042v1?rss=1

🏷️ 蛋白质语言模型泛基因组构建蛋白质嵌入聚类分析近似最近邻搜索 GPU加速

来源出处

使用蛋白质语言模型进行泛基因组构建 https://www.biorxiv.org/content/10.64898/2026.06.04.730042v1?rss=1