TaxoFormer:用于预测蛋白质序列完整分类谱系的层次化Transformer

root 提交于 周三, 06/10/2026 - 02:47
在大规模、具有层级结构的输出空间中预测标签,是机器学习中的核心挑战之一。在本研究中,我们以根据蛋白质序列预测其完整分类谱系这一问题作为该挑战的案例研究。我们提出了 TaxoFormer,其架构的主要贡献在于一种结构化标记化方案,该方案能够以无损方式表示整个 NCBI 系统发育树——这一拥有超过 130 万个节点的图结构——且仅需由 15,000 个标记组成的紧凑词汇表。通过将预训练的 ESM-2 模型与自回归解码器相结合,并采用标准交叉熵目标进行训练,我们检验了这样一个假设:当输出空间被显式建模时,简单的生成式目标足以学习复杂的潜在结构。我们表明,这种方法非常有效:在一个包含 1.88 亿个蛋白质的数据集上,该模型不仅能够实现准确的谱系预测,还能够隐式学习到一个连续的、具有系统发育结构的潜在空间。本研究为分类注释提供了一种可扩展、无需比对的方法,并表明,显式建模复杂输出空间的结构是学习有意义表征的一种强有力机制。

在大规模、具有层级结构的输出空间中预测标签,是机器学习中的一项核心挑战。在本研究中,我们以根据蛋白质序列预测其完整分类谱系这一问题作为该挑战的案例研究。我们提出了 TaxoFormer,其核心贡献在于一种结构化的分词方案:该方案能够以无损方式表示整个 NCBI 系统发育树——一个包含超过 130 万个节点的图——同时仅使用由 15,000 个词元构成的紧凑词汇表。通过将预训练的 ESM-2 模型与自回归解码器相结合,并采用标准交叉熵目标进行训练,我们检验了这样一个假设:当输出空间被显式建模时,简单的生成式目标足以学习复杂的潜在结构。我们表明,这种方法具有很高的有效性:在一个包含 1.88 亿个蛋白质的数据集上,该模型不仅能够实现准确的谱系预测,还能够隐式学习一个连续的、具有系统发育结构的潜在空间。本研究为分类注释提供了一种可扩展的、无需比对的方法,并表明,显式建模复杂输出空间的结构,是学习具有实际意义表征的一种强有力机制。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.06.730618v1?rss=1

🏷️ 蛋白质序列分类 层次化Transformer 系统发育树 分类谱系预测 ESM-2 生成式建模