利用单一蛋白质中学习到的结构信息预测细菌的最适生长温度

root 提交于 周五, 06/19/2026 - 18:47
温度是决定细菌生理与生态的一个基本因素。最适生长温度(optimal growth temperature, OGT)在不同物种之间具有高度变异性,这导致了不同物种在何时何地最有可能繁盛存在方面的差异。尽管大多数细菌的 OGT 仍然未知,但随着来自未培养和已培养类群的基因组数据日益丰富,构建基于基因组且不依赖培养的 OGT 推断模型已变得极具优势。然而,现有的基因组模型往往缺乏对 OGT 进行稳健推断所需的泛化能力和机制基础。我们提出了一种用于预测细菌 OGT 的新框架,该框架利用学习得到的、反映热适应性的蛋白质结构特征。我们假设,与宽泛的基因组特征相比,支配酶在不同温度下功能表现的生物物理权衡,为 OGT 预测提供了更为稳健的经验基础。我们的 OGT 预测模型 ROSEATE 基于单个基因——腺苷酸激酶(adenylate kinase, ADK),该基因编码一种广泛存在且对能量稳态至关重要的酶。ROSEATE 通过 MSA Transformer(一种蛋白质语言模型)进行高维潜在空间编码,以保留关于嵌入蛋白质的生物物理信息的方式对 ADK 进行表征。我们表明,ROSEATE 模型的准确性可与其他基于基因组的模型相媲美,具有较高程度的系统发育泛化能力,并且 ESM 嵌入能够有效捕捉源自 AlphaFold 结构的温度适应性关键酶学特征。由于 ROSEATE 基于对单一广泛存在蛋白质的分析,因此它可以与宏基因组数据结合使用,以推断细菌 OGT 在群落水平上的变异。我们通过从 500 多个环境来源和宿主相关宏基因组中重建 ADK 序列,展示了 ROSEATE 的这一特性,并成功区分了从极地海洋到哺乳动物肠道等多样栖息地中群落整体的热偏好。通过从基因组代理特征转向信息密度更高的蛋白质结构特征,本研究为跨类群及整个群落预测细菌 OGT 提供了一种高效且可解释的工具。

利用单一蛋白质中习得的结构信息预测细菌的最适生长温度 | bioRxiv

预测细菌的最适生长温度:利用来自单一蛋白质的习得结构信息

Michael Hoffert,Dru Myerscough,Nicholas B Dragone,Matthew J Gebert,Jonathan J Silberg,Noah Fierer

doi: https://doi.org/10.64898/2026.06.15.732269

Michael Hoffert 1 科罗拉多大学博尔德分校; 通讯请联系:michael.hoffert{at}colorado.edu

Dru Myerscough 2 加利福尼亚大学旧金山分校;

Nicholas B Dragone 3 莫纳什大学;

Matthew J Gebert 4 犹他大学;

Jonathan J Silberg 5 莱斯大学

Noah Fierer 1 科罗拉多大学博尔德分校;

摘要

温度是决定细菌生理与生态的基持有人为作者/资助方,其已授予 bioRxiv 永久展示该预印本的许可。

本文依据 CC-BY 4.0 国际许可协议公开提供。

发表于 2026 年 6 月 18 日。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.15.732269v1?rss=1

🏷️ 最适生长温度 蛋白质结构表征 细菌热适应 蛋白质语言模型 宏基因组推断