语言建模具化了蛋白质生物学的世界模型

root 提交于 周五, 06/05/2026 - 02:47
蛋白质是生命的基础。其生物学的完整广度超出了我们通过物理实验室中的实验方法进行表征的能力。精确的数字化表征能够通过虚拟实验加速蛋白质生物学的发现。我们提出使用语言建模来学习统一且通用的表征,并将其扩展至整个蛋白质生物学领域。基于这些表征,我们开发了一种结构预测模型,在多个基准测试中,其在生物分子复合物预测方面的性能超过了已有方法,包括抗体与其靶标之间相互作用的预测。一个简单的搜索程序在发现对迷你蛋白和单链抗体均具有纳摩尔级结合亲和力的蛋白质方面取得了很高的实验成功率,而单链抗体是治疗设计中的一种关键模态。对语言模型表征空间中概念的研究表明,其呈现出一种系统性组织方式,并与经验科学所发展出的关于蛋白质的还原论理解相一致。利用这种组织方式,我们生成了一幅涵盖超过68亿条序列和11亿个预测结构的蛋白质生物学综合图谱,识别出已知与未知生物学之间的联系。总体而言,这表明语言建模是表征蛋白质生物学的一种强大基础,能够跨越多个尺度发挥作用:从原子层面对蛋白质相互作用的预测与设计,到在不同粒度和抽象层级上识别蛋白质的性质,再到跨越数十亿年进化历程绘制蛋白质之间联系的尺度。

蛋白质是生命的基础。其生物学的完整范围超出了我们通过物理实验室中的实验方法进行表征的能力。准确的数字化表征有望通过虚拟实验加速蛋白质生物学的发现。我们提出使用语言建模来学习统一且通用的表征,并将其扩展到蛋白质生物学的全部范围。在这些表征的基础上,我们开发了一种结构预测模型,在多个基准测试中,其在生物分子复合物预测方面的性能超过了已有方法,包括抗体与其靶标之间的相互作用预测。通过一种简单的搜索过程,我们在发现对迷你蛋白和单链抗体这两类蛋白具有纳摩尔级结合亲和力的蛋白质方面,获得了较高的实验成功率;后者是一种对治疗设计至关重要的分子形式。对语言模型表征空间中相关概念的研究表明,其中存在一种系统性组织结构,与通过经验科学发展起来的关于蛋白质的还原论认识相一致。利用这种组织结构,我们构建了一幅全面的蛋白质生物学图谱,涵盖超过68亿条序列和11亿个预测结构,识别出了已知与未知生物学之间的联系。总体而言,这表明语言建模可作为表征蛋白质生物学的强大基础,能够跨越多个尺度发挥作用:从原子层面预测和设计蛋白质相互作用,到在不同粒度和抽象层级上识别蛋白质的性质,再到在跨越数十亿年进化历程的范围内绘制蛋白质之间联系的图谱。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.03.729735v1?rss=1

🏷️ 蛋白质语言模型 蛋白质结构预测 蛋白质设计 生物分子相互作用 蛋白质组图谱 虚拟实验