AI结构预测器能否捕捉结合态无序?——基于模糊蛋白质复合物的基准评测

root 提交于 周三, 06/03/2026 - 14:47
模糊蛋白质复合物中,内在无序蛋白(IDP)在结合后仍保留构象无序性,这对在有序体系上训练的结构预测器构成了根本性挑战;在这类体系中,晶体结构仅捕捉到最有序的系综快照,因此标准基准评估指标会产生误导。在此,我们首次对 AlphaFold3(AF3)、AlphaFold2-Multimer(AF2MM)、Chai-1 和 Boltz-2 进行了系统评估,所用数据集为从 FuzDB 整理筛选的模糊复合物,并分别基于与 PDB 结构对比的 DockQ 以及与人工整理的 BMRB 约束文件对比的 NOE 违背率进行基准测试;据我们所知,这是首个此类综合性数据集合。对于全部四种预测器,约 30% 的 NOE 约束被违背,且无论预测器架构或训练数据如何,其分布几乎完全一致。DockQ 评分整体均落在 Acceptable 范围内,其中 AF3 略高,但其 NOE 违背率与表现最弱的模型相当。采用 Hadzi 热力学模型的第一性原理实现进行系综层面的分析表明,AF3 是唯一能够实现接近零平均螺旋性偏差的模型,而其他预测器则表现出系统性的过度自信;然而,这四种模型在逐残基螺旋性与热力学预期之间的相关性均较差。DockQ 排名反映的是训练数据与晶体结构的相似性,而非物理准确性,并且目前尚无任何预测器能够捕捉模糊复合物的系综行为。FuzzyBench-NOE 数据集包含 NOE 约束文件、预测结构、界面热点注释以及 Hadzi--DSSP 分析输出,现已发布于 Zenodo(https://doi.org/10.5281/zenodo.20470556)。

模糊蛋白复合物中,内在无序蛋白(IDP)在结合后仍保留构象无序性。这类体系对基于有序体系训练的结构预测器构成了根本性挑战;在有序体系中,晶体结构只能捕捉到最有序的构象集合快照,因此标准基准评测指标可能产生误导。在此,我们首次对 AlphaFold3(AF3)、AlphaFold2-Multimer(AF2MM)、Chai-1 和 Boltz-2 进行了系统评估。评估使用了从 FuzDB 精选整理的模糊复合物数据集,并以相对于 PDB 结构的 DockQ 评分以及相对于人工整理的 BMRB 约束文件的 NOE 违背率作为基准;后者是此类数据的首个综合性集合。

在全部四种预测器中,约 30% 的 NOE 约束被违背,且无论预测器架构或训练数据如何,其分布几乎完全一致。DockQ 评分整体均落在 Acceptable 范围内,其中 AF3 略高,但其 NOE 违背率与表现最弱的模型相当。采用 Hadzi 热力学模型的第一性原理实现进行集合层面的分析表明,AF3 是唯一能够实现接近零平均螺旋性偏倚的模型,而其他预测器则表现出系统性的过度自信;然而,这四种模型在逐残基螺旋性与热力学预期之间的相关性均较差。DockQ 排名反映的是训练数据与晶体结构的相似性,而非物理准确性,并且当前尚无任何预测器能够捕捉模糊复合物的构象集合行为。FuzzyBench-NOE 数据集包含 NOE 约束文件、预测结构、界面热点注释以及 Hadzi--DSSP 分析输出,现已发布于 Zenodo(https://doi.org/10.5281/zenodo.20470556)。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.30.729023v1?rss=1

🏷️ 内在无序蛋白 模糊蛋白复合物 蛋白质结构预测 AlphaFold 基准评测 NOE约束