测试人工智能生成蛋白质结构的可靠性

root 提交于 周日, 06/14/2026 - 18:47
尽管 AlphaFold2 及其竞争方法已经展现出卓越的蛋白质结构预测能力,但仍需开展更多研究以探索这些方法的局限性。在此,我们通过构建一组具有现实特征但实际上错误的蛋白质序列,使用 ColabFold 预测其结构,并进一步考察对于并不代表蛋白质的序列,该程序产生高评分结构的频率,从而研究了 AlphaFold2 和 ColabFold 的可靠性。我们确定,AlphaFold2 的假阳性率非常低但并非为零;若采用 pLDDT 评分阈值 70 来界定阳性预测,则其假阳性率在此估计约为 1/435。 我们还偶然发现,人类基因组中一些高评分序列并非假阳性,而是此前未知且未被注释的假基因。这些发现表明,某些已被广泛接受的人类蛋白质编码基因注释可能将 5′ 非翻译区错误地延伸得过长。它们还表明,AlphaFold2 的假阳性率低到足以使几乎任何高评分结构——即使位于非编码区域——都值得进一步研究。

尽管AlphaFold2及其竞争方法已经展现出预测蛋白质结构的卓越能力,但仍需要更多工作来探索这些方法的局限性。在这里,我们通过构建一组真实但虚假的蛋白质序列,并使用ColabFold预测其结构,进而考察该程序对并不代表蛋白质的序列生成高评分结构的频率,从而评估AlphaFold2和ColabFold的可靠性。我们确定,AlphaFold2存在极小但非零的假阳性率;若以pLDDT评分70作为阳性预测阈值,其假阳性率在此估计约为1/435。我们还意外发现,人类基因组中的某些高评分序列并非假阳性,而是此前未知且未注释的假基因。这些后者的发现表明,一些已被广泛接受的人类蛋白编码基因注释可能将5′非翻译区错误地延伸得过远。它们还提示,AlphaFold2的假阳性率低到几乎任何高评分结构,即便位于非编码区域,也值得进一步研究。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.11.731682v1?rss=1

🏷️ 蛋白质结构预测 AlphaFold2 ColabFold 假阳性率 假基因注释