测试人工智能生成蛋白质结构的可靠性|||北京沫之东生物技术有限公司

测试人工智能生成蛋白质结构的可靠性

1次围观

尽管 AlphaFold2 及其竞争方法已经展现出卓越的蛋白质结构预测能力，但仍需开展更多研究以探索这些方法的局限性。在此，我们通过构建一组具有现实特征但实际上错误的蛋白质序列，使用 ColabFold 预测其结构，并进一步考察对于并不代表蛋白质的序列，该程序产生高评分结构的频率，从而研究了 AlphaFold2 和 ColabFold 的可靠性。我们确定，AlphaFold2 的假阳性率非常低但并非为零；若采用 pLDDT 评分阈值 70 来界定阳性预测，则其假阳性率在此估计约为 1/435。我们还偶然发现，人类基因组中一些高评分序列并非假阳性，而是此前未知且未被注释的假基因。这些发现表明，某些已被广泛接受的人类蛋白质编码基因注释可能将 5′ 非翻译区错误地延伸得过长。它们还表明，AlphaFold2 的假阳性率低到足以使几乎任何高评分结构——即使位于非编码区域——都值得进一步研究。

尽管AlphaFold2及其竞争方法已经展现出预测蛋白质结构的卓越能力，但仍需要更多工作来探索这些方法的局限性。在这里，我们通过构建一组真实但虚假的蛋白质序列，并使用ColabFold预测其结构，进而考察该程序对并不代表蛋白质的序列生成高评分结构的频率，从而评估AlphaFold2和ColabFold的可靠性。我们确定，AlphaFold2存在极小但非零的假阳性率；若以pLDDT评分70作为阳性预测阈值，其假阳性率在此估计约为1/435。我们还意外发现，人类基因组中的某些高评分序列并非假阳性，而是此前未知且未注释的假基因。这些后者的发现表明，一些已被广泛接受的人类蛋白编码基因注释可能将5′非翻译区错误地延伸得过远。它们还提示，AlphaFold2的假阳性率低到几乎任何高评分结构，即便位于非编码区域，也值得进一步研究。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.11.731682v1?rss=1

🏷️ 蛋白质结构预测 AlphaFold2 ColabFold 假阳性率假基因注释

来源出处

测试人工智能生成蛋白质结构的可靠性 https://www.biorxiv.org/content/10.64898/2026.06.11.731682v1?rss=1