用于基于机器学习的蛋白质-配体结合能预测的多层次、多体原子相互作用图

root 提交于 周一, 06/08/2026 - 02:47
精确预测结合亲和力对于理性药物设计与发现至关重要。传统计算方法通常依赖复杂的评分函数,这些函数整合了大量物理和化学描述符,因而带来了较高的计算开销,并且有时泛化能力有限。在本研究中,我们提出了一种新颖的评分函数,利用基于图的表示来建模多层次、多体原子相互作用。我们的方法构建了全面的相互作用图,同时纳入成对和三元原子特征,以帮助捕获对结合亲和力预测至关重要的协同空间模式。通过采用特征融合策略,GMI-Score在保持模型简洁性的同时提升了预测准确性。 在多个数据集上的广泛评估——如 PDBbind v2013、PDBbind v2016、PDBbind v2020、CSAR-NRC-HiQ 和 PDBbind-Redocked——表明,我们的模型始终优于最先进的评分函数,Pearson 相关系数最高可达 0.877。此外,在严格控制数据泄漏和真实对接条件下,该模型仍保持了较强的预测能力,凸显了其鲁棒性与泛化能力。

结合亲和力的准确预测对于理性药物设计与发现至关重要。传统计算方法通常依赖于复杂的评分函数,这些函数整合了大量物理和化学描述符,因而导致较高的计算开销,并且其泛化能力有时受到限制。在本研究中,我们提出了一种新颖的评分函数,利用基于图的表示来建模多层次、多体原子相互作用。我们的方法构建了全面的相互作用图,同时纳入成对和三元原子特征,以帮助捕捉对结合亲和力预测至关重要的协同空间模式。通过采用特征融合策略,GMI-Score 在保持模型简洁性的同时提升了预测精度。在多个数据集上的广泛评估——如 PDBbind v2013、PDBbind v2016、PDBbind v2020、CSAR-NRC-HiQ 和 PDBbind-Redocked——表明,我们的模型始终优于当前最先进的评分函数,Pearson 相关系数最高可达 0.877。此外,在严格的数据泄漏控制和真实对接条件下,该模型仍保持了强大的预测能力,进一步凸显了其鲁棒性与泛化能力。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730001v1?rss=1

🏷️ 蛋白质-配体结合亲和力 机器学习评分函数 原子相互作用图 多体特征建模 药物发现