基于Bert+GCN多模态数据融合的药物分子属性预测

root 提交于 周二, 03/18/2025 - 20:52
目的 药物研发成本高、周期长且成功率低。准确预测分子属性对有效筛选药物候选物、优化分子结构具有重要意义。基于特征工程的传统分子属性预测方法需研究人员具备深厚的学科背景和广泛的专业知识。随着人工智能技术的不断成熟,涌现出大量优于传统特征工程方法的分子属性预测算法。然而这些算法模型仍然存在标记数据稀缺、泛化性能差等问题。鉴于此,本文提出一种基于Bert+GCN的多模态数据融合的分子属性预测算法(命名为BGMF),旨在整合药物分子的多模态数据,并充分利用大量无标记药物分子训练模型学习药物分子的有用信息。方法 本文提出了BGMF算法,该算法根据药物SMILES表达式分别提取了原子序列、分子指纹序列和分子图数据,采用预训练模型Bert和图卷积神经网络GCN结合的方式进行特征学习,在挖掘药物分子中“单词”全局特征的同时,融合了分子图的局部拓扑特征,从而更充分利用分子全局-局部上下文语义关系,之后,通过对原子序列和分子指纹序列的双解码器设计加强分子特征表达。结果 5个数据集共43个分子属性预测任务上,BGMF方法的AUC值均优于现有其他方法。此外,本文还构建独立测试数据集验证了模型具有良好的泛化性能。对生成的分子指纹表征(molecular fingerprint representation)进行t-SNE可视化分析,证明了BGMF模型可成功捕获不同分子指纹的内在结构与特征。结论 通过图卷积神经网络与Bert模型相结合,BGMF将分子图数据整合到分子指纹恢复和掩蔽原子恢复的任务中,可以有效地捕捉分子指纹的内在结构和特征,进而高效预测药物分子属性。

相关内容

发布日期 08/04/2020 - 01:35
发布日期 08/04/2020 - 01:35
发布日期 10/17/2023 - 23:16
发布日期 02/18/2025 - 20:47
发布日期 01/18/2025 - 20:37
发布日期 01/31/2024 - 13:01
发布日期 02/29/2024 - 16:35