化学多样性映射:基于描述符引导的 COCONUT 数据库天然产物聚类

root 提交于 周日, 06/07/2026 - 08:47
天然产物是药物发现中生物活性化合物的重要来源,但由于其广泛的结构复杂性和骨架多样性,对其进行探索仍然面临挑战。基于 COCONUT 数据库,我们开发了一个面向聚类的框架,通过特征工程、分子聚类和基于代表分子的分析,对天然产物化学空间进行系统映射与表征。描述符筛选结果表明,在相关性阈值范围为 0.35–0.85 且包含 20 个描述符的条件下,贪婪最大覆盖策略可作为最优特征集,该特征集主要富集于理化性质和图拓扑性质。对聚类方法的比较评估表明,UMAP-HDBSCAN 是性能最佳的流程,共生成 1,683 个聚类,噪声重分配前后的轮廓系数分别为 0.42 和 0.24。聚类谱系分析显示,骨架景观具有高度异质性,其中 67.56% 的聚类表现出较低的骨架主导性,仅有 15.21% 代表骨架高度主导的区域,这支持了该化学空间主要由相互连接的过渡性聚类构成的观点。描述符分析表明,天然产物聚类通常富集于高饱和度、低芳香性的化学型,并具有中等亲脂性和受限的分子柔性。基于代表分子的分析表明,中心代表分子(medoid 和最接近质心的分子)能够较好地捕捉聚类平均性质,而多样性代表分子则更能反映结构广度;这一发现进一步得到了基于描述符和基于分子对接的验证支持。总体而言,这些结果进一步证实天然产物化学空间是一个连续但具有结构组织性的流形,并为其在药物发现应用中的高效探索提供了一个代表分子引导的框架。完整数据可访问:https://github.com/shrek-28/DescriptorClusteringNPSpace

天然产物是药物发现中生物活性化合物的重要来源,但由于其广泛的结构复杂性和骨架多样性,对其进行探索仍然面临挑战。基于 COCONUT 数据库,我们构建了一个面向聚类的框架,通过特征工程、分子聚类和基于代表分子的分析,系统性地映射并表征天然产物化学空间。

描述符筛选结果表明,在相关性阈值范围为 0.35–0.85、并选取 20 个描述符的条件下,贪婪最大覆盖策略是最优特征集,该特征集在理化性质和图拓扑性质方面具有更高的富集度。对不同聚类方法的比较评估显示,UMAP-HDBSCAN 是性能最佳的流程,共生成 1,683 个簇,噪声重分配前后的轮廓系数分别为 0.42 和 0.24。

簇特征分析揭示了高度异质的骨架分布格局,其中 67.56% 的簇表现出较低的骨架主导性,仅有 15.21% 代表高度受骨架主导的区域,这支持了天然产物化学空间主要由相互连接的过渡性簇构成的观点。描述符分析表明,天然产物簇整体上富集于高饱和度、低芳香性、具有中等亲脂性且分子柔性受限的化学型。

基于代表分子的分析表明,中心代表分子(即类中心分子和最接近质心的分子)能够较好地捕捉簇的平均性质,而多样性代表分子则更能反映结构广度;这一发现进一步得到了基于描述符和基于对接的验证支持。总体而言,这些结果进一步强化了天然产物化学空间是一个连续但具有结构性的流形这一认识,并为其在药物发现应用中的高效探索提供了一个代表分子引导的框架。完整数据可访问:https://github.com/shrek-28/DescriptorClusteringNPSpace


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.03.729746v1?rss=1

🏷️ 天然产物 化学空间映射 分子聚类 描述符筛选 COCONUT数据库 代表分子分析