从无监督聚类到图谱引导注释:HiCAT在队列规模空间组学中的应用

root 提交于 周一, 06/01/2026 - 04:47
病理学家标注的组织区域为分析空间组学数据提供了基础性参照,然而由于所需的人工工作量巨大,此类标注仅在数量有限的样本中可获得。此外,这些标注来源于单个组织学图像中的形态学特征,因此可能忽略由分子特征界定的区域,并掩盖样本内部的异质性。为解决这些局限性,我们提出了 HiCAT,这是一种机器学习框架,能够自动生成融合病理学家知识的区域标注,并刻画空间组学数据中的区域异质性。 在七个数据集上的评估表明,HiCAT 持续优于当前最先进的方法,在准确率方面实现了 107% 的中位相对提升。除能够迁移病理学家标注外,HiCAT 还揭示了原始标注未能捕捉的、由分子信息驱动的区域异质性,包括与临床结局相关的肿瘤亚区域,以及与疾病时空进展一致的脑亚区域。通过在大规模队列中生成一致、高粒度且具有生物学信息价值的区域标注,HiCAT 使可扩展的下游分析成为可能,并为空间生物学中的基础模型提供训练标签。

病理学家标注的组织区域为解析空间组学数据提供了基础参照,然而由于所需人工工作量巨大,此类标注仅在有限数量的样本中可获得。此外,这些标注来源于单个组织学图像中的形态学特征,因而可能忽略由分子特征所定义的区域,并掩盖样本内异质性。

为应对这些局限性,我们提出了 HiCAT,这是一种机器学习框架,能够在空间组学数据中自动生成经病理学家知识指导的区域标注,并表征区域异质性。在七个数据集中,HiCAT 均稳定优于当前最先进的方法,准确率中位相对提升达到 107%。

除实现病理学家标注的迁移外,HiCAT 还揭示了原始标注未能捕捉的、由分子信息支持的区域异质性,包括与临床结局相关的肿瘤亚区域,以及与疾病时空进展相一致的脑亚区域。通过在大规模队列中生成一致、高粒度且具有生物学信息量的区域标注,HiCAT 促进了可扩展的下游分析,并为空间生物学中的基础模型提供了训练标签。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.27.728266v1?rss=1

🏷️ 空间组学 机器学习 组织区域注释 无监督聚类 肿瘤异质性 图谱引导