剖析与引导病理学基础模型

root 提交于 周三, 06/17/2026 - 10:47
基础模型(FMs)是数字病理学的核心,它们将组织学图像编码为稠密嵌入,以促进诊断分类、分子改变预测和临床结局建模。然而,这些嵌入的不可解释性使基于FM的系统成为“黑箱”,限制了其临床转化的可信度和科学发现的实用性。为此,我们提出PICASSO(基于稀疏字典学习构建的病理图像概念图谱,Pathology Image Concept Atlas built via SparSe dictiOnary learning),这是一个使病理FM具备可解释性和可控性的框架。PICASSO利用稀疏自编码器将FM嵌入分解为人类可解释的视觉概念。该方法基于32种癌症类型中的超过1.2亿个组织切片进行训练,生成了首个泛癌种的组织形态学概念图谱。我们证明,PICASSO通过揭示学习表征中的可解释结构并支持概念层面的干预,能够增强FM嵌入在多种下游应用中的作用。它通过揭示驱动预测的形态学特征,使临床模型行为的审计成为可能。除透明性和验证之外,PICASSO还能够发现新的生物学见解;例如,它识别出指甲样上皮形态(hobnailing epithelial morphology)是肺腺癌中EGFR突变一种此前未被认识的生物标志物。通过将PICASSO衍生概念与空间转录组学关联,我们揭示了形态模式与基因表达程序之间的联系。此外,PICASSO允许抑制与技术伪影相关的概念,从而降低模型对伪信号的依赖。最后,PICASSO支持对学习到的概念进行可控操纵,以生成反事实嵌入,用于探索性治疗分析,例如调节肿瘤浸润淋巴细胞密度,以评估其对生存结局预测的影响。总之,PICASSO提供了一个原则性框架,可将病理FM转化为用于机制洞见与发现的平台。

基础模型(FMs)是数字病理学的核心,它们将组织学图像编码为稠密嵌入,以促进诊断分类、分子改变预测和临床结局建模。然而,这些嵌入的不可见性使基于 FM 的系统成为“黑箱”,限制了其临床转化的可信度以及科学发现的实用性。在此,我们提出 PICASSO(Pathology Image Concept Atlas built via SparSe dictiOnary learning,基于稀疏字典学习构建的病理图像概念图谱),一种使病理 FM 具备可解释性和可控性的框架。PICASSO 使用稀疏自编码器将 FM 嵌入分解为人类可解释的视觉概念。该框架在 32 种癌症类型的超过 1.2 亿个组织切片上进行训练,生成了首个泛癌种的组织形态学概念图谱。我们证明,PICASSO 通过揭示学习表示中的可解释结构并支持概念层面的干预,使 FM 嵌入能够用于多样化的下游应用。它通过揭示驱动预测的形态学特征,能够审计临床模型行为。除透明性与验证之外,PICASSO 还能够发现新的生物学见解;例如,它识别出钉状上皮形态是肺腺癌中 EGFR 突变此前未被认识到的生物标志物。通过将 PICASSO 导出的概念与空间转录组学相连接,我们揭示了形态模式与基因表达程序之间的关联。此外,PICASSO 允许抑制与技术伪影相关的概念,从而减少模型对虚假信号的依赖。最后,PICASSO 还可对学习到的概念进行受控操纵,以生成反事实嵌入,用于探索性治疗分析,例如调节肿瘤浸润淋巴细胞密度以评估对生存结局预测的影响。总体而言,PICASSO 提供了一个原则性的框架,可将病理 FM 转化为机制洞察与发现的平台。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.12.731496v1?rss=1

🏷️ 数字病理学 基础模型 可解释人工智能 稀疏字典学习 空间转录组学 肺腺癌