剖析与引导病理学基础模型|||北京沫之东生物技术有限公司

3 次围观

基础模型（FMs）是数字病理学的核心，它们将组织学图像编码为稠密嵌入，以促进诊断分类、分子改变预测和临床结局建模。然而，这些嵌入的不可解释性使基于FM的系统成为“黑箱”，限制了其临床转化的可信度和科学发现的实用性。为此，我们提出PICASSO（基于稀疏字典学习构建的病理图像概念图谱，Pathology Image Concept Atlas built via SparSe dictiOnary learning），这是一个使病理FM具备可解释性和可控性的框架。PICASSO利用稀疏自编码器将FM嵌入分解为人类可解释的视觉概念。该方法基于32种癌症类型中的超过1.2亿个组织切片进行训练，生成了首个泛癌种的组织形态学概念图谱。我们证明，PICASSO通过揭示学习表征中的可解释结构并支持概念层面的干预，能够增强FM嵌入在多种下游应用中的作用。它通过揭示驱动预测的形态学特征，使临床模型行为的审计成为可能。除透明性和验证之外，PICASSO还能够发现新的生物学见解；例如，它识别出指甲样上皮形态（hobnailing epithelial morphology）是肺腺癌中EGFR突变一种此前未被认识的生物标志物。通过将PICASSO衍生概念与空间转录组学关联，我们揭示了形态模式与基因表达程序之间的联系。此外，PICASSO允许抑制与技术伪影相关的概念，从而降低模型对伪信号的依赖。最后，PICASSO支持对学习到的概念进行可控操纵，以生成反事实嵌入，用于探索性治疗分析，例如调节肿瘤浸润淋巴细胞密度，以评估其对生存结局预测的影响。总之，PICASSO提供了一个原则性框架，可将病理FM转化为用于机制洞见与发现的平台。

基础模型（FMs）是数字病理学的核心，它们将组织学图像编码为稠密嵌入，以促进诊断分类、分子改变预测和临床结局建模。然而，这些嵌入的不可见性使基于 FM 的系统成为“黑箱”，限制了其临床转化的可信度以及科学发现的实用性。在此，我们提出 PICASSO（Pathology Image Concept Atlas built via SparSe dictiOnary learning，基于稀疏字典学习构建的病理图像概念图谱），一种使病理 FM 具备可解释性和可控性的框架。PICASSO 使用稀疏自编码器将 FM 嵌入分解为人类可解释的视觉概念。该框架在 32 种癌症类型的超过 1.2 亿个组织切片上进行训练，生成了首个泛癌种的组织形态学概念图谱。我们证明，PICASSO 通过揭示学习表示中的可解释结构并支持概念层面的干预，使 FM 嵌入能够用于多样化的下游应用。它通过揭示驱动预测的形态学特征，能够审计临床模型行为。除透明性与验证之外，PICASSO 还能够发现新的生物学见解；例如，它识别出钉状上皮形态是肺腺癌中 EGFR 突变此前未被认识到的生物标志物。通过将 PICASSO 导出的概念与空间转录组学相连接，我们揭示了形态模式与基因表达程序之间的关联。此外，PICASSO 允许抑制与技术伪影相关的概念，从而减少模型对虚假信号的依赖。最后，PICASSO 还可对学习到的概念进行受控操纵，以生成反事实嵌入，用于探索性治疗分析，例如调节肿瘤浸润淋巴细胞密度以评估对生存结局预测的影响。总体而言，PICASSO 提供了一个原则性的框架，可将病理 FM 转化为机制洞察与发现的平台。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.12.731496v1?rss=1

🏷️ 数字病理学基础模型可解释人工智能稀疏字典学习空间转录组学肺腺癌

来源出处

剖析与引导病理学基础模型 https://www.biorxiv.org/content/10.64898/2026.06.12.731496v1?rss=1