组织学图像与基因表达数据的多变量整合:比较性综述

root 提交于 周日, 06/07/2026 - 08:47
将组织学图像与基因表达数据整合,为建立组织形态与分子特征之间的联系以及改进疾病分型提供了一种有前景的方法。然而,由于这些数据集具有高维性、跨模态异质性以及可解释性有限,这种整合仍然面临挑战。稀疏典型相关分析(Sparse Canonical Correlation Analysis, Sparse CCA)、联合非负矩阵分解(Joint Nonnegative Matrix Factorisation, Joint NMF)以及基于角度的联合与个体变异解释方法(Angle-based Joint and Individual Variation Explained, AJIVE)等多变量方法,已被用于通过降维并识别与潜在因子相关的特征来应对这些挑战,从而增强生物学可解释性。尽管这些方法在影像组学-组学整合研究中的应用日益增加,但对其方法学特性的系统比较仍然有限。因此,使用者在实践中往往缺乏关于如何恰当选择这些方法的指导,而这些方法尽管建模假设不同,却常常被视为可以相互替代。在本文中,我们采用来自乳腺癌的配对H&E图像和基因表达数据作为代表性案例研究,以考察这些整合方法的方法学特征、可解释性及其互补性质。我们的结果表明,每种方法都能够捕捉到底层信息中不同但相互补充的方面。尽管本文中的生物学发现来源于TCGA-BRCA数据集,但在此识别出的方法学见解可更广泛地推广至影像组学-组学整合研究。总体而言,这篇比较性综述强调了每种方法的优势与局限性,并概述了未来方法学发展的相关考量。

将组织学图像与基因表达数据整合,为建立组织形态与分子特征之间的联系以及改进疾病分型提供了一种很有前景的方法。然而,由于这些数据集具有高维性、跨模态异质性以及可解释性有限,这种整合仍然面临挑战。稀疏典型相关分析(Sparse Canonical Correlation Analysis, Sparse CCA)、联合非负矩阵分解(Joint Nonnegative Matrix Factorisation, Joint NMF)以及基于角度的联合与个体变异解释方法(Angle-based Joint and Individual Variation Explained, AJIVE)等多变量方法,已被用于通过降维并识别与潜在因子相关的特征来应对这些挑战,从而提高生物学可解释性。尽管这些方法在影像组学—组学整合研究中的应用日益增多,但针对其方法学特性的系统性比较仍然有限。因此,使用者在实际应用中往往缺乏关于如何恰当选择这些方法的指导,而且尽管这些方法的建模假设存在差异,它们却常常被视为可以互换的方法。在此,我们以乳腺癌配对的 H&E 图像和基因表达数据为代表性案例研究,用以考察这些整合方法的方法学特征、可解释性及其互补性质。我们的结果表明,每种方法都能够捕捉到底层信息中彼此不同但又相互补充的方面。尽管这些生物学发现来源于 TCGA-BRCA 数据集,但本文所识别的方法学见解在更广泛的影像组学—组学整合研究中同样具有推广意义。总体而言,这篇比较性综述强调了每种方法的优势与局限性,并概述了未来方法学发展的相关考量。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.02.729734v1?rss=1

🏷️ 组织学图像 基因表达 多组学整合 稀疏典型相关分析 联合非负矩阵分解 乳腺癌