癌症基因组基础模型

root 提交于 周二, 06/02/2026 - 00:47
癌症是一种基因组疾病,其中体细胞突变和拷贝数改变决定了肿瘤的身份、临床行为以及对治疗的反应。联盟规模的测序研究已对数十万例肿瘤进行了谱系刻画,然而临床解读仍然主要以逐个变异的方式,依赖人工整理的知识库开展,且往往忽略共存变异以及全基因组范围的拷贝数模式。通过在未标注语料上进行预训练的自监督基础模型,已在相邻生物学领域通过学习多种特征之间的联合结构产生了可迁移的表征,然而针对癌症基因组尚不存在可比拟的模型。在此,我们提出 TESSERA(通过改变的自监督编码与重建实现肿瘤嵌入),这是一个面向癌症基因组的基础模型;我们通过在各模态内进行掩码标记重建,并在模态间采用对比学习目标,在体细胞单核苷酸变异和拷贝数片段上对其进行预训练。单一表征在生成一次后即可在无需重新训练的情况下重复使用,支持变异致病性预测、泛癌种肿瘤分型、无监督分子亚型划分、预后分层,以及反事实治疗效应估计,并由此在真实世界队列中得到可用于化疗选择预测的生物标志物。这些生物标志物具有可解释性:每一个标志物都会揭示支撑预测的共存改变,从而暴露出单基因规则所遗漏的生物学机制。在转移性结直肠癌中,当前 FOLFOX 与 FOLFIRI 的治疗选择主要依据毒性而非肿瘤生物学特征,模型发现了一个候选预测性生物标志物:一个由三个特征构成的规则(TP53+/KRAS+/17p-),可筛选出从 FOLFOX 相较于 FOLFIRI 中获得显著更大获益的患者。

癌症是一种基因组疾病,其中体细胞突变和拷贝数改变决定了肿瘤的身份、临床行为以及对治疗的反应。联盟规模的测序研究已经对数十万个肿瘤进行了谱系描绘,然而临床解读仍然通常以人工整理的知识库为依据,逐个变异进行,且往往忽略共现变异以及全基因组范围的拷贝数模式。通过在未标注语料上进行预训练,自监督基础模型已通过学习众多特征之间的联合结构,在相邻生物学领域产生了可迁移的表征,然而癌症基因组领域尚不存在可与之相比的模型。

在此,我们提出TESSERA(通过自监督编码与变异重建生成肿瘤嵌入),这是一个面向癌症基因组的基础模型;我们通过在各模态内进行掩码词元重建,并在模态间采用对比学习目标,在体细胞单核苷酸变异和拷贝数片段数据上对其进行预训练。该模型产生单一表征,一次生成后即可在无需重新训练的情况下重复使用,支持变异致病性预测、泛癌种肿瘤分型、无监督分子亚型划分、预后分层,以及反事实治疗效应估计,并由此在真实世界队列中得到可用于预测化疗方案选择的生物标志物。这些生物标志物具有可解释性:每一个标志物都会揭示支撑预测的共现变异,从而呈现出单基因规则所遗漏的生物学机制。

在转移性结直肠癌中,目前FOLFOX与FOLFIRI之间的选择主要依据毒性而非肿瘤生物学特征,而该模型发现了一个候选预测性生物标志物:一个由三个特征组成的规则(TP53+/KRAS+/17p-),可筛选出从FOLFOX中获益显著大于FOLFIRI的患者。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.27.728319v1?rss=1

🏷️ 癌症基因组 基础模型 自监督学习 肿瘤分型 拷贝数变异 治疗反应预测