RepGene:迈向对缺失生物学视图具有鲁棒性的统一基因表征空间

root 提交于 周二, 06/16/2026 - 10:47
基因可以通过多种异质性的生物学视角进行表征,包括基因组序列、转录本序列、蛋白质序列、文本知识以及单细胞表达背景。然而,现有的基因嵌入在很大程度上仍然是模态特异性的,并且当许多视角不可用时,难以进行比较或复用。我们研究了一个更为聚焦但在实践中十分重要的问题:来自这些不同来源的预训练嵌入,是否能够被组织为一种共享的基因表示接口,并且在模态严重缺失的条件下仍然可用。为研究这一问题,我们提出了 RepGene,这是一种轻量级的单分支框架,通过结合模态适配器、共享编码器、存在性感知融合以及自监督跨视角目标,将五种生物学视角映射到同一潜在空间中。我们的目标并非宣称提出了一种新的多模态学习原理,也并非要证明其优于所有更简单的融合策略,而是提供一个初步的技术实现,用于检验在固定特征设定下,这种共享接口是否可行。 在一个两阶段协议下,RepGene 首先在冻结的上游嵌入上进行自监督训练,随后通过下游线性探测进行评估。我们发现了初步证据表明,所学习到的表示在全模态设定下具有较广泛的竞争力,并且在推理时仅观察到部分模态子集的情况下仍然保有信息性。本研究中最强的信号是其在视角缺失条件下的鲁棒性:当移除一种模态时,平均性能变化通常较为有限;即使仅使用单一视角进行推理,在所评估的基准测试设定中仍然具有非平凡的表现。 这些结果并未解决统一生物学表示学习的问题,并且应当结合以下局限性加以解读:对简单融合基线的比较尚不完整、架构消融研究有限、结果依赖于基准任务,以及可能存在上游特征暴露的问题。因此,我们将 RepGene 定位为一项可行性研究,以及迈向更强比较、更广泛基准测试和泄漏感知验证的起点。

基因可以通过多种异质性的生物学视角来表征,包括基因组序列、转录本序列、蛋白质序列、文本知识以及单细胞表达背景;然而,现有的基因嵌入在很大程度上仍然是模态特异性的,并且当许多视角不可用时,难以进行比较或复用。我们研究了一个更为聚焦但在实践中十分重要的问题:来自这些不同来源的预训练嵌入,是否能够被组织到一个共享的基因表示接口中,并且在模态严重缺失的条件下仍然可用。为研究这一问题,我们提出了 RepGene——一个轻量级的单分支框架,该框架结合了模态适配器、共享编码器、感知存在性的融合机制以及自监督跨视角目标,将五种生物学视角映射到同一潜在空间中。我们的目标并不是宣称一种新的多模态学习原理,或证明其优于所有更简单的融合策略,而是为检验在固定特征设定下此类共享接口是否可行,提供一个初步的技术实现。

在一个两阶段协议下,RepGene 首先在冻结的上游嵌入上进行自监督训练,随后通过下游线性探测进行评估;我们发现了初步证据表明,所学习到的表示在全模态设定下总体上具有较强竞争力,并且在推理阶段仅观察到部分模态子集时,仍然保持信息性。本研究中最强的信号在于其对视角缺失的鲁棒性:当移除一种模态时,平均性能变化通常较为有限;即使仅使用单一视角进行推理,在所评估的基准测试条件下,模型表现仍然并非微不足道。

这些结果并不能解决统一生物学表示学习问题,并且应当结合以下因素加以解读:对简单融合基线的覆盖不完整、有限的架构消融分析、对基准数据集的依赖,以及可能存在的上游特征暴露。因此,我们将 RepGene 定位为一项可行性研究,以及一个用于开展更强比较、更广泛基准测试和具备泄漏感知验证的起点。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.11.731512v1?rss=1

🏷️ 基因表征学习 多模态融合 缺失模态鲁棒性 自监督学习 基因嵌入 统一潜在空间