- 1次围观
下一词元预测在语言领域带来了可预期的规模化收益,但这一范式预设输入是一串具有有意义顺序的词元序列。单细胞 RNA 测序计数并不存在天然的基因排序,因此将这一范式直接应用于原始表达数据时,会因不适配的从左到右偏置而失效。于是,我们转而探问:一个学习得到的潜变量表示,是否能够提供这一范式所需的结构。 我们提出了 `\texttt{ExpressionVAE}`(eVAE),这是一种离散潜变量扰动模型。它通过有限标量量化(FSQ)瓶颈,将每个细胞压缩为一个由离散编码构成的短序列,并在这些编码之上训练一个以扰动为条件的离散先验模型。在 Replogle 和 Parse~1M 数据集上,eVAE 在所有分布指标上都达到了新的最优水平,并在大多数 cell-eval 扰动指标上领先;其 Fréchet 距离和 $\mathrm{MMD}^2$ 相较于最强的连续潜变量基线模型,约降低了 $3$ 到 $20\times$。 将先验模型在自回归与掩码式离散扩散之间替换后,性能几乎保持不变,这表明性能提升主要来源于离散潜变量本身,而非先验模型的类别。随后,对解码器头部的消融实验揭示了一个单一的设计维度——即推理时预测分布的丰富性——正是这一区分了两类标准指标:对方差敏感的指标与对均值敏感的指标,而二者会沿着这一维度朝相反方向变化。最后,在一个保留出的 CRISPRi 回复基准测试中,在炎症细胞因子应激条件下涵盖了 $1{,}732$ 种扰动;在该基准上,冻结的 eVAE 编码器在扰动排序任务中优于 UMAP 和差异表达分析,并以远少于 scGPT 所需的数据量,达到了与其相当的表现。
Jonathan Lees 的 ORCID 记录 摘要 信息/历史 指标 预览 PDF
摘要 下一词元预测在语言领域带来了可预期的规模化收益,但这一方法默认输入是具有有意义顺序的词元序列。单细胞 RNA-seq 计数并不存在天然的基因排序,因此将该方法直接应用于原始表达数据,会因不适配的从左到右偏置而失效。我们转而探讨:学习得到的潜在表示能否提供该方法所需的结构。我们提出了 `ExpressionVAE`(eVAE),这是一种离散潜变量扰动模型:它通过有限标量量化(FSQ)瓶颈将每个细胞压缩为一段短的离散码序列,并在这些代码上训练一个以扰动为条件的离散先验。在 Replogle 和 Parse~1M 数据集上,eVAE 在所有分布度量指标上都创下了新的最优结果,并在大多数 cell-eval 扰动指标上领先;其 Fréchet 距离和 $\mathrm{MMD}^2$ 相较于最强的连续潜变量基线,大约降低了 $3$ 到 $20\times$。在自回归与掩码离散扩散两种先验之间进行替换后,性能几乎完全一致,这表明性能提升来自离散潜变量本身,而非先验模型家族。随后,对解码器头部进行消融实验揭示了一个单一的设计维度——即推理时预测分布的丰富性——它将标准指标分为两组:对方差敏感的指标和对均值敏感的指标,而这两组指标会沿该设计维度朝相反方向变化。最后,在一个留出的 CRISPRi 回复基准上——该基准包含炎性细胞因子应激条件下的 $1{,}732$ 个扰动——冻结的 eVAE 编码器在扰动排序任务上优于 UMAP 和差异表达方法,并以仅需其一小部分数据的代价达到与 scGPT 相当的表现。
利益冲突声明 版权 该预印本的。 本文依据 CC-BY-NC 4.0 国际许可协议 提供。
返回顶部 上一页 下一页 发布于 2026 年 6 月 18 日。
下载 PDF 电子邮件 感谢您帮助传播 bioRxiv 的内容。 您的电子邮件 * 您的姓名 * 发送至 * 请输入多个地址,每行一个,或用逗号分隔。
您将通过电子邮件发送以下内容 用于单细胞扰动预测的生成模型设计空间阐明
邮件主题 (您的姓名)已从 bioRxiv 转发一个页面给您
邮件正文 (您的姓名)认为您会希望查看 bioRxiv 网站上的这个页面。
您的个人留言
验证码 此问题用于测试您是否为人类访问者,并防止自动垃圾信息提交。
分享 用于单细胞扰动预测的生成模型设计空间阐明 Sanjukta Bhattacharya , Christian Gensbigler , Shaamil Karim , Jonathan Lees bioRxiv 2026.06.15.732063; doi: https://doi.org/10.64898/2026.06.15.732063
分享本文: 复制
引文工具 用于单细胞扰动预测的生成模型设计空间阐明 Sanjukta Bhattacharya , Christian Gensbigler , Shaamil Karim , Jonathan Lees bioRxiv 2026.06.15.732063; doi: https://doi.org/10.64898/2026.06.15.732063
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.15.732063v1?rss=1
🏷️ 单细胞RNA测序 扰动预测 生成模型 变分自编码器 离散潜变量 CRISPRi