单细胞潜在表示中基因表达重建的基准评测|||北京沫之东生物技术有限公司

1次围观

单细胞转录组学通常在低维潜在表征中进行建模，以提高数据的信噪比。这类表征支撑着数据整合、细胞状态发现和扰动预测，其应用范围涵盖大规模器官图谱构建到潜在轨迹建模。近期的虚拟细胞方法进一步利用这些表征，将细胞响应预测为潜在空间中的分布迁移。这些应用最终都要求能够从潜在空间中忠实地重建基因表达，以实现生物学解释，并支持对预测的受扰动细胞或批次校正细胞进行基因层面的分析。然而，表征选择通常被视为实现细节，而非首要的建模决策，目前也缺乏对潜在表征支持基因表达重建能力的系统性评估。在此，我们提出 ReconEval，一个用于评估从单细胞潜在空间重建基因表达的基准。我们对两类潜在表征进行了基准测试：一类是端到端训练的模型，如 PCA、自编码器和变分自编码器；另一类是预训练的单细胞基础模型嵌入，并将其与新训练的解码器相结合。重建性能既在直接重建情形下评估，也在潜在空间扰动预测之后进行评估。在总计超过 1 亿个细胞的扰动型与观测型数据集中，我们的指标体系量化了统计保真度、生物学信号保持能力——包括差异表达、共表达、细胞周期结构、细胞因子响应和通路活性——以及扰动特异性效应。我们发现，在低维条件下，自编码器实现了最强的独立重建性能，而变分正则化并未改善重建任务中的泛化能力。冻结的基础模型嵌入保留了可恢复的基因层面信息，但重建质量强烈依赖于解码器架构和预训练目标。在潜在扰动建模中，高维 PCA 可与基础模型嵌入相匹配，而低维 AE 嵌入则是基于流的生成模型的最优选择。总体而言，重建性能关键取决于表征与下游模型之间的相互作用，而在具备适当容量的情况下，更简单的表征也可能优于复杂替代方案。我们的基准将重建确立为评估单细胞基础模型的一个关键维度。我们期望它能够提升潜在空间建模的生物学可解释性，而这正是未来虚拟细胞模型获得领域专家验证并扎根于生物学基础的前提。

本网站正在使用一项安全服务来保护自身免受在线攻击。您刚才执行的操作触发了该安全解决方案。可能触发此拦截的行为有多种，包括提交某些特定词语或短语、SQL 命令，或格式错误的数据。

您可以通过电子邮件联系网站所有者，告知其您已被拦截。请在邮件中说明该页面出现时您正在执行的操作，并附上本页底部显示的 Cloudflare Ray ID。

📄 原文链接：https://www.biorxiv.org/content/10.64898/2026.06.15.731445v1?rss=1

🏷️ 单细胞转录组基因表达重建潜在表征基准评测自编码器基础模型

来源出处

单细胞潜在表示中基因表达重建的基准评测 https://www.biorxiv.org/content/10.64898/2026.06.15.731445v1?rss=1