早期人类发育胚样体模型的系统评价|||北京沫之东生物技术有限公司

4 次围观

近期生成的源自干细胞的类囊胚能够重现人类囊胚的结构与细胞组成，为阐明人类早期发育生物学提供了一种实验模型。为了评估类囊胚在模拟人类囊胚方面的保真度，我们首先通过整合与整理单细胞转录组数据，建立了人类囊胚细胞身份与谱系分化的参考图谱。

从囊胚形成到原肠胚形成阶段的人类早期胚胎发生研究，一直受到与人类胚胎研究相关的技术挑战和伦理问题的限制。

在此，我们致力于建立人类囊胚参考图谱资源，并开发了一套计算流程，用于评估当前最先进方案所生成的类囊胚在重现人类囊胚特征方面的质量。为此，我们通过整合围植入期发育阶段人类胚胎的单细胞转录组测序数据，构建了一个关于发育中人类囊胚细胞谱系与遗传程序的综合性细胞身份参考图谱。

构建胚胎样模型基准评价体系的第一步，是建立一套全面的人类胚胎细胞身份图谱。为建立这一参考图谱，我们开发了一条流程，通过迭代学习并整合多个人类胚胎单细胞RNA测序（scRNA-seq）数据集。

为校正……时间进程中的变异性，

我们利用UMAP对迭代集成学习的结果进行了可视化，并通过目视确认在不同发育时间点上三大谱系的细胞类型得到了良好分离。

为进一步验证我们的胚胎细胞身份参考图谱，我们利用参考图谱中大量的滋养外胚层细胞，解析支撑滋养外胚层发育的发育程序。

近年来，基于干细胞构建的囊胚样结构——类囊胚——的产生，为模拟人类早期发育开辟了新局面。

人类类囊胚生成方案汇总表。缩写：人诱导多能干细胞（hiPSC）、胚胎干细胞（ESC）、扩展多能干细胞（EPSC）、滋养外胚层（TE）、小鼠胚胎成纤维细胞（MEF）、下胚层分化培养基（HDM）、滋养层分化培养基（TDM）。

为准确鉴定类囊胚的细胞状态，我们利用胚胎参考图谱和层级细胞类型分类方法scClassify，将类囊胚中的单细胞归类为人类早期胚胎三大谱系之一（上胚层、下胚层或滋养层）。

我们的多尺度分类结果显示，多数方案中均存在相当大比例的低置信度细胞；其中大多数方案（H/TDM、N2B和PALLY）仅显示约40–55%的高置信度细胞，同时伴有相当比例的低置信度细胞。

我们从两个指标来定义细胞类型覆盖度：对三个谱系作出贡献的能力，以及重现细胞状态异质性的能力。我们测量了生成三个谱系的能力，其中每个谱系均包含五个或以上高置信度细胞。我们发现，除N2B类囊胚外，大多数类囊胚均能够生成全部三个谱系（

接下来，我们定义了两个用于测量细胞身份的指标：1）一个定量测量目标谱系与参考中对应谱系相似性的指标；2）一个测量某一谱系与其他谱系之间关系重现程度的指标（

与谱系特异性的细胞身份指标不同，后者用于量化胚胎参考中发现的某一给定细胞类型在类囊胚中被重现的程度；第二个指标则提供了关于某一细胞类型与另一细胞类型之间关系被捕捉得如何的信息。我们将这一指标称为“谱系间相似性”，以剖析胚胎参考中的谱系间结构在类囊胚中被模拟的程度（

由于与人类具有较近的系统发育关系并且相似，非人灵长类（NHP）是在获取人类胚胎材料受限情况下可用于胚胎研究的理想模型。因此，作为最终指标，我们评估了人类类囊胚是否表现出与非人灵长类胚胎谱系特征的相似性。我们整合了两种非人灵长类——食蟹猴和绒猴——的转录组学数据（

最后，我们总结了这四种人类类囊胚在这些基准评估指标上的结果（

尽管本研究的一项关键创新是生成

H.J.K.和P.Y.构思了该项目；H.J.K.构建了参考并在P.Y.和X.Z.的支持下开发了基准评估框架；H.J.K.在P.Y.、N.S.和H.H.的支持下分析了数据；H.J.K.和P.Y.撰写了手稿。所有作者均审阅、编辑并批准了手稿的最终版本。

作者声明不存在竞争性利益。

除非另有说明，scRNA-seq数据集的原始基因×细胞计数矩阵均从NCBI基因表达综合数据库（GEO）获取。所有数据集均与人类着床前及围着床期囊胚或

我们使用

为了建立高质量的人类胚胎细胞身份参考，我们设计了一个框架，以协调不同研究生成的数据集中的细胞谱系和发育阶段注释，从而最大化由此产生的

对于细胞谱系注释，我们通过利用三个具有预先注释细胞谱系标签的数据集（Petropoulos、Mole和Zhou1）生成初始参考，对未标注细胞进行了分类（

鉴于囊胚是在培养条件下获得的，我们认为有必要进一步同步发育阶段注释

我们开发了一种方法，用于动态识别每个数据集在协调化及发育阶段同步过程中所需的最佳迭代次数。由于某些数据集可能仅需对注释进行最小程度的改进，而另一些数据集则可能需要多次迭代，直至集成学习带来的收益趋于平台期，因此将最佳迭代次数定义为 scReClassify 概率开始趋于平台期时的拐点，这表明集成学习所带来的收益增幅开始放缓。我们拟合了广义加性模型（GAM）（

为了推导人类胚胎图谱中的细胞身份基因统计量，使用 Cepo 软件包（对标准化并经对数转换的细胞×基因计数矩阵进行了分析

为了构建支撑滋养外胚层发育的基因调控网络，我们首先依据发育进程将滋养外胚层样本划分为不同阶段。为无偏识别不同的发育阶段，我们利用 Cepo 推导的细胞类型特异性身份评分计算了差异性的累积和。通过比较相邻两个时间点之间差异性的变化，我们确定了三个不同阶段，其中差异性总和的变化小于 0.1。基于细胞身份谱的层次聚类进一步证实了滋养外胚层样本可分为这三个不同阶段，我们将其定义为“早期”“中期”和“晚期”。

接下来，我们从胚胎参考数据中提取了被鉴定为与滋养外胚层身份及发育相关的基因，方法是根据每个滋养外胚层样本的 Cepo 统计量选取排名前 20 的基因。利用这些基因，我们使用 igraph R 软件包构建了一个基因调控网络，其布局通过 Fruchterman-Reingold 布局算法计算得到（

本研究所评估的类囊胚方案的示意性总结亦见于

为了将单细胞转录组嵌入到共享潜在空间中，对于每个批次，首先将计数矩阵按总读取数进行标准化，然后乘以 10,000 的缩放因子。随后，通过方差稳定化转换确定前 2,000 个高变基因，并根据其在所有 scRNA-seq 批次中的方差进行优先排序。接着，利用互逆主成分分析得到的 30 维嵌入，识别不同单细胞转录组批次之间细胞两两配对的锚点对应关系（

为了准确识别类囊胚中与人类早期胚胎相对应的细胞状态，我们进行了多尺度分类，包括三个主要阶段：（i）三大谱系的分类；（ii）高置信度细胞的识别与筛选；（iii）最后，根据其相对于人类胚胎的发育阶段对细胞进行分类。

我们使用 scClassify 框架进行了细胞类型分类（

为推导人类胚泡样体数据集中的细胞身份基因统计量，使用以下方法对细胞-基因变量的计数矩阵进行归一化和对数转换

为系统性比较不同生成胚泡样体的方案在重现以下特征方面的保真度

利用序列的累积和来确定拐点，我们将其定义为序列中首次出现两个元素之差大于0.01的情况。

任何未通过该阈值的细胞均被视为低置信度，并从基准分析中排除。高置信度细胞的最终比例定义如下：

此前，我们已表明，基于Cepo统计量计算的细胞身份评分优于若干现有的标志基因检测工具，能够在大规模图谱数据中重建已知的层级谱系结构（

受限于猴数据的分辨率，我们比较了猴胚胎与胚泡样体之间较宽泛谱系层面的细胞身份（即上胚层、下胚层和滋养层）。为比较细胞身份，我们再次遵循了（3）和（4）中的Cepo框架。具体而言，我们通过选取每个谱系和物种中排名前500的细胞身份基因来获得非人灵长类细胞特征。利用所选细胞身份基因集合的交集，我们计算了胚泡样体与非人灵长类胚胎在各谱系中这些基因的Cepo统计量排序值之间的皮尔逊相关性（共165个基因）。总体评分通过对各谱系特异性评分取算术平均值得到。较高的相关性表示与非人灵长类胚胎具有更高的相似性，而较低的相关性则表示相似性较弱。

为实现不同指标类别之间评分的可比性，我们首先通过z分数变换对各个指标评分进行归一化，即通过平移和缩放使评分满足σ = 1且μ = 0。随后，我们进行了最小-最大标准化，将评分映射到[0,1]范围内。为对各方案进行排序，我们通过获取每个指标下各方案的排名，并进一步计算不同指标间排名的算术平均值来汇总评分。最后，使用funkyheatmap软件包对这些基准测试结果进行可视化，该软件包可实现类似热图的基准数据可视化（

我们感谢儿童医学研究所的同事们提出的建设性反馈。本研究得到澳大利亚国家卫生与医学研究委员会（NHMRC）研究员基金（1173469）以及授予P.Y.的Metcalf Prize资助。

📄 原文链接：https://www.biorxiv.org/content/10.1101/2024.07.11.603073

🏷️ 胚样体模型人类早期发育单细胞转录组参考图谱谱系分化干细胞

来源出处

早期人类发育胚样体模型的系统评价 https://www.biorxiv.org/content/10.1101/2024.07.11.603073