- 3 次围观
人类着床前胚胎中频繁获得基因组异常是妊娠丢失的主要原因,但这并不必然阻止健康后代的出生。然而,基因组异常对人类早期胚胎细胞状态及发育的影响在很大程度上仍不清楚。在此,我们对人类着床前胚胎中的非整倍体进行表征并重建基因调控网络,且利用单细胞基因组与转录组联合测序(G&T-seq)研究由非整倍体引发的基因表达与发育扰动。在基因组层面,我们表明,获得性的染色体数目和结构异常在早期胚胎发生的所有阶段以及所有细胞谱系中均普遍存在。在转录组层面,我们鉴定出细胞身份的调控因子,并揭示了由10个主要基因调控模块构成、包含248个转录因子的网络,该网络刻画了人类着床前胚胎的不同谱系。通过整合单细胞DNA与RNA信息,我们揭示了在人类着床前发育过程中,胚胎细胞中相应基因的缺失或增加如何影响其表达水平,以及拷贝数异常的转录因子基因如何扰动整倍体区域中其对应靶基因的表达。此外,我们发现大多数非整倍体细胞表现出发育延迟和适应性下降,这提示嵌合性二倍体-非整倍体胚胎内部存在细胞竞争,该过程可能有助于选择性清除非整倍体细胞,并促使嵌合性二倍体-非整倍体胚胎产生健康后代。总之,我们的多模态分析为人类早期胚胎发育提供了前所未有的见解。
着床前胚胎发生包括生命最初的几轮细胞周期,这是一个重要的7天时期,在此期间,具有全能性的受精卵产生最初分化的细胞类型,以实现子宫着床和个体发育。理解这一阶段对于辨明不孕、着床失败和自然流产的原因,以及发育障碍,至关重要。尽管这似乎有悖直觉,人类着床前胚胎却极易发生染色体不稳定性(CIN),不仅在……之后如此
获得性的染色体和/或片段性非整倍体——以下统称为(片段性)非整倍体——不仅可导致着床失败和自然流产
来自哺乳动物细胞系和酵母的研究
近年来,低输入和单细胞技术的进步为研究常呈嵌合状态的人类胚胎中的基因表达变化提供了机会,这类胚胎由(片段性)非整倍体细胞和整倍体细胞共同组成。一项研究通过将胚胎细胞分配用于基因组分析,或将其他细胞用于基因表达分析,对发育至桑椹胚阶段的人类胚胎进行了研究,并报道了在4细胞至8细胞阶段胚胎基因组激活(EGA)之前,含有非整倍体的胚胎的基因表达特征。
在此,我们对人类植入前胚胎的同一单个细胞应用基因组与转录组联合测序(G&T-seq),以研究早期胚胎发生过程中(片段性)非整倍体的细胞生物学。我们发现,常染色体DNA的增加与缺失会导致基因剂量效应。
为在植入前发育过程中以单细胞分辨率研究整个胚胎的DNA和RNA,我们采用单细胞G&T测序(scG&T-seq)分析了来自112个人类胚胎的756个单细胞,这些胚胎涵盖了受精后第一周。
利用DNA拷贝数分析,我们将基因组分为四类:1)正常;2)非整倍体(即一条或多条染色体发生缺失或增加,并可伴有额外的片段性异常);3)片段性非整倍体(即仅染色体片段发生缺失或增加);4)混乱型(包括超过一半常染色体存在片段性拷贝数异常)(方法,
随后,我们研究了来源于scG&T的576个细胞的转录组(
我们预期非整倍体细胞中的基因表达会受到强烈扰动。然而,二倍体细胞与非整倍体细胞在聚类后并未彼此分离(
为进一步审视(片段性)非整倍体在人类胚胎中的潜在功能影响,我们首先重建了人类植入前发育的基因调控网络。基因调控网络(GRN)决定细胞身份及命运转变。我们使用pySCENIC,这是一种结合基因与转录因子(TF)共表达以及顺式调控基序分析、以推断每个细胞中GRN活性的方法。
为预测哪些TF可能驱动人类植入前胚胎发生中的细胞身份,我们为每个谱系中的每个调控子分配了特异性评分,并按照特异性由高到低对调控子进行排序。
尽管大多数基因组异常细胞的转录组在聚类后与二倍体细胞一致(
随后观察到的DGDE促使我们对基于scRNA-seq数据推断胚胎中(片段性)非整倍体的方法进行优化和基准评估,并以同一单个细胞的DNA测序结果作为真实标准(
总之,尽管(片段性)非整倍体会导致直接基因剂量效应,但其幅度取决于非整倍体的性质(增加的效应高于缺失)以及胚胎的发育阶段(在E3和E5-6期强于其他阶段)。这些DGDE使CNV推断成为可能,且在胚胎基因组激活后(post-EGA)表现最佳,并且这种效应因基因而异。
当TF基因发生缺失或重复时,反过来可能影响其二倍体靶基因的表达,这一过程我们称为TF基因的“间接基因剂量效应”(IGDE),并会扰乱基因调控网络。我们开发了一种用于单细胞IGDE分析的方法(
鉴于非整倍体可能导致直接和间接的基因剂量效应,我们进一步研究了其对谱系决定和发育进程的影响。首先,我们考察了胚胎细胞的物理年龄——即自受精以来的胚胎发育天数——相对于其在转录轨迹上的分子伪时间年龄。重要的是,这表明二倍体细胞,尤其是在 E3、E4、E5 和 E7 阶段,往往在发育进程上更为超前,而非整倍体细胞通常在伪时间上表现出滞后(
总之,我们表明,获得性(节段性)非整倍体会导致胚胎内细胞在分子定义的发育年龄上呈现异质性,其中细胞间基因组异常的差异通常与发育延迟相关,而在少数情况下则与发育加速相关。
为了将直接和间接的基因剂量效应与非整倍体细胞中观察到的发育延迟相统一,我们接下来通过比较着床前胚胎基因组激活前(pre-EGA)、胚胎基因组激活后(post-EGA)、内细胞团(ICM)和滋养外胚层(TE)中二倍体与非整倍体细胞之间的差异基因表达、差异调控子活性以及差异基因集表达分析(分别简称为 DGE、DRE 和 DGSE),研究细胞对(节段性)非整倍体的响应(
与其发育延迟表型一致,基因表达特征表明,在胚胎基因组激活之后的所有细胞谱系中,非整倍体细胞的适存性均较低(
未折叠蛋白反应(UPR)是由内质网(ER)中未折叠或错误折叠蛋白增加所触发的,代表细胞为恢复内质网稳态而启动的一种生存应答。
最后,在非整倍体滋养外胚层细胞中检测到了提示促增殖和抗增殖细胞表型同时存在的基因表达特征(
重要的是,我们的基因表达分析表明,人类着床前胚胎中的非整倍体细胞自 EGA 之后即逐渐形成一种适存性较差的细胞表型,这进一步佐证了其在转录组伪时间上的发育延迟。
在单细胞水平研究人类着床前胚胎基因表达的工作,通常仅基于转录组分析,并且经常忽视其对染色体不稳定性的极高易感性。
整合 DNA 和 RNA 测序分析表明,直接基因剂量效应在人类胚胎细胞中于 EGA 时启动,其效应大小随后取决于发育阶段。令人惊讶的是,这些直接基因剂量表达效应(DGDE)通常比依据受影响基因的 DNA 拷贝数所预期的程度更为温和。在一种模型中,新近获得的 DNA 缺失区域内基因的 DGDE 大小会被低估,因为这些基因的转录本可从二倍体前体细胞中遗传而来。然而,在另一种模型中,剂量补偿也可能导致 DNA 缺失所产生的 DGDE 较为温和。
在基因表达调控中,转录因子(TF)通常编码于与其靶基因不同的染色体上。
接下来,我们研究了由非整倍体诱导的直接和间接基因表达剂量效应如何影响胚胎中非整倍体细胞的发育进程。首先,我们比较了细胞受精后的年龄与其在转录组轨迹上的拟时年龄。值得注意的是,与整倍体细胞相比,非整倍体细胞在发育过程中往往出现滞后,这提示随着基因组异常的获得,细胞适应性下降。这一点确实得到了基因表达特征的支持:EGA之后,非整倍体细胞中与(线粒体)核糖体生物发生、翻译、能量稳态及增殖受损相关的信号明显存在。该基因表达特征还得到了其他研究的进一步佐证,这些研究利用单细胞单模态RNA测序,考察了主要处于囊胚期的人类胚胎中非整倍体的后果。
随后,我们探究了何种分子机制可能触发细胞竞争的发生。近期研究表明,核糖体蛋白(Rp)基因可作为(节段性)非整倍体的感受器。
细胞竞争的其他起始因素也已被鉴定。例如,线粒体功能障碍会在小鼠上胚层细胞中触发细胞竞争。
总之,我们的多模态分析揭示了人类发育第一周的新见解。我们提供了一个独特而全面的资源,涵盖驱动着床前胚胎发育的转录因子及基因调控网络,以及这些过程如何受到染色体不稳定性(CIN)的扰动,并进一步可能如何导致嵌合型人类胚胎内部发生细胞竞争。
用于研究的冷冻保存胚胎取自在鲁汶大学生殖中心(LUFC)接受体外受精(IVF)并伴有或不伴有植入前遗传学检测(PGT)的夫妇所捐赠的胚胎。本研究所用胚胎在合子期(E1——具有2个原核和2个极体)或卵裂期(E3——若具有足够的形态学质量)进行冷冻保存。
冷冻保存胚胎按照Vit Kit®-Thaw(Irvine Scientific)生产商说明进行复苏。复苏后,每枚胚胎在Universal GPS®培养皿(LifeGlobal)的一个孔中培养5小时至48小时,孔内含40µl GM501培养基(Gynemed),覆盖矿物油(Gynemed),培养条件为37°C、6% CO2、pH 7.25–7.35,并置于时差培养箱(ASTEC Penguin incubator)中。合子培养用于获得E1、E2和E3胚胎;卵裂期胚胎培养用于获得E3、E4和E5胚胎;囊胚培养用于获得E5、E6和E7胚胎。由于手工单细胞解离的操作要求,胚胎的复苏和培养安排为同一天最多解离8枚E1-2胚胎、4枚E3-4胚胎和1枚E5-7胚胎。
进行解离时,每枚胚胎从培养基中取出,置于40µl预温的Ca中。
单细胞按照G&T-seq方案进行处理。
通过局部读段深度分析估计DNA拷贝数变异,具体方法如前所述。
经G&T-seq处理细胞的RNA-seq文库获得了中位数为1.47M的唯一比对读段,平均每个细胞检测到10354个基因。
为确定时序性表达基因,我们将广义加性模型(general additive model,GAM;gam 1.16.1)应用于标准化计数数据。在此,细胞根据两条 slingshot 伪时间轨迹被划分为两个集合(以两条线可视化于
为进行细胞类型判定,首先基于 regulon AUC 矩阵并使用 clustree(0.4.0)对细胞进行聚类。在此,我们依据已知标志基因的表达来识别各簇可能归属的谱系(Epiblast 对应 NANOG,primitive endoderm 对应 SOX17,trophectoderm 对应 GATA3,等等)。随后,我们在所选簇之间进行了差异基因表达分析(Seurat 3.0.2),并筛选出在各簇中高度上调的基因以及在各簇中不存在的基因,以构建注释文件。将该注释文件与原始计数矩阵一并输入自动细胞类型分类程序 Garnett(0.1.4),以执行细胞类型分类(
为比较正常与异常拷贝数的基因表达分布,以每个伪时间分箱中整倍体细胞的基因表达中位数为参照,对标准化基因表达中位数进行了中心化处理(
我们使用 Velocyto Python 软件包(v0.17.17)生成内含子和外显子读取计数,并将内含子读取比例定义为每个细胞中内含子计数占总计数的比值。
我们使用多组学 G&T 数据对 inferCNV 推断得到的拷贝数判定结果进行了基准评估。我们直接利用 scG&T 数据中基于 DNA 的拷贝数判定作为真实值来评估该方法。我们将以碱基为单位的真阳性率和真阴性率分别定义为:基于 DNA 测序判定为非整倍体或二倍体的片段中,被基于 scRNA 的 InferCNV 判定结果正确重现的比例(
当染色体臂中拷贝数状态 ≠ 2 的区域所占比例超过 60% 时,便将该染色体臂(不包括近端着丝粒染色体 13–15 和 21–22 的短臂)归类为异常。该阈值通过在 G&T 数据上进行优化得到,方法是如上所述计算真阳性、真阴性、假阳性和假阴性率,但在染色体臂水平上进行。我们还计算了精确率、召回率和 F1 分数,结果表明将染色体臂中 60% 的区域作为异常判定阈值是最优的。在该阈值下,我们观察到 EGA 后 DNA 与 RNA 基于染色体臂水平拷贝数判定结果之间达到最佳一致性,且细胞分类的精确率和召回率分别为 0.71 和 0.77(
为计算转录因子非整倍体拷贝数状态对下游二倍体靶基因的剂量效应,我们首先按照“Regulon Analysis”一节所述的方法,确定了每个转录因子调控子中的下游靶基因。对于每个拟时序分位数,我们检验了在该拟时序分位数内,携带转录因子扩增或缺失的细胞与同一拟时序分位数内二倍体细胞相比,其靶基因经中位数中心化后的表达分布是否存在差异(如“Direct gene dosage effect analysis”所述)。我们仅对那些在该分位数内观察到至少10个细胞携带相应转录因子扩增或缺失的转录因子进行检验。为检验总体间接基因剂量敏感性,我们使用 Fisher’s Omnibus 检验合并扩增和缺失的 p 值,并采用 Benjamini-Hochberg 方法校正多重比较导致的假发现率膨胀。
二倍体与非整倍体细胞之间的差异表达基因按拟时序分位数和注释谱系分别确定。相关分析使用 Seurat 中的 FindMarkers 函数,采用“MAST”方法,logfc 阈值设为 0.05,min.pct 阈值设为 0.5。在注释谱系中进行差异表达基因检验时,拟时序作为模型中的潜变量纳入。多重检验校正通过 R 中的 p.adjust 函数,采用 Benjamini-Hochberg 方法对 p 值进行调整。对于 −log10(pvalue)
为确定并分类相关的失调功能,我们在胚胎发育、非整倍体、应激反应、增殖和凋亡的背景下,对每个基因进行了基因本体分析(GO)以及人工文献整理。
本研究已获得鲁汶大学医院/鲁汶大学伦理委员会(S58250,S65358)以及比利时胚胎研究联邦委员会(ADV_62,ADV_089)的批准。
T.V. 和 V.P. 构思了本研究。E.F.G. 在 A.K. 的协助下开展了胚胎实验。A.S.、J.C. 和 J.D. 在 J.C.H.、R.V.、M.V.d.H. 和 S.V. 的协助下进行了计算分析;J.V.H.、I.C.M. 和 T.V. 开发并建立了自动化 G&T-seq 及基础分析框架。S.D. 和 K.P. 协调并监督了捐赠用于研究的胚胎的复温。K.V. 协助了研究管理工作。E.F.G.、A.S.、J.C.、J.D.、V.P.、J.C.H.、R.V.、J.R.V. 和 T.V. 对数据进行了解释。E.F.G.、A.S.、J.C.、J.D.、V.P. 和 T.V. 撰写了手稿。所有作者均阅读并批准了手稿。
T.V. 和 J.R.V. 是已授权专利 WO/2011/157846(单细胞单倍型分型方法)、WO/2014/053664(通过对少量遗传物质进行测序实现高通量基因分型)以及 WO/2015/028576(利用多态变异等位基因频率进行单倍型分型和拷贝数分型)的共同发明人。
E.F.G. 是佛兰德研究基金会(FWO)的博士研究员。J.D. 是 FWO 的博士后研究员。T.V. 实验室与本研究相关的工作得到了佛兰德研究基金会(FWO;G081318N;G0C6120N;G088621N)、鲁汶大学(KU Leuven;SymBioSys - C14/18/092;C14/22/125;IDN/19/039)、基础设施资助(Hercules 基金会 1 类资助——AKUL/13/41;抗癌基金会项目 2015-143;以及 FWO I001818N)以及欧盟“地平线 2020”研究与创新计划(资助协议编号 824110——EASI-Genomics)的支持。Pasque 实验室的研究得到了佛兰德研究基金会(FWO)(授予 V.P. 的 Odysseus Return Grant G0F7716N;授予 V.P. 的 FWO 项目 G0C9320N 和 G0B4420N)以及鲁汶大学研究基金(授予 V.P. 的 BOFZAP 启动基金 StG/15/021BF、C1 项目 C14/16/077 及项目经费)的支持。
📄 原文链接:https://www.biorxiv.org/content/10.1101/2023.03.08.530586
🏷️ 着床前胚胎 非整倍体 染色体不稳定性 单细胞多组学 基因调控网络 细胞竞争