GENE-FAM:用于挖掘基因家族的自动化流程及其在大麻MADS-box基因中的应用

root 提交于 周二, 06/16/2026 - 08:47
理解基因家族如何进化,能够为表型和生态水平上的适应性提供重要见解。这一点在植物中尤为如此,因为转录因子基因家族常常是育种项目的靶标,用于改良具有经济重要性的作物的农艺性状。尽管新一代测序技术的最新进展加速了基因组学数据的积累,但目前仍缺乏针对基因家族表征、兼具可获取性与可重复性的基因组挖掘流程。在此,我们通过开发GENE-FAM来填补这一空白。GENE-FAM是一种自动化、可扩展且开源的流程,旨在基于保守结构域和基序对基因家族进行挖掘与预测。为展示其应用,我们将GENE-FAM用于多个大麻(Cannabis sativa)基因组中MADS-box转录因子基因的注释。 在三个C. sativa栽培品种中,我们鉴定出一套完整的MADS-box基因集合,其中既包括先前已注释的基因,也包括新预测的基因。通过系统发育分析,我们证实开花植物中已有代表的所有II型MADS-box基因亚家族均存在于C. sativa中。将我们的注释结果与拟南芥(Arabidopsis thaliana)和番茄(Solanum lycopersicum)的注释进行比较后发现,尽管大多数MADS II型家族高度保守,但SEPALLATA样基因在C. sativa中发生了分化。综上,这些结果表明,GENE-FAM可用于非模式物种中基因家族的全基因组鉴定与表征,并揭示了C. sativa中MADS-box基因家族进化的新见解。

理解基因家族如何进化,能够为表型和生态层面的适应性提供重要见解。这一点在植物中尤为显著,因为转录因子基因家族常常成为育种计划的目标,以改良具有经济重要性的作物的农艺性状。尽管近年来下一代测序技术的发展加速了基因组学数据的积累,但目前仍缺乏面向基因家族特征解析、兼具可获取性与可重复性的基因组挖掘流程。在此,我们通过开发 GENE-FAM 来填补这一空白。GENE-FAM 是一个自动化、可扩展且开源的流程,旨在基于保守结构域和基序对基因家族进行挖掘与预测。

为展示其应用,我们将 GENE-FAM 用于多个大麻(Cannabis sativa)基因组中 MADS-box 转录因子基因的注释。在三个 C. sativa 栽培品种中,我们鉴定出一套完整的 MADS-box 基因集合,其中既包括先前已注释的基因,也包括新预测的基因。通过系统发育分析,我们证实开花植物中所有已知的 II 型 MADS-box 基因亚家族在 C. sativa 中均有存在。将我们的注释结果与拟南芥(Arabidopsis thaliana)和番茄(Solanum lycopersicum)的注释进行比较后发现,尽管大多数 MADS II 型家族高度保守,但 SEPALLATA-like 基因在 C. sativa 中发生了分化。综上,这些结果表明,GENE-FAM 可用于非模式物种中基因家族的全基因组范围鉴定与特征解析,并揭示了 C. sativa 中 MADS-box 基因家族进化的新见解。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.10.731441v1?rss=1

🏷️ 基因家族挖掘 自动化流程 MADS-box转录因子 大麻基因组 系统发育分析