Metadata Collector:用于多中心测序项目中标准化元数据管理的开源平台

root 提交于 周一, 06/08/2026 - 02:47
背景:新一代测序(NGS)项目产生的元数据日益复杂,而这些元数据对于可重复性、互操作性以及遵循 FAIR 原则至关重要。尽管如此,在多机构协作环境中,元数据整理通常仍依赖电子表格、手动数据录入与整理,以及非标准化术语。这些做法往往导致注释不完整或不一致,阻碍元数据共享,并延迟向公共数据库的提交。 结果:我们开发了 Metadata Collector,这是一个基于 React/API/PostgreSQL 的 Web 平台,并将其部署于德国某大型研究联盟内的 Kubernetes 集群中。该平台为实验数据实现了灵活、机器可读的元数据模型,并集成了可定制模板、旨在支持未来本体整合的受控词表,以及完整的基于事件的版本控制模型。自部署以来,Metadata Collector 已被应用于 32 个项目,涵盖 RNA-seq、scRNA-seq、ATAC-seq 和多组学数据集,包含由联盟多个合作方贡献的 700 余个已注释样本。该平台面向非计算研究人员以及集中式平台设施设计,并可集成到现有的科研数据管理基础设施中。 结论:Metadata Collector 在元数据生命周期的早期即嵌入标准化,从而确保分布式研究团队之间元数据的一致性、符合 FAIR 原则以及可重复性。其模块化、开源的体系结构同时支持本地部署和联盟规模部署,并为未来扩展奠定了基础,包括多组学支持以及与实验室信息管理系统和自动化提交流水线的集成。

背景:下一代测序(NGS)项目会产生日益复杂的元数据,这些元数据对于可重复性、互操作性以及遵循 FAIR 原则至关重要。然而,在多机构协作环境中,元数据整理通常仍依赖电子表格、手动数据录入与整理,以及非标准化术语。这些做法往往会导致注释不完整或不一致,阻碍元数据共享,并延迟向公共数据库的提交。

结果:我们开发了 Metadata Collector,这是一个基于 React/API/PostgreSQL 的网络平台,并将其部署在德国某大型研究联盟的 Kubernetes 集群中。该平台为实验数据实现了一种灵活、机器可读的元数据模型,并集成了可定制模板、旨在支持未来本体集成的受控词汇,以及完整的基于事件的版本控制模型。自部署以来,Metadata Collector 已被应用于 32 个项目,涵盖 RNA-seq、scRNA-seq、ATAC-seq 和多组学数据集,共涉及 700 余个已注释样本,这些样本由联盟内多个合作伙伴提供。该平台既适用于非计算背景研究人员,也适用于集中式服务平台,并可集成到现有的科研数据管理基础设施中。

结论:Metadata Collector 在元数据生命周期的早期即嵌入标准化机制,从而确保分布式研究团队之间元数据的一致性、符合 FAIR 原则以及可重复性。其模块化的开源架构同时支持本地部署和联盟规模部署,并为未来扩展奠定了基础,包括支持多组学以及与实验室信息管理系统和自动化提交流水线的集成。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.05.730314v1?rss=1

🏷️ 元数据管理 高通量测序 FAIR原则 科研数据标准化 多中心协作 开源平台