- 2 次围观
突变注释格式(Mutation Annotation Format,MAF)是肿瘤基因组学中体细胞变异数据的一种标准交换格式。将变异调用格式(Variant Call Format,VCF)文件转换为 MAF 需要进行功能注释(通过 Ensembl Variant Effect Predictor 等工具)以及复杂的等位基因标准化和字段映射逻辑处理。作为金标准实现的 vcf2maf 采用 Perl 编写;若将其转换为较新的编程语言并增加对并行处理的支持,则可提升其计算效率。本文介绍了 mafsmith,这是使用 Rust 实现的 vcf2maf。mafsmith 对 vcf2maf 的实现重新实现了 vcf2maf 的等位基因标准化和字段映射逻辑,并使用 fastVEP 进行注释,在涵盖生殖系、体细胞、结构变异以及注释数据库 VCF 的十五种经验证的调用器类型和格式上,实现了逐字段完全一致的输出。当两个工具均使用相同的 Ensembl VEP 注释缓存运行时,mafsmith vcf2maf 在 23 个比对至 GRCh38 或 GRCh37 的多样化数据集上,与 vcf2maf 相比产生 0 个转换差异。配套的 maf2vcf、vcf2vcf 和 maf2maf 子命令也在六个数据集上,针对其对应的 Perl 参考实现进行了类似验证。在总计包含 2750 万个变异的多个参考样本上的基准测试中,mafsmith 在预注释 VCF 的转换方面实现了约 80 倍的加速(范围为 74.3–84.1 倍),从而能够更快速且更低成本地将 VCF 转换为 MAF。mafsmith 以与 vcf2maf 相同的许可协议开源发布,地址为 https://github.com/nf-osi/mafsmith。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.12.724685v1?rss=1
🏷️ 肿瘤基因组学 体细胞变异 VCF转MAF 变异注释 Rust 并行计算