错义变异的解释仍然是临床基因组学中的核心挑战。尽管错义致病性预测器已取得较强的性能,但其中许多方法更强调蛋白质层面的后果或彼此重叠的注释先验。基因组语言模型是否能够为错义变异解释提供非冗余的核苷酸上下文信号,仍不明确。在本研究中,我们围绕骨干架构、表征策略、分类器头以及适配方案,系统性地将基因组语言模型应用于 ClinVar 错义致病性预测。在我们的分析中,变异位点嵌入始终优于池化序列表征;多物种预训练在骨干层面提供了最显著的优势;而低秩适配比全量微调表现出更好的泛化能力。最终得到的微调模型 GLM-Missense,显著优于基于同一预训练模型的零样本评分。
为检验 GLM-Missense 是否在现有方法之外提供了额外信息,我们构建了 MetaMissense,这是一个将 GLM-Missense 与 AlphaMissense、ESM1b、REVEL、CADD、SIFT 和 PolyPhen-2 相结合的 XGBoost 集成模型。GLM-Missense 与其他预测器的一致性最低;在控制其他预测器后,它与致病性之间仍保留最强的偏关联;并且在 MetaMissense 中被评为信息量最大的非集成输入。MetaMissense 在交叉验证和留出测试中均取得了最佳性能。对那些被 GLM-Missense 正确分类、但被多个既有预测器误分类的变异所进行的分析表明,存在两种模式。第一,GLM-Missense 信号的一部分可能反映了与剪接相关的外显子上下文。第二,在其他预测器可能过度依赖等位基因频率、基因层面约束或氨基酸改变严重程度的情形下,GLM-Missense 似乎能够提供额外价值。然而,这些特征仅能解释 GLM-Missense 正确分类子集与背景之间差异的大约 10%。总体而言,我们的结果表明,经过微调的基因组语言模型可为错义变异解释提供互补性的核苷酸上下文信息。
📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.05.06.723362v1?rss=1
🏷️ 错义变异 基因组语言模型 致病性预测 临床基因组学 模型微调 集成学习