探索蛋白质二级结构基因型到表型映射的大尺度性质

root 提交于 周日, 06/28/2026 - 04:47
我们以植物病原体 `textit{P. palmivora}` 的一个 AVR3a 类蛋白效应子结构域为案例研究,利用大规模计算方法对蛋白质一级结构到二级结构的映射进行了表征。我们提出了一种修正的位点扫描方法,用于基于机器学习算法 Porter 5 的预测结果探索二级结构表型的中性组分,并将其应用于 AVR3a 表型。我们预测,在该效应子结构域内存在一组敏感位点,这些位点通常位于结构化区域的边界处或其附近;这些位点所允许的氨基酸残基受到 WT 中其所参与的二级结构类型的限制。我们对一组通过探索 WT 效应子结构域中性组分而获得的突变表型进行了表征,并对其进行选择,使其涵盖从极少见到极常见的二级结构范围,同时既包括与 WT 几乎相同的二级结构,也包括与 WT 相去甚远的二级结构。我们发现,所有这些多样化表型的估计鲁棒性都与 WT 处于同一数量级,并且这种鲁棒性随表型频率呈对数标度关系,这与其他基因型到表型映射中的观察结果一致。此外,我们观察到,估计表型频率对 Kolmogorov 复杂度的依赖关系表明,在蛋白质二级结构映射中存在简单性偏置。

我们以植物病原体 \textit{P. palmivora} 中一类 AVR3a 蛋白效应子结构域为案例,对蛋白质一级结构到二级结构映射开展了大规模计算表征研究。我们提出了一种经修正的位点扫描方法,用于基于机器学习算法 Porter 5 的预测来探索二级结构表型的中性组分,并将其应用于 AVR3a 表型。我们预测,在该效应子结构域内存在一组敏感位点,这些位点通常位于结构化区域的边界处或其附近;这些位点上可能出现的氨基酸残基受到其在野生型(WT)中所参与的二级结构类型的限制。我们表征了一组通过探索 WT 效应子结构域中性组分而获得的突变表型,并对其进行筛选,使其覆盖一个范围:既包括极少见和极常见的二级结构,也包括与 WT 几乎相同和与其相距甚远的二级结构。我们发现,所有这些多样化表型的估计鲁棒性都与 WT 处于同一数量级,并且这种鲁棒性随表型频率呈对数标度关系变化,这与其他基因型到表型映射中的观察结果一致。此外,我们还观察到,估计表型频率对 Kolmogorov 复杂度的依赖关系表明,在蛋白质二级结构映射中存在简单性偏置。

感谢您有兴趣帮助传播 bioRxiv 的内容。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.26.734756v1?rss=1

🏷️ 蛋白质二级结构 基因型-表型映射 机器学习预测 中性网络 鲁棒性 简单性偏置