蛋白质结构域二元模型的统一平滑框架

root 提交于 周五, 06/19/2026 - 14:47
生物分子序列可以表示为某一字母表上的字符串,这一类比促使计算语言学技术在生物学问题中的诸多应用。然而,这类方法必须针对生物分子数据在规模与组织方式上的特征进行调整。在此,我们考虑多结构域蛋白质架构中的二元组平滑问题;在该问题中,结构域二元组频率数据极其稀疏,并且在字母表大小、字符串长度分布、二元组频率与一元组频率之间的关系、串联重复长度以及结构域邻接分布等方面不同于文本数据。此外,某些结构域组合之所以未被观测到,是因为它们在生物学上不相容;而另一些则是由于数据不完整所致。因此,需要一种能够区分这两种情况的平滑方法。 我们提出了一个基于插值的统一平滑框架,该框架可以进行调节,以适应不同二元组数据特征。在这一框架内,我们设计了适用于蛋白质结构域二元组数据的特定模型变体:这些变体对可能不相容的结构域对赋予较低的调整计数,同时对采样不足的结构域对进行适当调整。我们的实证结果表明,该方法能够区分这两种情况,同时保留多结构域数据的特征性标记。

durand{at}cmu.edu

摘要

信息/历史

指标

补充材料

数据/代码

预览 PDF

摘要

生物分子序列可以表示为某个字母表上的字符串,这一类比促使计算语言学技术在生物学问题中的诸多应用。然而,这类方法必须适应生物分子数据在规模和组织方式上的特征。在此,我们考虑多结构域蛋白质架构中的二元组平滑问题,其中结构域二元组频率数据极其稀疏,并且在字母表大小、字符串长度分布、二元组频率与一元组频率之间的关系、串联重复长度以及结构域邻接分布等方面都不同于文持有人为作者/资助方,其已授予 bioRxiv 永久展示该预印本的许可。

本文依据 CC-BY-NC 4.0 国际许可协议 公开提供。

返回顶部

上一项

下一项

发布于 2026 年 6 月 18 日。

下载 PDF

补充材料

数据/代码

电子邮件

感谢您有兴趣传播 bioRxiv 的内容。

您的电子邮件

*

您的姓名

*

发送至

*

请输入多个地址,每行一个,或用逗号分隔。

您将要发送以下内容

蛋白质结构域二元组模型的统一平滑框架

邮件主题

(您的姓名)已从 bioRxiv 向您转发了一个页面

邮件正文

(您的姓名)认为您会希望查看 bioRxiv 网站上的此页面。

您的个人留言

验证码

此问题用于测试您是否为人类访客,并防止自动垃圾信息提交。

分享

蛋白质结构域二元组模型的统一平滑框架

Xiaoyue Cui , Gautam Iyer , Dannie Durand

bioRxiv 2026.06.14.732219; doi: https://doi.org/10.64898/2026.06.14.732219

分享本文:

复制

引文工具

蛋白质结构域二元组模型的统一平滑框架

Xiaoyue Cui , Gautam Iyer , Dannie Durand

bioRxiv 2026.06.14.732219; doi: https://doi.org/10.64898/2026.06.14.732219


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.14.732219v1?rss=1

🏷️ 蛋白质结构域 二元组平滑 统一插值框架 多结构域蛋白 稀疏数据建模 生物序列分析