用于RNA结构预测泛化能力评估的同源性感知交叉验证策略

root 提交于 周二, 06/30/2026 - 20:47
RNA二级结构预测是生物信息学中的一项基础性挑战,对于理解非编码RNA的功能作用至关重要。近年来,深度学习模型以令人瞩目的成果改变了这一领域,并引发了关于当前交叉验证策略有效性的关键讨论。一方面,传统的随机划分由于未受控制的同源性所导致的数据泄漏,会产生过于乐观的结果。另一方面,将训练集中所有与测试序列存在哪怕最轻微相似性的序列全部移除,又会对基于学习的方法造成不利影响,因为这要求模型泛化到完全分布外的序列。尽管移除序列并重新训练一个机器学习模型非常简单,但要去除那些用于参数调优的实验数据以及用于经典热力学方法开发的序列却极其困难。因此,这些方法往往会从一种隐性的知识泄漏中获益。 在这项工作中,我们对现有的RNA二级结构预测交叉验证策略进行了批判性回顾:随机划分、基于聚类的划分,以及留出一个RNA家族用于测试。我们分析了每种策略的优势与局限,同时进一步探讨其未来发展方向,以确保在整个序列相似性范围内进行公平比较,并对经典方法与基于学习的方法采用同样严格的评估标准。

用于RNA结构预测中泛化评估的同源性感知交叉验证策略 | bioRxiv

跳转至主要内容

首页 关于 投稿 提醒 / RSS 搜索此关键词 高级搜索 最新结果

用于RNA结构预测中泛化评估的同源性感知交叉验证策略

Leandro Bugnon, Guillermo Kulemeyer, Matias Gerard, Leandro Di Persia, Georgina Stegmayer, Diego H Milone

doi: https://doi.org/10.64898/2026.06.28.735057

Leandro Bugnon sinc(i), UNL-CONICET 在 Google Scholar 上查找此作者 在 PubMed 上查找此作者 在持有人为作者/资助方,其已授予 bioRxiv 许可,允许其永久展示该预印本。 本文依据 CC-BY 4.0 国际许可协议 提供。

返回顶部

上一篇 下一篇

发布于 2026 年 6 月 29 日。

下载 PDF 数据/代码 电子邮件

您的电子邮件 *

您的姓名 *

发送至 *

请输入多个地址,每行一个,或用逗号分隔。

您将要通过电子邮件发送以下内容

用于RNA结构预测中泛化评估的同源性感知交叉验证策略

消息主题

(您的姓名)已从 bioRxiv 转发一个页面给您

消息正文

(您的姓名)认为您可能希望查看 bioRxiv 网站上的这个页面。

您的个人消息

验证码

此问题用于测试您是否为人工访客,并防止自动化垃圾信息提交。

分享

用于RNA结构预测中泛化评估的同源性感知交叉验证策略

Leandro Bugnon, Guillermo Kulemeyer, Matias Gerard, Leandro Di Persia, Georgina Stegmayer, Diego H Milone

bioRxiv 2026.06.28.735057; doi: https://doi.org/10.64898/2026.06.28.735057

分享本文: 复制

引用工具

用于RNA结构预测中泛化评估的同源性感知交叉验证策略

Leandro Bugnon, Guillermo Kulemeyer, Matias Gerard, Leandro Di Persia, Georgina Stegmayer, Diego H Milone

bioRxiv 2026.06.28.735057; doi: https://doi.org/10.64898/2026.06.28.735057


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.28.735057v1?rss=1

🏷️ RNA二级结构预测 交叉验证 同源性控制 泛化评估 深度学习 非编码RNA