用RDiffusion解锁你的可编程且富有创造力的RNA序列设计器

root 提交于 周日, 06/14/2026 - 18:47
作为中心法则的基石,RNA 既见证了三十亿年的进化,也积极塑造了这一进程。在这一漫长的时间尺度中,种类极其丰富的 RNA 分子相继出现,执行的功能远远超越了其在信息传递中的传统角色。在后基因组时代,尽管我们已经编目了数千万条非编码 RNA 序列,并对数百万条序列进行了功能注释,但这些知识仅仅触及了广袤而神秘的 RNA 序列空间的表层。 在此,我们提出 RDiffusion,这是一种综合性的生成模型,旨在广泛探索这一 RNA 宇宙。RDiffusion 是一个基于扩散模型的框架,能够在多样化生物学特征的条件约束下,如期望功能、家族类型、二级结构、三级结构或结合蛋白,引导生成符合特定规格的新型 RNA 序列。我们在广泛的 RNA 设计任务中评估了 RDiffusion,发现其不仅在设计成功率和序列多样性方面超越所有基线方法,而且在下游任务中达到最先进的性能,能够作为强大的 RNA 基础模型发挥作用。为将 RDiffusion 转化应用于疾病研究,我们以骨关节炎(osteoarthritis,OA)作为一个重要范例,利用 RDiffusion 通过定制化、数据驱动的种子选择与筛选流程,开展新型 miRNA 序列的从头设计。尽管这些设计候选序列目前正在接受严格的生物学实验验证,但最终评估数据将在正式发表时进行全面整合并呈现。通过提供一种统一的 RNA 设计方法,我们预期 RDiffusion 将加速 RNA 的可编程工程化,并对人类健康、药物开发和基因编辑工具产生深远影响,同时也为 RNA 相关下游任务的表征学习确立新的标准。

作为中心法则的基石,RNA 见证并积极塑造了三十亿年的进化历程。在这一漫长的时间尺度上,RNA 分子呈现出令人瞩目的多样性,执行着远超传统信息传递角色的功能。在后基因组时代,尽管我们已收录了数千万条非编码 RNA 序列,并对其中数百万条进行了功能注释,但这些知识仅仅触及了浩瀚而神秘的 RNA 序列空间的表面。这里,我们提出 RDiffusion,这是一种全面的生成式模型,旨在广泛探索这一 RNA 宇宙。RDiffusion 是一个基于扩散的框架,在特定生物特征的条件约束下,例如所需功能、家族类型、二级结构、三级结构或结合蛋白,能够引导生成符合特定规范的新型 RNA 序列。我们在广泛的 RNA 设计任务上评估了 RDiffusion,发现其不仅在设计成功率和序列多样性方面全面优于所有基线方法,而且在下游任务上也达到了最先进的性能,作为一个强大的 RNA 基础模型发挥作用。为将 RDiffusion 转化为疾病应用,我们以骨关节炎(OA)作为典型范式,利用 RDiffusion 在定制的、数据驱动的种子选择与筛选流程指导下,对新型 miRNA 序列进行从头设计。尽管这些设计候选目前仍在接受严格的生物学实验验证,最终评估数据将在正式发表时进行系统整合并呈现。通过提供一种统一的 RNA 设计方法,我们预期 RDiffusion 将加速 RNA 的可编程工程化进程,对人类健康、药物开发和基因编辑工具产生深远影响,同时也将为 RNA 相关下游任务的表征学习建立新的标准。


📄 原文链接:https://www.biorxiv.org/content/10.64898/2026.06.13.732023v1?rss=1

🏷️ RNA序列设计 扩散模型 生成模型 非编码RNA miRNA设计 计算生成生物学