浙江清华长三角研究院

重大突破！加拿大滑铁卢大学李明院士团队与清华长三角研究院邓海腾团队合作开发RNovA算法

发布于2026年06月02日

蛋白质是生命活动的主要执行者，其功能不仅取决于氨基酸序列，更受到蛋白质翻译后修饰的精准调控。目前已知的蛋白质翻译后修饰类型超过600种，理论上的组合接近天文数字。如何从复杂生物样本中系统性发现从未被报道过的新型修饰一直是蛋白质组学领域的重大难题。质谱技术是目前鉴定蛋白质序列及其修饰的重要工具，主要应用于依赖已知数据库鉴定蛋白质翻译后修饰；现有深度学习从头测序模型虽然精度高，但受限于训练时预定义的氨基酸/修饰列表，无法应用到未知修饰的鉴定。

近期，加拿大滑铁卢大学李明院士团队和浙江清华长三角研究院邓海腾教授团队合作，在国际顶级期刊《自然·生物技术》（Nature Biotechnology）上发表题为“零样本从头测序与开放式翻译后修饰发现”（Zero-Shot De Novo Peptide Sequencing with Open Posttranslational Modification Discovery）的研究论文。该研究开发了名为RNovA（Rotary positional embedding-enhanced de Novo sequencing Algorithm）的新型算法，实现了无需预定义修饰列表、无需重新训练的开放翻译后修饰从头测序，解决了如何从海量串联质谱数据中鉴定未知翻译后修饰的难题。RNoVA 提出了一个基于Transformer的模块化框架，采取了修饰检测（PathSearcher）与序列推断（SeqFiller）分离的解耦策略；RNovA由两个独立模块组成：PathSearcher负责在质谱图中搜索碎裂路径，以质量标签（mass tag）形式输出潜在修饰位点，无需任何候选修饰列表；SeqFiller则基于PathSearcher的结果，利用旋转位置编码（RoPE）和强化学习式序列决策框架，重建完整肽段序列。两模块协同，实现了开放式PTM发现与高精度肽段预测的统一。

图：RNovA架构与工作流程概述。 a，RNovA PathSearcher的架构。b，RNovA SeqFiller的架构。c，RNovA的开放式翻译后修饰发现工作流程。

RNovA的核心突破在于实现真正的“零样本开放式修饰发现”：无需重新训练模型，无需提供任何候选修饰列表，即可直接从质谱数据中同步完成肽段序列测定与未知修饰识别。在修饰肽段上，氨基酸识别精度超过95%。与传统从头测序工具PEAKS相比，RNovA优势尤为突出。以蛋白瓜氨酸化为例，肽段召回率从27.18%提升至75.52%，提升近3倍；赖氨酸戊二酰化的召回率从77.74%提升至91.57%，提升14个百分点。研究团队通过三类严格的湿实验验证充分证明了RNovA的准确性与泛化能力。RNovA提供了一种主动探索未知翻译后修饰的分析范式，为蛋白质组学研究开启了新范式。在机制研究层面，它无需研究者预先定义修饰类型，即可从质谱数据中挖掘统计富集的修饰模式，为解析信号转导与表观调控机制提供新线索。对于缺乏参考数据库的非模式生物，如罕见细菌或古菌，该算法能够直接重建肽段序列并发现其特有修饰，帮助研究者突破数据库依赖的局限。在临床转化层面，RNovA有望挖掘肿瘤、自身免疫病等疾病相关的潜在修饰标志物，为机制研究与标志物筛选打开新窗口。此外，RNovA也使得那些因不在数据库中而被系统性忽略的暗蛋白质组鉴定成为可能，例如鉴定来自非编码区或新剪接变体的肽段。

加拿大滑铁卢大学博士生毛泽平为论文第一作者，加拿大滑铁卢大学李明教授与浙江清华长三角研究院邓海腾教授为共同通讯作者。清华大学蛋白质研究技术中心蛋白质化学与组学平台为该项工作做出了重要贡献。该研究得到了国家自然科学基金、国家重点研发计划、北京市自然科学基金及清华大学蛋白质研究技术中心的支持。

原文链接：https://www.nature.com/articles/s41587-026-03116-1

新闻资讯