国家生物信息中心发布RNA转录本水平剪接调控预测模型HELIX

剪接等RNA加工过程中的调控导致了序列、结构、功能各异的多样RNA转录本产生。以长读长转录组为代表的测序技术发展促进了同一基因中不同RNA转录本间相对比例的准确定量,以及关键组织及细胞类型中特异表达转录本全长的识别,是研究人类转录组复杂性的重要手段。然而,由于样本获取难及测序成本高等多种因素,可直接用于多样生理状态下转录本水平剪接精准分析的数据仍然非常有限。人工智能技术是解决这一难题的潜在最佳途径,但目前已有模型仅能实现对个别样品中剪接位点强度的预测,难以用于转录本水平的预测,且缺乏对于未见组织及细胞类型的扩展能力。

针对这一挑战,国家生物信息中心研发了HELIX(Hierarchical Explainable LSTM for Isoform eXpression),这是一种可用于转录本水平RNA剪接预测的深度学习框架。HELIX通过整合基因组序列与组织特异性的RNA结合蛋白(RNA-binding proteins, RBPs)表达矩阵,用于对各类样品中RNA剪接与转录本使用模式的高精度预测。

在模型架构方面,受到上下文依赖(context-dependent)剪接调控模式的启发,HELIX创新性地采用了层次化深度学习子模型嵌套策略。该策略首先基于DNA序列预测剪接位点及其基线强度,再结合1,499个RBP的表达特征以预测具体样本中的剪接调控水平,最后利用基于嵌入继承的长短期记忆(long short-term memory, LSTM)网络捕捉多个剪接位点间复杂依赖与竞争关系以预测转录本使用模式。全面评估的结果显示,HELIX在剪接强度及异构体使用预测方面均显著优于现有主流方法,特别是在高度调控位点及转录本相对比例预测方面填补了现有模型空白

在疾病研究中,HELIX展现出对异常RNA剪接及转录本使用的强大解析能力。研究人员利用大规模结直肠癌队列,系统识别了肿瘤细胞中广泛存在的剪接失调与转录本表达异常现象,并进一步揭示这些变化与基因组突变、RBP表达异常以及患者临床特征之间的密切关联,提示RNA剪接异常有望成为理解肿瘤发生发展以及开展患者分层的重要分子特征。

此外,研究团队进一步基于迁移学习研发了HELIX的单细胞扩展版本scHELIX,以预测不同细胞类型和肿瘤亚群中转录本差异使用模式,为解析肿瘤内部异质性提供了更高分辨率视角。相关结果显示,不同肿瘤亚克隆之间存在显著差异的RNA剪接与转录本表达特征,为理解肿瘤演化过程以及发现潜在治疗靶点提供了全新线索。

总体来说,HELIX为解析复杂生理条件下的可变剪接提供了高性能的人工智能工具。该研究不仅加深了人们对组织特异性和疾病相关剪接机制的认识,也为癌症分型、致病变异解释以及精准医学研究提供了重要的方法学支撑。

该成果以“HELIX: a scalable model for predicting context-dependent regulation of RNA splicing and isoform usage”为题,于2026年5月19日正式发表于学术期刊Nature Computational Science (DOI:10.1038/s43588-026-00988-w)。国家生物信息中心高远研究员为该论文独立通讯作者,博士研究生周子菡为第一作者。该研究工作得到国家自然科学基金“赋能药物创新的RNA基础研究”重大研究计划以及北京市“杰出青年”自然科学基金等项目的资助。

Helix模型架构及训练数据

论文链接

附件下载: