国家生物信息中心开发个体水平免疫异质性解析工具scHILL

近年来,以语言模型为底层架构的单细胞基础模型不断涌现。这些基础模型在批次整合,细胞类型注释,调控网络预测等下游任务中展现出了卓越的性能。但现有分析方法多聚焦于识别细胞类型和细胞状态,难以有效捕捉和量化个体水平差异。个体间异质性是影响疾病临床表现、治疗反应及预后的关键因素,在自身免疫疾病、癌症及感染性疾病的研究中具有重要意义。

为此,国家生物信息中心研发了scHILL(scRNA-seq data for deciphering Heterogeneity at the Individual-LeveL),一个以个体的单细胞表达矩阵作为输入,通过掩码自编码器(Masked Autoencoder, MAE)和多层感知器(Multilayer Perceptron, MLP),最终输出个体评分的深度学习框架。基于个体评分,scHILL可以完成表型标签预测、患者精细分层以及疾病相关基因识别等下游任务。

在模型架构上,scHILL创新性地使用视觉模型Vision Transformer作为底层架构,利用其全局特征捕获能力学习单细胞表达矩阵中潜在的依赖关系。在训练策略上,针对特定疾病的个体水平单细胞转录组样本有限的问题,scHILL将完整的单细胞表达矩阵随机裁切为若干个小矩阵。这使得训练集数据量大幅增长,降低了模型的过拟合风险并提升泛化能力。此外,scHILL在预训练阶段采用掩码重建策略,在仅有40%可见信息的情况下重建其余60%的掩码信息,使模型在无需细胞类型注释及表型标签的情况下即可学习表达矩阵中深层次的关联模式。

研究团队分别在感染性疾病、自身免疫疾病及癌症患者的单细胞转录组数据中验证了scHILL的有效性和可解释性。首先,在多个独立的新冠肺炎外周血单个核细胞数据集中(包含预训练阶段未使用过的数据集),scHILL在疾病严重程度分类任务中的表现显著优于现有模型。同时,scHILL成功识别传统临床分型之外的异质患者亚群,评分较高的轻症患者表现出与典型重症患者相似的B细胞扩增特征,而评分较低的重症患者则保留了与轻症群体相近的CD8⁺ T细胞比例及细胞毒性功能,展现出scHILL在疾病精准诊疗中的应用潜力。其次,在自身免疫疾病青少年皮肌炎的外周血单个核细胞数据集中,scHILL的评分与医生基于患者症状给出的临床评分一致,也与患者外周血单个核细胞中的NK细胞比例呈显著负相关,回归分析及相关性分析还揭示了PDE3B与该疾病进展密切相关。后续的单细胞分析发现PDE3B在患者的初始T细胞中呈现特异性高表达。值得注意的是,针对该分子靶点的抑制剂已应用于心肌疾病的临床治疗,这为青少年皮肌炎的潜在干预策略提供了新视角。最后,在多器官癌旁组织B细胞数据集中,scHILL在无微调的情况下将样本按B细胞状态划分为两个不同亚群:一组表现出浆细胞富集及持续的B细胞向浆细胞分化轨迹,另一组则未呈现该特征。这一发现无法通过传统的聚类方法获得,证明scHILL能够在缺乏先验标签信息的条件下挖掘出潜在的个体间免疫状态差异。

总之,scHILL揭示了视觉模型在理解单细胞转录组数据中的应用潜力,为解析个体水平免疫异质性提供了新工具,也为疾病的临床评估提供了全新的思路和重要的方法学支撑。

该研究成果以“scHILL: deciphering individual-level immune cell heterogeneity with single-cell RNA sequencing data”为题,在学术期刊Briefings in Bioinformatics正式发表。国家生物信息中心宋述慧研究员为该论文通讯作者,博士研究生王祎为第一作者。研究工作获得国家自然科学基金“免疫力数字解码”重大研究计划的资助。

scHILL模型架构及应用场景

论文链接


附件下载: