学院要闻

统计学院科研团队在处理高位数据聚类分析中取得一系列成果

研究背景:

空间位置信息对于理解组织内不同类型细胞的生理功能以及信号相互作用至关重要。基于测序和成像的空间转录组技术(SRT)能够同时获得细胞的基因表达谱和空间位置信息,为研究组织结构和功能提供了新的视角。针对空间转录组学数据,可视化主要细胞类型的空间分布是揭示组织区域内不同细胞类型的有序分布特征的重要手段之一。

对空间转录组学数据进行降维、聚类和标注是分析这类数据的重要基础。但SRT数据的高维、高噪音、异质等特征也给统计分析带来诸多挑战:现有的先降维、再聚类、最后标注的三步空间域识别分析框架存在大量超参数,实际应用中面临调参的困难;多切片的SRT数据整合分析也面临复杂的批次效应和异质的生物效应的困扰。

华东师大统计学院史兴杰副教授课题组长期致力于开发组学遗传学数据融合方法、生物医学大数据统计模型和算法,以解决生物医学领域的重要问题。

2022年,团队在Nucleic Acids Research上发表题为“Joint dimension reduction and clustering analysis of single-cell RNA-seq and spatial transcriptomics data”的研究。研究发展了一种将降维和聚类联合建模的贝叶斯推理方法,使各项分析任务的性能得到同步提升,在处理高维数据聚类分析中展现出巨大潜力。在上述基础上,课题组进行了进一步的探索,获得如下成果。


1.空间转录组数据的细胞/域类型标注方法

2023年11月,在Nucleic Acids Research上发表题为“Probabilistic cell/domain-type assignment of spatial transcriptomics data with SpatialAnno”的研究论文。该研究基于马尔可夫随机场和高维因子模型的联合建模,并整合先验的标记基因信息,开发了高效的空间标注方法SpatialAnno,不仅能以更高的精度执行空间细胞/域类型标注,而且还能估计细胞/域类型感知的嵌入,以方便下游分析,在各种组织类型和分辨率的SRT数据上具有普适性。

1.png

该研究采用高斯混合分布整合先验标记基因信息,同时通过高维因子模型克服高维非标记基因信息的维数灾难问题。使用马尔可夫随机场刻画细胞标签的空间分布特征,并引入自适应的空间光滑参数,使模型能够精确地刻画不同组织结构中细胞类型的空间分布特征。

通过大量模拟实验和分析来自不同SRT技术、不同组织区域的实际数据集,该研究论证了SpatialAnno的优势:使用SpatialAnno对12个人类背外侧前额叶( DLPFC )样本的10x Visium数据集进行分析,展示改进后的空间标注精度;分析利用ST技术的小鼠嗅球( OB )数据集,说明SpatialAnno在利用无标识基因方面的有效性;利用小鼠海马的Slide-seqV1/2数据集,证明了SpatialAnno可以在近细胞分辨率上正确识别细胞类型分布;通过小鼠胚胎的seqFISH数据集验证了SpatialAnno估计低维嵌入的有效性。


2 .多切片空间转录组数据整合方法

2023年1月,在Nature Communications上发表题为“Probabilistic embedding, clustering, and alignment for integrating spatial transcriptomics data with PRECAST”的研究论文。该研究通过建立以概率模型为基础的方法PRECAST,创造性地解决了空间转录组中十分具有挑战性的多切片整合分析问题。该研究开发了一种多切片SRT整合分析方法,同时进行空间特征提取、空间聚类和低维对齐,提供出色的可视化效果,并实现更高的空间聚类精度。

为了研究肿瘤及肿瘤相邻组织中肿瘤发生的动态过程,PRECAST分析了由10x Visium平台测序得到的肝细胞癌(hepatocellular carcinoma,HCC)病人的四块组织切片。使用PRECAST提取并对齐后的特征生成的RGB彩图,其对组织切片的划分与病理学家的标注保持一致;PRECAST对四片组织切片的聚类标注空间热图类似于相应的RGB图,而且更为清晰地将这些位置分成9类,这表明PRECAST能够利用多块组织切片的共同生物效应并同时区分异质的生物效应。

1.png

研究成果在所有合作者的共同努力下完成,为空间转录组数据的统计分析提供了新的方法和工具,在生物学和医学研究中具有重要应用价值。


发布者:张瑛发布时间:2023-12-14浏览次数:271