标记基因筛选(差异分析)与可视化
类似普通RNA-seq,10X ScRNA-seq也会进行差异分析。但两者的分析目标通常不同,所以策略上也有所不同,具体请见下表。
1
分析目标与策略
10X ScRNA-seq在细胞分为若干亚群后,一般需要对细胞亚群进行鉴定。亚群鉴定则依赖于标记基因。例如,如果是血液样本,高表达CD79A的亚群为B细胞;高表达CD3D和CD8A的亚群为T细胞。
因此,10X ScRNA-seq通常关注亚群特异上调表达的基因。而10X ScRNA-seq一般存在几十组亚群,因此差异比较一般采用1对其他组(其他组细胞合并为一组)的策略。
当然,如果研究人员关注特定两组子亚群细胞的差异(例如,比较上皮细胞中分化出的两个子亚群的差异),那么分析策略则比较类似常规RNA-seq,将同时关注彼此上下调的基因。
2
阈值的不同
常规RNA-seq本质上是样本中各种细胞的均值,所以各个生物学重复(组内)的数据更加一致,不同处理组间的差异更显著。而10X ScRNA-seq数据的基本构成是1个细胞瞬间的转录组表达情况,所以哪怕属于同一类型的细胞,彼此间也有很大的不同(亚群内的异质性)。
哪怕是某个亚群的标记基因,可能也仅仅在亚群中部分细胞中(例如50%)可以检测到。因为异质性高,所以10X ScRNA-seq的差异基因显著性一般较低,选择的阈值标准要比常规RNA-seq要宽松。
表1 常规转录组与10X ScRNA-seq表达差异分析的比较
亚群的鉴定
正如上文所说,我们依赖于亚群上调表达的基因来鉴定亚类细胞类型。但实际上,每个亚群上调表达的基因少则几十个,多则上百个。那么如何确定每个亚群是哪类细胞呢?这是一个较多依赖人工解读的过程。
1
参考已有文献,预估样本常有细胞类型
例如,血液样本中应该会有红细胞、B细胞、T细胞、粒细胞、单核细胞等。
2
参考已有文献,查看标记基因有哪些
参考已有文献报道,这些目标细胞类型的标记基因都有哪些?然后从各个细胞亚群中筛选对应标记基因,从而完成对各个细胞亚群的鉴定。
这里要注意的是,已报道的标记基因也仅仅表明这些基因在目标细胞中高表达,而并非在说在其他类型细胞中就完全不表达。所以,通常1个标记中无法将各个类型的细胞完全区分开,还需要综合多个标记基因才可以确定。
3
合并同类亚群
初步的亚群分类结果,往往可能将同类细胞分成若亚类。基于分子标记,可以将归为同类细胞的亚类重新合并。例如,下图左图的亚类0,2,8经过鉴定都属于成熟的红细胞(ME),因此可以被合并(右图)。
图1 细胞亚群鉴定与相同亚群合并
4
新标记基因筛选
传统的方法,每个类型的细胞只能发现少量标记基因(个位数级别)。而基于10X ScRNA-seq技术,我们完成亚群鉴定后,目标亚群中其他上百个标记基因都可能是新发现的未报道的标记基因。
新标记基因中包含的转录因子,尤其值得我们关注,因为这些转录因子可能就与细胞亚群的形成分化高度相关。
大量新标记基因的发现,在过去需要大量实验(例如,流式细胞分选+低通量单细胞测序)才可以达成,现在通过简单的筛选就可以获得,这就是10X ScRNA-seq技术的神奇之处。
5
新亚群鉴定
当然,如果某些亚群用任何已有的标记基因都无法鉴定,那么或许就是一个全新的未被报道的细胞亚群,更值得我们关注了。
另外,哪怕是已知的细胞类型,例如,上皮细胞,一般还可以进一步被细分为子亚类。这就是属于目标亚群的个性分析,我们将在下文介绍。
标记基因的展示
对于特定的目标基因,基于10X ScRNA-seq的数据,也有十分丰富的展示方式。例如图2中就展示了4种常见的展示方式,包括:小提琴图(a),气泡图(b),TSNE映射图(c)和热图(d)。
这些展示可以为文章增色不少,我们可以根据不同的情况选择不同的展示方式。例如,个位数标记基因可以选择小提琴图和TSNE映射图,十几个标记基因可以选择气泡图,大量标记基因可以选择热图。
这些基于文章的个性分析,往往需要后期不断的调整。如果你不擅长生信分析与绘图,那么选择个性化服务认真负责的生信服务公司(例如基迪奥),就显得非常重要。
图2 目标标记基因的个性化展示
亚群细胞频率
10XScRNA-seq通常会取多个样本,例如不同发育时期/不同病例发展时期的样本分别开展检测。在分析阶段,各个样本的数据将会被汇总后统一进行细胞分群。那么,各个样本中各类细胞相对比例的变化(某类细胞占总体细胞的百分比)也是非常重要的问题。
图3 样本中细胞亚群比例的变化
尤其是某些细胞亚群间,会存在上下游的演化分化关系,例如,干细胞/祖细胞与特定功能的细胞。一般情况下,较少出现某类细胞只出现在某个时期的样本,而在其他时期的样本中完全没有。
更多情况是不同细胞比例逐步变化。例如,下图是小鼠出生前后小脑细胞的构成变化。总体规律是祖细胞(Progenitors)逐步减少,行使具体功能的分化后细胞(例如,颗粒神经元细胞,granuleneurons)逐步增加的过程。
所以,各类细胞比例的变化,在细胞群体研究中也是非常关键的信息。这就是解释了为什么10X ScRNA-seq建议测生物学重复(尽管很贵)。因为只有检测重复,才可以评估细胞比例计算的准确性以及更好进行样本间比例的比较。
图4 小鼠胚胎期(e10~17)和出生后(P0~10)小脑细胞的组成变化,一共12组不同发育时间的样本,每组2个生物学重复。(Carter et al., 2018,Current Biology 28, 1–11)
而如果知道细胞亚群之前潜在的演化关系(例如上文中的祖细胞与颗粒神经元细胞),我们还可以用10X ScRNA-seq数据模拟细胞的演化过程。- 本文固定链接: https://maimengkong.com/kyjc/726.html
- 转载请注明: : 萌小白 2021年7月28日 于 卖萌控的博客 发表
- 百度已收录