首页 > 学习课程 > 如何让单细胞分群更简单
2022
08-29

如何让单细胞分群更简单

10X Genomics测得的单细胞数据是包含细胞及其表达量在内的高维数据,无论是PCA还是tSNE都是纯数学的数据降维方式,以此得到的细胞分群不具有生物学意义,故而我们通常需要赋予细胞分群以生物学含义即完成细胞亚群到细胞亚型的映射。

在这一过程中,我们需要解决两个问题:(1)已知细胞亚型的鉴定,如外周血样品中鉴定红细胞、单核细胞等对应哪些细胞亚群;(2)未知细胞亚群或罕见细胞亚型的鉴定,如肝脏样品因炎症细胞浸润出现的标记基因异常的免疫细胞的鉴定。

为了完成上述任务,我们需要借助标记基因。在之前的推文中戳这里),我们介绍了CellMarker网站来检索标记基因。但是,如何将我们检索得到的信息应用于我们的实验结果呢?

基迪奥已经承接了数目可观的10X项目,在利用标记基因鉴定细胞亚群方面积累了丰富的经验。这里,我们以项目经验为基础为大家分享细胞亚群鉴定的过程。

细胞分群

在本文中,我们选择一组人肾脏样本作为示例。首先,我们对数据进行可视化处理,将细胞划分为11个细胞亚群。从图中我们仅知道细胞被分为11个亚群,但是每个亚群对应的细胞类型还是未知,如此,便需要后续的细胞亚群鉴定。

已知细胞类型鉴定

现在,我们想找寻肾脏组织中单核细胞所对应的细胞亚群。在CellMarker网站定向检索,通过“Kidney”→“Monocyte”,点击“submit”即可检索得到该细胞亚型的标记基因。

单核细胞作为一种被广泛研究的细胞亚型,其标记基因库极为庞大,左侧的图像已无法与支持文献数量关联,查阅右方的详细列表,以最多文献支持数作为标准挑选至少9个备用标记基因:CD68,CD52,HLA-DRA,ITGAX,LYZ,MNDA,S100A8,ABTB1,ACAA1。接下来,我们要将标记基因的信息对应至10X数据,呈现方式主要有:

1

小提琴图

小提琴图可以反映亚群中各个细胞的标记基因表达量分布,常用于细胞类型的验证;但是对于低表达比例的标记基因不敏感,如基因ITGAX、ABTB1和ACAA1的分布情况并不明朗。

2

气泡图

气泡图可以反映亚群中各个亚群标记基因的平均表达量和表达标记基因的细胞比例,可以良好呈现低细胞数量亚群的表达量信息,同时对于低丰度的标记基因有一定的检出率。

但是会将表达量信息平均化,掩盖低比例的表达目标基因的细胞信息,例如S100A8在cluster6中的表达,经由小提琴图展示显示核密度集中在高表达量区段,但是经由气泡图展示显示该基因在cluster6中表达量较低,致使该基因在cluster6中的表达信息被低估。

3

热图

热图综合反映基因表达水平、表达标记基因的细胞亚群的分布及细胞亚群中表达标记基因的细胞数量,是进行标记基因呈现的主要方式。但是图像会受到早期数据均一化处理的影响,对于表达标记基因细胞较少的亚群缺乏辨识力,如cluster10因为细胞量过少,无法获悉该亚群标记基因表达情况。

4

基因映射图

基因映射图可以给予最直观的表达标记基因细胞分布情况,但是一张图只能呈现一个基因,检测多个基因时图片信息复杂,缺乏呈现多因素结果的能力。这类图更适用于展示基因分布而非亚群鉴定。

合理选择数据呈现形式可以使得我们更加直观地判断细胞类型。

通过数据呈现,我们发现标记基因的分布并不如理想中完美,只有CD68和MNDA仅在cluster6集中表达,其他标记基因的鉴定都存在干扰信息:(1)标记基因在多个细胞亚群中均有较高表达,如CD52在cluster1、5、6、7、9中均有较高表达,LYZ在cluster1、6中均有较高表达;(2)标记基因在所有细胞亚群中表达量均很低,如ITGAX、ABTB1和ACAA1。

面对以上情况,我们可以采取三个方案来解决:

1

“从众心理”

表达标记基因最多的细胞亚群最有可能为我们需要鉴定的细胞类型。在我们的数据中,尽管存在标记基因在多个细胞亚群中较高表达的情况,但是从热图可以看出cluster6表达了6个标记基因,是表达标记基因最多的细胞亚群,所以cluster6应为单核细胞。

2

多图结合分析

采用多种标记基因结果呈现图,可以适当放大目标信号或者减弱背景信号。例如小提琴图显示HLA-DRA基因在出cluster5、6中均有较高表达,但是该基因由热图呈现出在cluster6中的集中表达;小提琴图显示ACAA1在所有亚群中表达量均很低,但是该基因由气泡图显示出在cluster6中的微量集中表达。通过多图结合分析,我们判断cluster6应为单核细胞。

3

选取更多的标记基因

选取更多的标记基因参与细胞类型鉴定。

未知细胞类型的鉴定

在分群时,我们发现了一个细胞数量极少的细胞亚群cluster10。我们想确定cluster10的细胞类型,首先我们利用Seurat包的FindAllMarkers功能找寻cluster10的差异表达基因,挑选其中表达量差异最大的十个基因用作鉴定该细胞亚群。

通过筛选得到的十个基因进行检索,我们得到如下图的结果。所有的结果都包含了肾脏组织,而所有的细胞亚型都指向了B细胞和浆细胞。

浆细胞本身就是B细胞的一个细胞亚型,保险起见,我们可以定义cluster10为B细胞。但是,两者的标记基因还是存在一定差异,我们可以尝试进一步确认cluster10是否为浆细胞。采用第2节介绍的方法进行鉴定,分别选取B细胞和浆细胞支持文献数量前9的标记基因检验分群情况。因为cluster10是细胞量极少的一个群,所以我们选择气泡图展示结果。

从气泡图可见B细胞的标记基因在cluster10中均有较高表达,而浆细胞的标记基因在cluster10中表达较少,所以cluster10应为B细胞,浆细胞应只在cluster10中有少量分布。

以上两个方法是进行细胞亚群鉴定的主流途径,该途径是通过已知标记基因人为鉴定细胞亚群,主观性较强,但受限于已有研究结果和操作人员的经验。自去年起,也有基于生物信息学的客观的亚群鉴定方法发表(R包SingleR和celaref),但是因现有细胞亚型转录本的匮乏,并未得到广泛推广。

转自:基迪奥

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情