首页 > 组学教程 > 非肿瘤单细胞分析模板已到位!眼馋单细胞的小伙伴快来看!手把手教你产出第一篇单细胞SCI!
2023
04-29

非肿瘤单细胞分析模板已到位!眼馋单细胞的小伙伴快来看!手把手教你产出第一篇单细胞SCI!

你的非肿瘤单细胞结合普通转录组分析模板已经到位,

还不赶快产出你的第一篇单细胞生信文章?

Hi,大家好,我是晨曦

机器学习的旅程让我们稍作停留,新的一年,我们继续聚焦在单细胞

年前,我们总共介绍了十几种单细胞数据库,这些数据库可以为我们的单细胞分析提供强大而又可靠的数据支持,在单细胞数据库方面我们准备的已经足够多了,接下来我们进入下一个板块——单细胞文献阅读

在这一个板块,我们将通过阅读单细胞文献来逐步丰富我们的单细胞分析技能,通过一篇单细胞文献来引出我们单细胞分析的技能,这样可以让我们对于技能本身应该如何使用,有一个更深层次的掌握

如何高效、准确的搜索单细胞文献,请阅读下面这篇推文

https://mp.weixin.qq.com/s/9WOjEvsuodKSm4zKeopqMA

单细胞数据分析流程解析,请阅读下面这篇推文

https://mp.weixin.qq.com/s/eJNcHJiaby8QGd8El0Hc1Q

好,我们就来解读我们晨曦单细胞文献系列中的第一篇单细胞文献

那么,我们就开始吧

晨曦碎碎念系列传送门(未完待续...)

想白嫖单细胞生信文章?这五大源头数据库,是你发文章的源泉!高频预警!你一定要收藏!

盘活国自然的新思路!你研究的热点真的是热点吗?大数据帮你定位!

好家伙!90%以上审稿人都会问到的问题,今天帮你解决!就是这么齐齐整整!

没想到!生信分组还有这个大坑!你被坑过吗?!

关于富集分析这件事,我有话想说。。。

好御好高级!CNS级别美图是如何炼成的?看这篇就懂了!

化繁为简!一文帮你彻底搞懂机器学习!想发高分文章,这篇是基础!

你不知道的机器学习算法!关键时候能救命!

致命!芯片&测序的联合到底能不能联合分析?审稿人最爱用这刁难你!

躲不过的树!80%的生信SCI中都见过它!你真的搞懂了吗?

Python or R? 哪个更适用于生信发文章?深入浅出给你讲透!

生信和抖音是一样的算法原理?不仅让你成瘾,也能发高分文章!

跟3-5分SCI相比,CNS里的生信玩的可太花了!其实简单的离谱!

揭秘!小鼠和人的免疫浸润分析有何区别?看这篇就够了!

临床预测模型中的宠儿!最常见的机器学习 算法,没有之一!直接拿来用 !

scRNA-seq生信文献

首先,我们从题目可以知道这篇文献切入的主要 疾病为脊髓损伤,表型方面则是选择的 神经性疼痛,同时,作者选择了目前来说性价比比较高的组合——scRNA-seq联合bulk-seq,那么,我们就来拆解一下这篇文献

数据集

ArrayExpress下载 25例慢性脊髓损伤患者(E-GEOD-69901)的基因表达谱(转录组芯片数据)

GTEx下载 337例正常的外周血样本(转录组二代测序数据)

外部验证:GSE82152和E-MTAB-5151作为对照组进行差异表达分析。由于样本量小,我们在最初的研究中没有使用这些已发表的数据

方案设计

1

Figure1 流程图

这里我们解析一下流程图:

第一步(左边):准备数据——E-GEOD-69901(疾病组)+337例正常的外周血样本(对照组)

第二步(左边):差异分析、富集分析、蛋白互作网络

第三步(左边):提取蛋白互作网络中的编码基因

第三步(右边):提取出具有统计学意义的marker基因进行细胞通讯分析

第四步(汇总):CellPhoneDB分析结果和Venn图显示了5种蛋白(ADRB2、LGALS9、PECAM1、HAVCR2、LRP1)不仅参与了外周血单细胞(PBMCs)中显著的配体-受体相互作用,而且基于差异表达基因(DEGs)的蛋白-蛋白相互作用(PPI)网络,其中最相关的为HAVCR2

第五步(汇总):CIBERSORT免疫浸润分析

第六步(汇总):构建调控网络

2

Figure2 热图+气泡图+气泡图(三个图)

A图:脊髓损伤患者外周血样本与正常对照样本之间的DEGs热图(两个分组)(运用pheatmap包或者complexheatmap包)

B图:GO富集分析(运用clusterprofiler包)

C图:KEGG富集分析(运用clusterprofiler包)

总结:脊髓损伤(SCI)患者外周血样本与正常对照样本之间的差异表达基因(DEGs)

晨曦的分析小建议

这块分析唯一有争议的地方在于差异分析,作者是使用limma包对芯片和测序数据进行差异分析,阅读其方法学部分,除了运用limma包本身自带的voom函数和normalizeBetweenArrays函数外并没有运用其余算法,这一步骤的处理存在问题,因为我们都知道,单纯的芯片和测序数据是无法合并分析的,尽管存在着算法可以帮助我们合并数据集,其实这里简单说一下,芯片和测序整合为一个数据集后,我们就可以使用limma包进行差异分析,但是前提就是我们怎么整合,所以如果按照作者方法学的描述,貌似是分别标准化然后去除批次效应后直接整合显然会存在问题,至于如何整合,Rank-in以及SVA包都提供了方法,可以参考下面的推文

参考教程:https://mp.weixin.qq.com/s/o1AjcE7_I-Whacoeo-AuRQ

3

Figure3 tSNE+热图+tSNE+热图+tSNE(十个图)

A图:展示细胞亚群情况,一共分为十三个亚群(运用Seurat包)

B图:每个细胞亚群前十个DEGs基因,用热图的形式展示(运用Seurat包)

C图:展示细胞亚群情况,一共分为十三个亚群(运用Seurat包)

D图:每个细胞亚群前十个DEGs基因,用热图的形式展示(运用Seurat包)

E-M图:展示细胞类型鉴定marker的分布(运用Seurat包)

总结:3368个外周血单个核细胞(PBMCs)的基因表达景观,包括的步骤为scRNA-seq的基本流程以及细胞类型的鉴定

晨曦的分析小建议

这块的图表有凑Figure的嫌疑,因为FigureA和FigureC本质上来说其实展示的结果是一样的,而且现在很少会有文章把没有经过注释的细胞亚群和注释的细胞亚群并列放在一起,并且还组建了一个基本上是一个东西的热图,所以这块的图表可以精炼一下

4

Figure4 韦恩图+箱线图+网络图+网络图(四个图)

A图:Venn图显示了5个蛋白(ADRB2、LGALS9、PECAM1、HAVCR2、LRP1),这些蛋白不仅参与了PBMCs中显著的配体-受体相互作用,而且参与基于DEGs的PPI网络,而且只有HAVCR2与神经性疼痛显著相关(三个组)(运用ggplot2包)

B图:展示HAVCR2基因在临床表型上的差异(运用ggplot2包)

C图:87个重要的配体-受体相互作用的网络(scRNA-seq细胞通讯分析的结果)(运用cellphoneDB或者Cellchat包)

D图:PPI网络说明了ADRB2、LGALS9、PECAM1、HAVCR2、LRP1之间的相互作用(运用string数据库)

总结:CellPhoneDB分析结果和Venn图显示了5种蛋白(ADRB2、LGALS9、PECAM1、HAVCR2、LRP1)不仅参与了外周血单个核细胞(PBMCs)中显著的配体-受体相互作用,而且基于差异表达基因(DEGs)的蛋白-蛋白相互作用(PPI)网络

晨曦的分析小建议

韦恩图的逻辑即针对普通转录组进行PPI网络的构建,纳入PPI网络构建的Gene symbol为DEGs,然后对于scRNA-seq进行细胞通讯分析得到配体-受体,挑选其中显著的然后与DEGs取交集得到有意义的Gene symbol;同时这里韦恩图的分组选择的小组别,可以对照发现Figure2中的差异基因热图的分组为两个组,而这里是三个组,所以涉及到先两组进行差异分析,然后多组差异分析,当然,这个通过limma包设置比较矩阵是可以实现的

5

Figure5 柱状图+热图+小提琴图+PCA(四个图)

A图:针对普通转录组进行CIBERSORT免疫浸润分析,获得免疫细胞比例(免疫浸润分析)

B图:CIBERSORT结果进行热图的展示(免疫浸润分析)

C图:小提琴图展示免疫细胞在不同分组中的情况(免疫浸润分析)

D图:所有样本的主成分分析(PCA)结果显示,对照组与实验组之间存在显著性差异(PCA)

总结:免疫浸润分析

晨曦的分析小建议

这块分析比较有意思的地方在于Figure2中热图的分组信息,我们可以看到这块是分了三组,这三组其实来自于两个数据(ArrayExpress下载25例慢性脊髓损伤患者以及337GTEx中的正常患者),其中25例慢性脊髓损伤患者中有两个分组,分别是有疼痛和没有疼痛,也就是说即使你有脊髓损伤也不是一定会有神经性疼痛,而且本质上来说FigureA、B、C其实表达的信息是类似的,只不过用了三种表现方式而已

6

Figure6 热图+火山图(二个图)

A图:差异基因的GSVA分析(运用GSVA包)

B图:火山图展示具有显著性的通路,这里其实就是把Gene换成通路(运用ggplot2包)

总结:12条通路被鉴定为脊髓损伤(SCI)患者外周血样本和正常对照样本之间的差异表达通路(基因集合变异分析定量(GSVA))

7

Figure7 网络图+热图+相关性热图+tSNE(十二个图)

A图:TFs和关键细胞通信基因的调控网络(V符号代表TFs,椭圆代表目标deg;红色表示显著上调,蓝色表示下调)(运用igraph包)

B图:聚类热图说明了TFs、关键细胞通信基因和KEGG通路的表达水平(运用ggplot2包)

C图:相关性分析(运用ggplot2包)

D-L图:显示了关键TFs和具有共表达模式的目标deg的细胞定位(即A高B也高,这种趋势相同的,然后获得细胞亚群上的定位信息)(运用Seurat包)

晨曦的分析小建议

这里首先对DEGs进行富集分析(DAVID数据库中的TF模块),然后挑选出TF,关键细胞通信基因则是从scRNA-seq的细胞通讯分析中获得

滴滴滴~到这里这篇文献的生信分析部分就已经结束了,后面你可以对我们上面筛选出来的Gene进行PCR验证,然后就搞定了

这篇文献算的上是一篇普通转录组和单细胞测序的结合,也算是性价比很高的一篇文献我们可以从中看到 单细胞在这里主要提供了两类信息一类是细胞通讯的信息,一类则是细胞亚群的信息,其实我们也可以这么理解,普通转录组的PPI网络的构建其实和单细胞转录组层面的细胞通讯分析本质上来说其实是一个东西,都是提供了一个对应关系,只不过维度不同,所以我们可以把两类信息中获得的Gene取交集,以便缩小我们的范围,也就是说这里利用了scRNA-seq精度高的优势

那么这里面,我们比较感兴趣的应该就是细胞通讯分析了,所以我们下一期的主题就定为 细胞通讯分析的讲解,通过阅读文献→找到感兴趣的分析方法→学习方法这样一个连贯的过程,我们可以更加有针对性的学习单细胞相关的内容

那么,本期推文到这里就结束啦~

转自:挑圈联靠

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情