首页 > 组学教程 > 想要get到WGCNA,这篇就够了~
2022
05-19

想要get到WGCNA,这篇就够了~

纵观近十年发表的转录组学文章,转录组应用的研究领域越来越广泛,数据的挖掘要求越来越高,实验设计方案涉及的样本数目日趋增多,这就对转录组数据的生物信息分析方法有更多更高的需求。今天跟大家分享的WGCNA(Weighted Gene Co-Expression Network Analysis),就是适合进行复杂转录组数据分析的工具。

首先,我们了解一下WGCNA的概念

WGCNA其译为加权基因共表达网络分析。该分析方法旨在寻找协同表达的基因模块(module),并探索基因网络与关注的表型之间的关联关系,以及网络中的核心基因。适用于复杂的数据模式,推荐5组以上的数据。一般可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫不同时间点应答、病原菌侵染后不同时间点应答。

接下来,我们剖析一下WGCNA的原理

从方法上来讲,WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因之间相关系数计算、基因模块的确定、共表达网络、模块与性状关联四个步骤。

第一步计算任意两个基因之间的相关系数(Person Coefficient)。为了衡量两个基因是否具有相似表达模式,一般需要设置阈值来筛选,高于阈值的则认为是相似的。但是这样如果将阈值设为0.8,那么很难说明0.8和0.79两个是有显著差别的。因此,WGCNA分析时采用相关系数加权值,即对基因相关系数取N次幂,使得网络中的基因之间的连接服从无尺度网络分布(scale-freenetworks),这种算法更具生物学意义。

第二步通过基因之间的相关系数构建分层聚类树,聚类树的不同分支代表不同的基因模块,不同颜色代表不同的模块。基于基因的加权相关系数,将基因按照表达模式进行分类,将模式相似的基因归为一个模块。这样就可以将几万个基因通过基因表达模式被分成了几十个模块,是一个提取归纳信息的过程。

鉴定了基因模块以后,需要对模块的功能进行鉴定。通过对模块里基因的功能注释来鉴定每个模块的功能,从而了解模块是干什么的,有哪些生物学功能。对各个模块都进行 KEGG、GO等功能富集分析,找出与我们研究性状(如花色、株高、抗旱等)相关性最强的模块进行深入挖掘。

以上鉴定了基因模块,分析了模块的功能,接下来就需要将基因模块与研究的性状关联起来,从而筛选出重点基因模块。我们用“模块特征值”来代表该模块基因集表达量的综合值。因此可通过模块的特征向量与表型的相关系数或者模块的显著性P值,将每个模块与性状关联起来。此外,模块之间不是孤立存在的,相互之间是有联系的,通过网络热图可以直观的看到性状关联模块与其它模块之间的联系强弱。

筛选到跟性状关联的重点基因模块后,可基于模块内部基因的关系绘制基因共表达网络图。该网络图属于上文提到的无尺度网络。数学上对于网络图,将每一个节点赋予一个度的概念,一个点的度指该点所关联的边数。在无尺度网络中,少数节点的度明显高于一般的点,这些点成为hub。由少数hub与其他节点关联,构成整个网络。基因模块中处于调控网络中心的基因即为核心基因(hub gene),这类基因通常是转录因子等关键的调控因子,是值得我们深入分析和挖掘的对象。

上面解析了分析原理,接下来通过一篇我们公司的成功案例来实例解析一下在具体研究中如何运用WGCNA。

标题:Tranome analysis of baggingtreated red Chinese sand pear peels reveals light-responsive pathway functions in anthocyanin accumulation

中文名:转录组研究揭示红皮沙梨套袋对光花青素富集的影响

杂志:Scientific reports,2017

影响因子:4.259

1研究背景

传统的梨通常是绿色或黄色的,近些年红梨因其美丽的外观和营养价值而获得了消费者的青睐。中国红色砂梨果皮红色,主要分布于四川和云南等省。中国红砂梨的红色主要取决于果皮中花青素的浓度和组成。在果树种植业中,套袋技术广泛被使用,其可使果实色泽均匀,光滑无斑,还可避免病虫害侵扰。且研究发现,套袋处理就是光响应的过程。在拟南芥等模式植物中,光诱导参与调控花青素积累的机制已经比较清楚。但是在苹果和葡萄等研究中发现,果实着色过程中光响应参与调控花青素的分子机制与模式植物有差异。

2材料方法

实验材料:云南中国红砂梨;

处理方式:盛花后双层黄黑色纸袋处理40d,收获前十天去袋处理0H,6H,24H,144H;不去袋6HC,24HC,144HC作为对照。

取样:分别提取RNA样品进行RNA-seq,每个样品3个重复,4G数据量,共21个样品。

测序策略:RNA-seq,Illumina HiSeqTM 2000;

3技术路线

4研究结果

1、表型分析果皮中色素变化

在预计收获日前十天去除纸袋。观察发现,去袋24h,果实为浅黄色,72h逐渐变红,而对照样品保持淡黄色。随着花青素含量的升高,梨逐渐为红色。此外,袋装梨中的类胡萝卜素和叶绿素含量较低,去除袋后,含量立即略微上升,而花青素含量显著提高。

2、转录组差异基因筛选和验证

通过差异分析,共筛选8,870 DEG。随机选择8个DEG进行qPCR验证,基因表达趋势与RNA-seq结果基本一致,表明RNA-Seq结果的可靠性。

3、WGCNA鉴定花青素相关的差异表达基因

用差异基因进行WGCNA分析,鉴定13个基因模块。通过模块-性状关系分析,发现blue模块与样品中花青素含量高度相关。分析blue模块,发现11个基因参与花青素生物合成和转运,且这些基因高度共表达。其中GST、F3H和UFGT是关键基因。F3H和UFGT2基因在midnight blue模块,重要的调控因子MYB10在brown模块中;进一步将模块与UFGT2、MYB10的表达量做关联分析,发现其分别与midnight blue、brown模块高度相关。

4、WGCNA鉴定光响应相关基因

去袋6h,midnight blue模块高表达,然后逐渐下降,为早期光响应基因。去袋24h,brown模块基因表达量达到峰值,为中期光响应基因。去袋144h,blue的基因表达与花青素含量都达到峰值,为晚期光响应基因。

5、光响应相关基因的功能分析

对早期光响应基因GO富集鉴定出19个显著丰富的GO terms,大多数与光合作用和光响应有关。MapMan通路分析,主要涉及光合作用,光反应,脂质生物合成和细胞壁降解等。该基因集中鉴定到一些涉及光信号转导TF。在中期光响应基因主要富集“细胞生物合成过程”,包括“嘧啶核糖核苷酸生物合成过程”和“RNA甲基化”。晚期光响应基因显著富含的GO terms主要为“防御反应”,“几丁质响应”和“免疫反应”。

6、植物激素生物合成和信号转导相关基因

分析了参与植物激素生物合成和信号转导的基因的表达模式。在中、晚期光反应阶段,许多植物激素相关基因显著变化,只有很少一部分在早期有响应。

7、光响应基因的转录因子分析

在早期光响应基因中,鉴定了10个TF。在中期阶段鉴定134个转录因子,其中MYB为主要成员。晚期阶段的TF数目与中期差不多,WRKY家族为主要成员。

8、花青素生物合成相关基因表达

将光响应基因整合到花青素生物合成相关基因途径中,整体分析基因的表达早期生物合成阶段的基因,如PpCHSs和PpCHIs相对较早地上调,而PpF3Hs,PpF3'Hs,PpDFRs和PpANSs则在晚期上调。 去袋24h,关键调控基因PpMYB10,PpCHSs,PpF3Hs,PpF3'Hs表达量达到峰值,为后续花青素的积累提供基础。

小结

1、用差异基因进行WGCNA分析,鉴定13个基因模块。

2、通过模块-性状关系分析,发现blue模块与样品中花青素含量高度相关。

3、通过花青素相关关键基因表达鉴定了另外两个重要基因模块(midnight blue和brown)。

4、通过表达模式将这个三个基因模块定义为光响应早期、中期和晚期基因集合。

5、对光响应的基因集合进行注释、转录因子预测,激素相关分析,阐述花青素合成和袋装着色处理机制。

参考文献:

1. Hollender et al., Plant Physiology, 2014,165: 1062–1075

2. Bai et al., Scientific Report, 2017, DOI:10.1038

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情