RNA-seq是目前最广泛应用的高通量测序技术之一,其研究难点已经不再是如何获取大量表达数据信息,而是如何挖掘大量测序数据背后所蕴含的生物学意义,因此标准分析已经不能满足深入挖掘数据的需求,安诺转录组高级分析,通过深层剖析让你的测序数据物尽其用~
1. 基因共表达网络分析
(Weighted Gene Co-Expression Network Analysis, WGCNA)
如今多样本分析逐渐成为趋势,传统的样本两两组合进行差异分析,仅对样本进行表达趋势分析,难以对多个样本的表达模式进行有效归类,那么问题来了,我们该怎样研究多样本间基因的表达调控关系呢?小编友情支招通过WGCNA就可以啦~
什么是WGCNA?
WGCNA中文称为加权基因共表达网络分析,是构建基因共表达网络的常用方法。基因共表达网络:定义每个节点为一个基因,在不同样本中存在表达共性的基因处于同一个基因网络,而基因之间的共表达关系一般由它们之间的表达相关系数衡量。WGCNA能够将复杂的数据进行归纳和整理,高效研究基因整体表达规律,寻找协同表达的基因模块,并探索基因网络与关注的表型之间的关联,以及网络中的核心基因。
WGCNA的分析步骤及应用有哪些?
WGCNA分析适用于复杂的数据模式,推荐5组(或者15个样品)以上的数据。WGCNA分为表达量聚类分析和表型关联两部分,主要包括基因共表达网络构建、模块鉴定、模块信息提取、模块与性状关联、模块内基因的调控关系等步骤。
可应用的研究方向有:不同器官或组织类型发育调控、同一组织不同发育调控、非生物胁迫或病原菌侵染后不同时间点应答、鉴定与表型性状密切相关的关键基因、鉴定与疾病相关的关键基因、筛选疾病生物标记物和潜在药物靶点、研究疾病信号通路等。
2. 基因集富集分析
(Gene Set Enrichment Analysis, GSEA)
一般差异富集分析(GO和KEGG)需设置差异基因筛选阈值,侧重关注少数显著上调或下调的基因,容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略部分基因间调控关系,对筛选出的单个基因难以研究其功能和生物学意义,且有时会出现我们所关注的关键基因或通路差异表达并不显著的情况。针对这些情况该怎么进行分析呢?小编继续支招可进行GSEA哦~
什么是GSEA?
GSEA是按先验知识,基于基因注释信息进行分类,构建目标基因集,不需要指定明确的差异基因筛选阈值,将基因按照在两类样本中的差异表达程度进行排序,然后检验该基因集是否在排序表的顶端或者底端富集。GSEA检测基因集合而不是单个基因的表达变化,因此可以包含一些细微的表达变化,得到更为理想的结果。
GSEA的分析步骤及应用有哪些?
GSEA主要包括三个步骤:计算富集得分ES(Enrichment Score);估计富集得分ES的显著性⽔平;多重假设检验。可应用于研究疾病相关信号通路、筛选疾病生物标记物和潜在药物靶点等。
3. 主成分分析
(Principal Component Analysis, PCA)
在一组多变量的数据中,很多变量之间会存在相关性。其中一个原因是多个变量受同一因素影响,在基因表达量数据中这种情况普遍存在,因此需要处理冗余的信息。一个简单的处理方法是用较少的新变量代替原来的这组变量。小编再支招PCA法就是数据挖掘中常用的一种降维算法哦~
什么是PCA?
PCA是把原先的n个特征用数目更少的m个特征取代,新特征是旧特征的线性组合,这些线性组合最大化样本方差,尽量使新的m个特征互不相关。从旧特征到新特征的映射捕获数据中的固有变异性。
PCA的分析步骤及应用有哪些?
PCA分析的运算步骤如下:
(1)特征中心化,即每一位特征减去各自的平均值;
(2)计算协方差矩阵;
(3)计算协方差矩阵的特征值与特征向量;
(4)选取大的特征值对应的特征向量,得到新的数据集。
通常选取累计贡献率超过85%或者特征值大于1的主成分进行下游分析。PCA在生物信息学中的应用除了减少分析指标,还可以用来验证实验设计样品分组是否可靠。相似的样品在PCA结果可视化中倾向于靠近,可以此剔除生物学重复聚类较差的样品。
除了高级分析之外,转录组还包含了更加全面准确的标准分析内容,如差异表达分析、蛋白互作网络分析、GO功能和KEGG通路分析、可变剪切分析、转录因子分析、变异分析等。 安诺医学转录组更是华丽升级,增加转录本水平定量及差异分析、融合基因分析、癌症数据库注释等,高级分析涵盖新生抗原分析和基因组转录组联合分析。
- 本文固定链接: https://maimengkong.com/zu/920.html
- 转载请注明: : 萌小白 2022年5月14日 于 卖萌控的博客 发表
- 百度已收录