首页 > 组学教程 > 转录组测序基础知识及常见问题
2022
04-30

转录组测序基础知识及常见问题

转录组测序基础知识及常见问题

转录组学(Tranomics),是一门在真整体水平上研究细胞中基因转录的情况及转录调控规律的学科,从RNA水平研究基因的表达情况。

转录组测序是通过二代测序平台快速全面地获得某一物种特定细胞或组织在某一状态下的几乎所有的转录本及基因序列,可以用来研究基因表达量、基因功能、结构、可变剪接和预测新的转录本等等。

转录组(tranome),是指特定生长阶段某组织或细胞内所有转录产物的集合,狭义上指所有mRNA的集合。

转录组测序类型

01根据RNA种类

可以分为 mRNA测序,SmallRNA测序,LncRNA测序、CircRNA测序、全转录组测序等。

02根据物种特点

比如真核生物或者原核生物,是否有参考基因组,测序平台的不同,分为真核有参和无参转录组测序,原核转录组测序,全长转录组测序等。

03根据相互关系

分为互作转录组,比较转录组等等

此外,基因组甲基化会影响到基因的转录调控,也属于转录调控测序范畴;还有用于研究转录因子与DNA的交互作用或组蛋白修饰在基因组上的分布的ChIP-Seq,研究RNA与蛋白互作关系的RIP-Seq,以及研究RNA甲基化的MeRIP-Seq等。

流程

1. 样品RNA准备

2. 测序文库构建

3. DNA成簇(Cluster)扩增

4. 高通量测序(Illumina)

5. 数据分析

数据分析流程

生物学重复问题

生物学差异是基因自身表达的特性,与检测技术的选择以及数据处理的方式无关,如果没有生物学重复,或者生物学重复的数量不够,就不能得到有统计意义的实验结果。获得的差异表达基因很可能仅仅是少数个体差异的表现,并不能反映疾病或者某种特定生理状态的群体本质特征,并且有些审稿人会很在意生物学重复这个问题。

1.对于 动植物样品建议5个以上生物学重复,对生物学样品之间做相关性检验,提高实验结果的可信度

2. 对于 细胞样品,生物学重复之间的差异性相对较小, 建议3个以上生物学重复。

3. 对于 临床样品,由于供试者的基因型、生活方式、生活环境、年龄、性别可能存在差异,需要更多的生物学重复, 一般要求10个生物学重复以上。

4. 对于 有无生物学重复后续计算差异基因时候算法也是不同的,目前主流差异分析软件DEseq2,limma,edgeR等基本都是针对有重复的转录组数据。至于没有重复的转录组数据,edgeR包中其实也有一种方法去计算,或者我们可以简单算两组的fold change然后根据阈值去筛选,另外同济大学之前也发布过一款软件GFOLD软件可以针对无重复数据计算。

01|差异倍数很大但P值>0.05不显著

对于差异倍数较大,但P值也较大,差异不显著的原因,可能有 两个

1.生物学重复不好,即生物学个体之间差异比较大 ,从统计学角度讲,就是同一个基因在组内的差异较大,误差线比较大,这样往往差异不显著。比如,某个基因在A组的三个生物学重复的表达量分别为100、200、300,在另一组中为110、150、30,虽然平均值差异倍数大于2,但因为组内重复不好,可能会导致无差异;而另外一个基因,在一组中为100、110、120,另一组为45、50、55,可能就是显著差异的。

2.BaseMean值比较低,即基因的丰度比较低 ,比如某个基因,在A组中的表达量均值为16,在B中的平均表达量为2,虽然差了8倍,但由于丰度低,可信度就低,很有可能也会判定为无差异。

解决方法

对于第一种情况,尽量控制单一变量,比如取同一性别,同一亲本,同一发育时期的小鼠,并增加生物学重复;对于第二种情况,建议增加数据量。

02|差异基因数目过多或者过少

通常差异基因的 鉴定标准|log2 Fold Change|>1,即差异倍数在两倍以上,以及 P value<0.05。当获得的差异基因数目较多,造成分析困难,想挖掘差异更显著的差异基因时,可以将我们的阈值调整的更加严格,例如 |log2 Fold Change|>2,P value < 0.01等;当我们获得的差异基因较少时,我们可适当放宽鉴定阈值,例如 Fold Change > 3,但是P值需小于0.05才有显著意义。

03|为什么不同基因ID有着相同的蛋白注释?且为什么有相同蛋白注释信息的基因有的上调表达有的下调表达?

这是在分析结果中比较多见的现象,主要原因有两个

1.多因一能:不同的基因通过注释具有相同的功能,而不同的基因其差异情况并不一样;

2. 许多酶是复合物:组成酶的复合物包含了一个家族的多个基因和不同的调控因子,它们之间的调控机制尚不清楚,反映在图上会有部分上调,部分下调。

04|如何选取qPCR定量验证基因

1. 根据GO或者是KEGG富集结果,或者是科研人员关注的基因,选取有代表性的进行qRT-PCR验证。

2. 根据FPKM值,选择FPKM值差异倍数大,同时P值小的基因进行qRT-PCR验证。

qPCR结果和转录组测序结果不一致?

RNA测序后,往往需要通过qPCR来进行验证由于这两种实验的目的都是在检测基因的相对表达量。用qPCR验证的目的,是为了检测转录组测序结果的准确性。我们要求转录组和qPCR的结果趋势一样,比如转录组中显著上调,qPCR中也是显著上调。一般推荐先尽量多做几个,拿20-40个基因进行qPCR验证,因为不一定每个基因都会符合,尽管最后有几个不符合转录组的结果,我们舍去也无所谓,注意选取的基因尽量表达量不要太低,如果太低,无论转录组还是qPCR的准确性都会有所下降。

qPCR结果和转录组测序结果不一致,要考虑以下几个问题:

1. 用于做转录组的样品和做qPCR的样品是同一个样品吗? 不同生物学个体,虽然同样的处理,但个体差异也会导致不同。

2.样品在-80℃冰箱保存的时间或在液氮中保存的时间一样吗?且保存方式是否一样? 即使同一个样品,保存时间与保存方式差异较大,也会有影响。

3.样品之间是否弄反? 例如对照与处理之间,以及不同处理之间的样品是否出现弄乱的可能。

4.是否尝试过相同条件处理?不同批次的qPCR的测序? 即使是相同处理,不同批次的qPCR结果也很可能不同,还有可能是由于生物个体之间本身的差异;

5. 所选的基因是否丰度很低? 如果丰度偏低,转录组测序和qPCR测序的结果都会受到影响。

6.qPCR操作是否规范。 定量实验对实验人员的操作,试剂的质量,实验环境都有着严格的要求。还有可能发生同一人员操作,得到两次的定量结果互相不一致的情况。

7. 引物设计是否合理。 在RNA-Seq中大多数基因会包含不止一个转录本,甚至有一些特别复杂的转录本形式,如果设计引物不合理就会使qPCR结果不准,还可能会有假基因的干扰。所以,qPCR的引物尽可能全都设计在基因的转录本共有外显子上,别是某些特定转录本的;引物设计好以后可以到NCBI做Primer Blast,保证引物不会Blast到一些基因组上的假基因上,避免假基因表达的干扰。

8. 两种技术本身的差异。 转录组测序与定量实验,都是检测基因表达情况的有效手段,但是两种技术在原理与方法上是不一样的,本身会存在一定概率结果不一致的可能。转录组测序一般是对基因进行定量,即所有来源于该基因的转录本的reads均归入该基因,而我们qPCR的设计的引物扩增片段有可能不能代表所有的转录本。

内容参考自《转录组学与多组学整合研究指南》

转自:农院小站

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情