利用生物信息分析大数据在论文发表中占据了举足轻重的地位,尤其是在高通量测序越来越便宜的今天,但是测序分析中各种名词仍令很多小菜或非生物信息专业的人抓狂。
哈哈,不用怕,看了小编今天的文后,这些都不是事儿!先来介绍几个概念性名词:
1.高通量测序: 高通量测序技术(High-throughput sequencing,HTS)是对传统Sanger测序(称为一代测序技术)革命性的改变, 一次对几十万到几百万条核酸分子进行序列测定, 因此在有些文献中称其为下一代测序技术(next generation sequencing,NGS )。高通量测序技术可以实现对一个物种的转录组和基因组进行细致全面的分析。
2.de novo测序: 没有参考基因组的测序,也称为从头测序,它不需要任何现有的序列资料就可以对某个物种进行测序,利用生物信息学分析手段对序列进行拼接,组装,从而获得该物种的基因组图谱。
3.基因组重测序: 全基因组重测序是对基因组序列已知的个体进行基因组测序,并在个体或群体水平上进行差异性分析的方法。
4.ChIP-Seq:将ChIP与第二代测序技术相结合的ChIP-Seq技术,通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建,然后对富集得到的DNA片段进行高通量测序。通过基因组定位,获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。
5.RIP-seq: 与ChIP-Seq类似,运用针对目标蛋白的抗体把相应的RNA-蛋白复合物沉淀下来,然后经过分离纯化就可以对结合在复合物上的RNA进行测序分析。
6.metagenomic宏基因组: 直接从环境样本中提取的基因组遗传物质,研究对象是整个微生物群落。
还有目前很火热的各种转录组测序(小编准备日后单独开一篇讲),在了解这几个基本概念后,再来看测序后进行数据分析时常用到的参数及软件。
1.SNP:单核苷酸多态性,个体间基因组DNA序列同一位置单个核苷酸变异(替代、插入或缺失)所引起的多态性。是研究人类家族和动植物品系遗传变异的重要依据。
2.SSR:simple sequence repeat,简单重复序列,又称微卫星序列,是最具长度变异的基因组序列之一。
这两个是目前流行的分子标记对象。另外还有几种较常见的与变异有关的概念。
3.SNV: 相对于正常组织,癌症中特异的单核苷酸变异是一种体细胞突变(somatic mutation),称做SNV。
4.INDEL:基因组上小片段(>50bp)的插入或缺失,形同SNP/SNV。
5.CNV:copy number variation,拷贝数变异,基因组拷贝数变异是基因组变异的一种形式,通常使基因组中大片段的DNA形成非正常的拷贝数量。这个小编认为可以类比染色体变异。
6.SV:structure variation ,基因组结构变异,主要包括染色体大片段的插入和缺失(引起CNV的变化),染色体内部的某块区域发生翻转颠换,两条染色体之间发生重组(inter-chromosome trans-location)等。一般SV的展示利用Circos 软件。
7.SD区域:指串联重复,由序列相近的一些DNA片段串联组成。在人类染色体Y和22号染色体上,有很大的SD序列。
测序到底怎么测,在弄清以下几个名词后,你就知道啦。
1.Fragments:就是打成的片段,而测序测的就是这些fragments, 测出来的结果就是reads,又可以分为单端测序和双端测序,单端测序的话,只是从fragments的一端测序,测多长read就多长,双端测序就是从一个fragments的两端测,就会得出两个reads。
2.Read: 高通量测序时,在芯片上的每个反应,会读出一条序列,是比较短的,测序的最小单位,叫read,它们是原始数据。
3.Contig: 拼接软件基于reads之间的重叠(overlap)区,拼接获得的序列称为Contig(重叠群)。 (由reads通过对overlap区域拼接组装成的没有gap的序列段)
4.Contig N50:Reads拼接后会获得一些不同长度的Contigs。将所有的Contig长度相加,能获得一个Contig总长度。然后将所有的Contigs按照从长到短进行排序,如获得Contig 1,Contig 2,Contig 3...„„„Contig 25。将Contig按照这个顺序依次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。可以作为基因组拼接的结果好坏的一个判断标准。
5.Scaffold:多个contigs通过片段重叠,组成一个更长的scaffold,基因组de novo测序,通过reads拼接获得Contigs后,往往还需要构建454 Paired-end库或Illumina Mate-pair库,以获得一定大小片段(如3Kb、6Kb、10Kb、20Kb)两端的序列。基于这些序列,可以确定一些Contig之间的顺序关系,这些先后顺序已知的Contigs组成Scaffold。
6.Scaffold N50:参照Contig N50理解。
7.测序的覆盖度(coverage):是指测序获得的序列占整个基因组的比例,也可理解为对目的基因的覆盖程度。
8.测序深度(Sequencing Depth):测序得到的碱基总量(bp)与基因组大小(Genome)的比值,它是评价测序量的指标之一。假设一个基因大小为2M,测序深度为10X,那么获得的总数据量为20M。也可以理解为被测基因组上单个碱基被测序的平均次数。
9.E期望值(E-value):表明在随机的情况下,其它序列与目标序列相似度要大于这条显示的序列的可能性。所以它的分值越低越好。
10.基因组注释(Genomeannotation) :是利用生物信息(bioinformation)学方法和工具,对基因组所有基因的生物学功能进行高通量注释,是当前功能基因组学(functional genomics)研究的一个热点。基因组注释的研究内容包括基因识别和基因功能注释两个方面。基因识别的核心是确定全基因组序列中所有基因的确切位置。
在测序完成,对片段拼接组装后,要对所获得的基因数据进行功能注释,常用到的数据库有以下几种:
1.COG:Cluster of Orthologous Groups,蛋白质直系同源数据库,是对基因产物进行直系同源分类的数据库,每个COG蛋白都被假定来自祖先蛋白,COG数据库是基于细菌、藻类、真核生物具有完整基因组的编码蛋白、系统进化关系进行构建的。COG 分为两类,一类是原核生物的,称为 COG 数据库;另一类是真核生物,称为 KOG 数据库。
2.Nr:Non-redundant protein database,非冗余蛋白数据库
3.SwissProt:SwissProt protein database,蛋白质序列数据库
4.Pfam:Protein families database,蛋白质家族数据库
5.GO:Gene Ontology,基因本体论数据库
6.KEGG:Kyoto Encyclopedia of Genes and Genomes,东京基因与基金组百科全书,是系统分析基因产物在细胞中的代谢途径以及这些基因产物的功能的数据库,用KEGG可以进一步研究基因在生物学上的复杂行为。
最后再讲一下RPKM和FPKM两个词,这两个词是用来表示基因的表达量的。RNA-seq是二代测序技术中用来表示基因表达量或丰富的方法,在衡量基因表达量时,若是单纯以map到的read数来计算基因的表达量,在统计上是一件相当不合理的事,因为在随机抽样的情况下,序列较长的基因被抽到的机率本来就会比序列短的基因较高,如此一来,序列长的基因永远会被认为表达量较高,而错估基因真正的表达量,所以Ali Mortazavi等人在2008年提出以RPKM在估计基因的表达量。
7.RPKM:Reads Per Kilobases per Millionreads,代表每百万reads中来自于某基因每千碱基长度的reads数,用于表示基因的表达量。其计算公式为:
8.FPKM:将RPKM中的read换成freagment来理解。如果是single-end测序,二者FPKM和RPKM是一致的。如果是pair-end测序,每个fragments会有两个reads,FPKM只计算两个reads能比对到同一个转录本的fragments数量,而RPKM计算的是可以比对到转录本的reads数量。
好了,今天小编就介绍到这儿,是不是清楚了很多~~~~- 本文固定链接: https://maimengkong.com/kyjc/1180.html
- 转载请注明: : 萌小白 2022年9月29日 于 卖萌控的博客 发表
- 百度已收录