细菌基因组框架图 - 卖萌控的博客

一、介绍

细菌基因组研究，是通过基因组测序和组装，获得细菌全基因组序列，并对基因组开展结构预测，功能注释、比较基因组学及泛基因组研究。依据研究精细程度不同，分为框架图（也称为草图）、完成图（0gap），下面我们主要介绍框架图的分析内容。

二、分析流程

基本流程为，建库测序，序列优化，基因组组装，基因及结构预测，功能注释，画图展示。

三、分析步骤与结果展示

1、测序序列的质控和拼接

2、组装结果评估：把 reads 比对到组装好的基因组序列上，通过统计组装序列的 GC 含量和 reads 覆盖深度，总结基因组的 GC偏向性和重复序列情况及污染情况。

注：横坐标表示 GC 含量，纵坐标表示测序深度

3、非编码RNA预测：使用RNAmmer 软件对基因组中rRNA进行预测；使用tRNAscan-SE 软件对基因组中tRNA进行预测。

4、 CDS预测：使用prodigal软件进行基因预测，它的目标是在识别现有基因时获得更大的敏感度，更准确地预测翻译起始点，并尽量减少错误的正向预测的数量。

Name

Value

Genome Length

6870226 bp

Number of scaffold(contig)

G+C content

42.7%

Num of CDS

6751

CDS num

6751

CDS total length

6139395 bp

CDS density

0.982 genes per kb

CDS average length

909. bp

Intergenetic region length

730831 bp

CDS/Genome(coding percentage)

89.4%

Intergenetic length/Genome

10.6%

GC content in gene region

43.4%

GC content in intergenetic region

36.7%

基因组信息统计

5、 COG功能注释：COG（Clusters of Orthologous Groups of proteins）是在对已完成基因组测序的物种的蛋白质序列进行相互比较的基础上构建的， COG数据库选取的物种包括各个主要的系统进化谱系。每个COG家族至少由来自3个系统进化谱系的物种的蛋白所组成，所以一个COG对应于一个古老的保守结构域。构成每个COG的蛋白被假定来自于同一个祖先蛋白。进行COG数据库比对可以对预测蛋白进行功能注释、归类以及蛋白进化分析。

COG功能分类统计图

6、 KEGG功能注释: KEGG（Kyoto Encyclopedia of Genes and Genomes）是系统分析基因功能，联系基因组信息和功能信息的大型知识库。 KEGG GENES数据库提供关于在基因组计划中发现的基因和蛋白质的序列信息； KEGG PATHWAY数据库包括各种代谢通路、合成通路、膜转运、信号传递、细胞周期以及疾病相关通路等。

KEGG Level2 Gene Count

对于每张KEGG pathway图，标注基因组比对上的基因。

Pathway

7、 GO注释: GO数据库分别从功能、参与的生物途径及细胞中的定位对基因产物进行了标准化描述，所谓的 GO，是生物学功能注释的一个标准词汇表术语（GO term），将基因的功能分为三部分：基因执行的分子功能（ Molecular Function）, 基因参与的生物学过程（Biological Process）, 基因所处的细胞组分（ Cellular Component）。对每个分类下比对上的基因数进行统计。

8、 NR数据库注释：NCBI非冗余蛋白数据库比对得到对应物种分类信息比率，能知道基因组物种信息。

9、 GTBD注释结果

这一分类系统以细菌中普遍存在的120个单拷贝蛋白质（bac120）为基础；在对多分组类别消歧后，根据相对演化散度标准化和分级，得到基因组分类数据库（GTDB release95）。将质控后的reads与GTDB数据库进行比对注释物种信息。

10、 Swiss-Prot 数据库注释

Swiss-Prot,是2002年由 UniProt consortium 建立的基因数据库，其特点在注释结果经过实验验证，可靠性较高，可用作其他数据的参考。

10、CAZy注释： CAZy （Carbohydrate-active enzymes，碳水化合物活性酶）数据库是研究碳水化合物酶的专业级数据库，主要涵盖 6 大功能类：糖苷水解酶（Glycoside Hydrolases ，GHs）；糖基转移酶（Glycosyl Transferases，GTs）；多糖裂合酶（Polysaccharide Lyases，PLs）；碳水化合物酯酶（Carbohydrate Esterases，CEs）；辅助氧化还原酶(Auxiliary Activities , AAs)；碳水化合物结合模块（Carbohydrate-Binding Modules，CBMs）。对每个分类下比对上的基因数进行统计。

11、 CARD数据库注释: CARD（Comprehensive Antibiotic Resistance Database）数据库，其核心是 ARO(Antibiotic Resistance Ontology)，ARO 包含了与抗生素抗性基因，抗性机制，抗生素和靶相关的term。通过ARO（the Antibiotic Resistance Ontology）的形式整合了抗性基因，抗性类型，抗性机制等信息。CARD 数据库已成为目前最受欢迎的耐药基因研究工具之一。

12、毒力因子分析VFDB

毒力因子数据库VFDB 由中国医学科学院研发，被广泛应用于毒力因子基因鉴定。

13、 PHI注释：PHI（ Pathogen Host Interactions Database），病原与宿主互作数据库，主要来源于真菌、卵菌和细菌病原，感染的宿主包括动物、植物、真菌以及昆虫。该数据库对寻找药物干预的靶基因研究有重要作用，同时该数据库还包括抗真菌化合物和相应的靶基因。数据库中的每个基因都包含核酸和氨基酸序列，以及感染宿主过程中预测的蛋白功能的详细描述。病原体PHI表型突变类型基因数目的统计如下：