微生物扩增子测序是研究微生物组成的重要方法,且成本较低,是许多课题组的首要选择。扩增子测序数据分析最主要的一个材料就是扩增子数据库,用来与测序数据进行比对,并进行物种注释,主要收录了微生物的16S,18S个ITS序列信息。扩增子数据库版本较多,本期就对主流的扩增子数据库进行一个详细的整理和介绍,以便大家选择使用。
1. GreenGenes
网址:http://greengenes.secondgenome.com/
GreenGene是一个最经典的16S物种数据库,专门针对细菌、古菌16S rRNA基因。该数据库是基于人工整理,数据更加比较准确。分类上采用的是通用的界门纲目科属种七级,方便使用者理解和阅读。可惜的是,该数据库很久未更新了,目前的最新版本还是2013年更新的。但是很多实验室还是热衷于用该数据库进行注释,而且PICRUST、QIIME等诸多工具也是基于该数据库设计的。
2. SILVA
网址:https://www.arb-silva.de/
SILVA数据库是收纳细菌、古菌和真核微生物的rRNA基因序列的综合数据库,该数据库包含了原核和真核微生物的小亚基rRNA(16S和18SrRNA)和大亚基rRNA(23S和28SrRNA)序列。该数据库更新很频繁,但是数据假阳性较greengene高。而且该数据库的物种注释采用的是14级,与常用的七级不同,不方便比较。
3. RDP
网址:https://rdp.cme.msu.edu/index.jsp
RDP数据库的全称是“RibosomalDatabase Project”。是由密歇根州立大学开发维护的在线工具,内容主要包括了数据库和在线分析工具2部分。其中,数据库部分提供了细菌、古菌的16S rRNA基因以及真菌28S rRNA基因序列。其最新版本是2016年9月更新,包含了3356809条16S rRNA基因序列和125525条真菌28S rRNA基因序列。
4. UNITE
网址:https://unite.ut.ee/index.php
UNITE数据库是专门针对真菌ITS序列,包括ITS1和ITS2区最全面的数据库。ITS是最常用的真菌鉴定及多样性检测的marker基因,UNITE是ITS高通量测序后对真菌进行分类注释的比对最常用的数据库。该数据库最新版本是2017年12月更新,新版本包含 817130条ITS序列,可以下载数据库,也可以在线对ITS序列进行鉴定(https://unite.ut.ee/analysis.php)。
5. PR2
网址:https://figshare.com/articles/PR2_rRNA_gene_database/3803709
PR2数据库是专门针对真核微生物18SrRNA基因的数据库。该数据库主要由核编码的原生生物序列构成,但为方便分析18S的高通量测序数据,数据库也包含了后生生物、陆地植物、大型真菌和真核细胞器(线粒体、质体等)的SSU序列。该数据最新更新是在2018年2月。
6. FunGene
网址:http://fungene.cme.msu.edu/index.spr
FunGene是一个针对微生物功能基因序列的数据库,而且提供了一些工具对功能基因进行分析。FunGene数据库将功能基因分为了7类,抗生素抗性(Antibiotic resistances)、生物地球化学循环(Biogeochemical cycles)、植物的致病基因(Plant Pathogenicity)、系统进化标记(Phylogenetic markers)、生物降解(Biodegradation)、金属循环(Metal Cycling)和其他(Other。FunGene的序列来源于GeneBank 数据库,而GeneBank 数据库是有冗余的,所以FunGene 也会有冗余现象,所以在下载完序列之后,需要去冗余。FunGene可被用于功能marker基因高通量测序后的比对以及功能基因的引物设计等。
7. NCBI
网址:https://www.ncbi.nlm.nih.gov/
除了上述数据库之外,另一个最全面的当属NCBI,而该数据库中的信息是没有专人整理的,所以会有冗余,且有相当的错误率,需要自己整理和甄别。
转自生信草堂公众号- 本文固定链接: https://maimengkong.com/zu/853.html
- 转载请注明: : 萌小白 2022年3月23日 于 卖萌控的博客 发表
- 百度已收录