【生物信息学笔记】欧洲生物信息中心（EBI）资源

我们接着讲生物信息学的资源，之前我们介绍了NCBI，欧洲也有一个非常大的centralized resource，叫EBI 。

和NCBI有点类似，也是一个包含各种各样数据库这样的资源，它主要也是针对从序列到蛋白到蛋白结构到表达到通路到Ontology各个方面。

首先在DNA，RNA和蛋白的方面，基因和基因组最主要是有一个ensembl，很多人不知道EBI也会知道ensembl，是一个整合的基因和基因组的一个资源，另外也有一个原始数据，比如说像Metagenomics的一些数据，还有大规模测序数据的一些资源，比如说千人基因组。工具上有BLAST，Clustal Omega等等。

在蛋白层面，有UniProt，这是蛋白的一个Reference 和InterPro,这是所有蛋白功能区间整合的一个数据库，蛋白质组学的数据也有很多的数据，主要在PRIDE里面可以找到，EBI也有一系列蛋白的三维结构的数据库。基于它前面的原始数据和二级数据，EBI也有一系列的软件工具，包括InterProScan，就是针对InterPro收集的这些蛋白家族构建的功能区域的motif来预测你输入的序列有没有哪些已知功能区间，还有以下几个蛋白功能预测的工具等等，在表达方面也存储了很多表达数据，在前面的这些年主要是芯片的数据，现在主要是RNA-seq的数据。

EBI做得比较强的一点是有很多相互作用，通路和反应Reaction的数据，比如说有IntAct分子相互作用的数据，有Reactome通路的数据库和BioModel，主要是网络的动态特征和模型。它有一个比较庞大的蛋白酶数据集，另外还有若干个小分子数据库。Gene Ontology是我们上一次课讲得比较多的，在EBI的资源里，还有系统生物学本体论，和实验生物学本体论等等。

选其中的几个简单地做一个介绍首先是大家用的很多的Ensembl，Ensembl界面有点介于NCBI和UCSC的资源，它也整合了很多很多的物种的数据。

像这里列出来的是整合的一部分物种，还不是完整的列表，这个页面可以下载到完整的列表，可以看到有没有感兴趣的物种。

如果来看人的数据，现在一共有30多亿的碱基对，比较强的证据大概有20000多个基因另外有9000多短的非编码基因，有13000多长的非编码基因，还有14000多的假基因，假基因是指原来是coding gene,后来由于功能的冗余，或者说他们上面逐渐累积突变，fitness没有明显降低，所以会留下来，另外还有各种不同的遗传变异，都在ensemble的数据库可以找到 ensemble的data主要有下面几大类。

一大类是有专职人员读文献来建reference就是专家看过并且整合好的数据集，还有是没有人看过的高通量实验产生的原始数据集，还有不是高通量也没有看过的用户提交的一些数据。另外也有一些完全用计算方法生成的数据集，这几类各自都各自的意义，在ensemble里都有整合，每一类都有不同的标识。

举几个例子，比如说序列就有clone set ，里面有一些预测出来的转录起始位点，variation在UniProt里面有人给看过的表型的信息，像HapMap测了很多人种的不同的个体的基因变异，这个很多没有一个一个地看过就属于Large-scale project的数据那另外还有就是James Watson的基因组可以在Ensembl里面看到。

另外还有UniProtKB,它的前身是PIR，再前身是1965年时，Dayhoff 最先出版的一本书Protein atlas 后来逐渐演变成网上数据库后来基本上现在都是整合到UniProt里面，Unified protein knowledge base，所以看到大一统也是领域的趋势之一。

现在UniProt数据库里又分两类，一类是Swiss-Prot，还有一类叫TrEMBL，这两类有什么差别呢？Swiss-Prot是人工校对过的蛋白的集合，现在一共有54万条看到也是一个增长的趋势。

TrEMBL存储的是还没有来得及人工校对的序列，所以 TrEMBL一共有4800万，这个增长趋势就更加陡峭。

EBI另一个有用的资源叫IntAct IntAct存储的是分子之间相互作用，目前是有43万个不同的相互作用，其中涉及到将近8万个蛋白和小分子。他们的信息来自于10000多文献，这些文献报道了30000多的实验，所以可以看到这么大量资源对于你的研究应该是很有帮助的，因为不管你现在研究的是什么物种和什么家族，如果上网仔细搜索，都会有很多相关的数据和信息，如果你没有上过生物信息学的课，不知道这些数据和信息存在的话，其实是非常危险的。不光是说浪费点时间，有可能这个课题有的信息你就不知道，整个课题就会有很致命的伤害，所以我们建议大家，即使将来不做生物信息学的研究，也要把这些数据当作文献一样，在做一个课题之前，都会去检索一下文献，看看别人已经研究什么，做完文献检索之后，马上就要检索一下数据，看看已经有什么数据了。

已经知道了什么数据，有什么低通量的数据，有什么高通量的数据，这应该成为研究的一部分。

IntAct这个数据库也是有较快的一个增长，它的实验技术包括tandem affinity purification，酵母双杂，pull down等几大类实验方法。相互作用类型最多的是物理上的藕联，还有一些是不确定哪一种association，有一些是co-localization，只是说他们共同的定位涉及的物种最多的是人和酵母，然后是小鼠果蝇线虫E.coli等等其实也是围绕着最重要的这些模式生物。

EBI很重要的一个资源就是Clustal Omega，是做多序列比对的一个资源，另外一个是InterProScan 。

就是输入一个序列，找这个序列是否包含任何已经知道的蛋白功能区域看到这里的显示，InterProScan整合了324个新的方法，如果没有InterPro的话，你可能就要把这300多方法一个一个地跑一遍，他们结果的格式也不一样，还要逐个看一遍，所以这样整合的资源价值是很大的，下周我再用一个Unit给大家介绍一下UCSC的Genome Browser。