首页 > 组学教程 > 这些数据库,强大-高通量-易操作还容易发SCI!
2024
12-12

这些数据库,强大-高通量-易操作还容易发SCI!

数据库的提供了生物信息学的极大便利,也是数据挖掘的基础。现在最常见的数据库主要是GEO,TCGA,OMIM等数据库,尤其是前两者,几乎是肿瘤数据挖掘的必备数据库,TCGA更是专门肿瘤数据库。但是科学研究并不全是肿瘤研究,这里精选介绍3种强大的,而且是非肿瘤的数据库,希望对大家有用。

1

peoteomexchange数据库

peoteomexchange数据库是专门蛋白质组学的数据库,包含了各种疾病和各种组织。该数据库有很多科学家把自己发表了文章的数据上传到这里,形成了庞大的数据资源。另外,蛋白组学类的期刊比如《journal of proteome research》,《FEBS Journal》,《Biomolecules》等期刊要求组学数据公开并放在peoteomexchange数据库中,这也使得组学数据更加容易查到。数据库的网址是:

http://www.proteomexchange.org/

有时候这个网址不一定可以打开,用VPN即可。

peoteomexchange的操作和使用比较简单,下载和上传数据都可以。数据挖掘需要下载数据,直接检索相关基因名称,组织名称,疾病即可。值得一提的是,现在最热门的外泌体,其蛋白质组学数据也被收录在peoteomexchange数据库中,这使得该数据库适用于各类研究。

以甲状腺乳头状癌为例。每一个蛋白组学数据都有特定的数据库的ID,一般是以PXD开头。点击进入后会有详细的数据来源介绍,包括文章名称,样本种属,组织来源,质谱检测平台,并提供了数据下载列表。一般的数据会有分析好的数据,大多数数据都会提供质谱的原始数据,可以下载下来自己重新搜库和分析。

2

ClinVar

ClinVar是NCBI下的与疾病相关的人类基因组变异数据库,提供一个标准化的,可信度高的遗传变异和临床表型相关的数据库。ClinVars整合了abSNP, abVar,Pubmed, OMIM的多个数据库的数据信息,详细收录了基因变异,临床表型,实验数据和功能注释与分析等信息。 网址:

https://www.ncbi.nlm.nih.gov/clinvar/

ClinVar的操作和检索也很简单,在NCBI的官网下,下拉菜单中选中ClinVar后,可以输入基因名称,蛋白名称,疾病名称,染色体位点等信息进行检索。

比如检索帕金森病,输入“parkinson’s disease”为例,可以检索出疾病相关的基因名称,突变位点,是否具有临床意义等信息。点击进入展示了基因的详细信息,并有实验证据和相关的文献列表,可以在PMID出点击链接到该文献。

3

ArrayExpress

https://www.ebi.ac.uk/arrayexpress/

网址一般不需要VPN即可进入,使用的话直接检索基因名称,疾病名称等即可,操作很方便。以帕金森病为例,输入后能够得到一个列表,可以很清楚的看到数据库ID,相关文献的标题,芯片检测类型,种属等。比如做LincRNA,miRNA或者甲基化等,可以很清楚地找到想要研究的类型,可以在type出进行类型的排序。

选定目标数据集以后,点击进入能够看到详细信息,并且提供了数据集下载链接,包含压缩包,txt格式等,可以免费下载和后续分析。 ArrayExpress和GEO数据库联合使用进行生信和meta分析,是最常见的发SCI思路,可以容易地检索到,这里附录上一篇非肿瘤的2020年的文献Doi:10.3389/fnins.2020.00209

4

Vesiclepedia

Vesiclepedia数据库是一个细胞外囊泡分子数据库,包含了独立研究的蛋白质,mRNA,miRNA,脂质等数据。数据库公开且免费,可以下载数据进行分析。 数据库网址是:

http://microvesicles.org/index.html

数据库的使用非常简单清晰,可以直接输入想要检索的基因名称,或者是miRNA名称等进行检索。另外,还可以按照 种属、囊泡种类、和样品类型进行检索。

5

miRBase数据库

miRBase序列数据库是一个庞大的公共数据库,专注地收录了miRNA序列数据,注释,预测基因靶标等信息的全方位数据库,在miRNA信息公共数据库中占有很重要的角色。数据可以下载进行分析。 miRBase数据库网址是:

http://www.mirbase.org/

数据库的使用比较简单,进入数据库以后,可以在search栏目下进行检索。可以按照miRNA的序列,名称,物种等进行搜索。以人的“miR-105-2为例”,结果会展示miRNA的序列,靶基因及其序列,染色体位置,生理功能,相关参考文献等。

6

MalaCards

MalaCards数据是一个人类疾病数据库,是一个综合性的数据库网站,收录并整合了72数据库信息。 MalaCards数据库网址是:

https://www.malacards.org/

数据库的使用比较直接,在检索里面搜索疾病名称即可,以帕金森为例,检索后可以展示帕金森相关的疾病分子,KEGG信号通路,还有其他数据库收录的突变基因等。

在高通量数据获得成本很高的前提下,可以使用数据库的数据进行分析并指导实验。生信文章的发表,离不开数据库使用和数据挖掘,上述peoteomexchange数据库,ClinVar数据库和 ArrayExpress数据库等极大补充了数据来源的问题。在前期工作中,这些数据库的应用适用于特定组织高通量数据很少的情况下,可以考虑这些数据库的组合使用去扩展样本量和数据量。


转自:医学方


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情