我们在NCBI、TCGA、GEO等数据库下载数据时,经常遇到controlled access(限制下载)的数据,不知道怎么弄,有时选择其他可以下载的数据代替,或者直接放弃了。其实这些数据库都是需要通过dbGaP申请下载权限的。
这里就以NCBI为例给大家介绍一下dbGaP数据权限申请过程,以及数据下载解密时要注意的地方。
Step1:获取账号
dbgap账号需要NCI/NIH认证资格,一般是实验室的PI、且申请过NIH或是NCI的资助,才可能有dbgap账号。所以我们要咨询一下实验室的PI有没有账号,有的话基本成功一半了。
Step2:创建Project
拿到账号登录进去,会看到下图这样的导航栏。选择”My Projects”,点击下面的”Create Research Project”,创建一个新项目。
Step3:填写项目内容
项目申请的页面如下:
A. 首先要选择你要申请的dataset,这里可以搜索dataset的编号,也可以按照类型筛选,勾选dataset前面的多选框就行(可多选)。选择好之后拉到最下面,点击”Add Selected and Continue”。
B. 下面就要填写你的项目内容,也就是你申请这个数据要用来做什么研究的具体介绍。包括:项目名称、项目具体介绍、以及非专业的介绍。此外还需要选择SO信息、 Collaborators、IT Director等信息,这些信息PI都有,可以让你们实验室的PI填写。有的数据要按要求准备其他(比如:IRB approval)文件并上传。
C. 确认信息、提交
填写完基本信息之后,在Confirm Datasets那一栏里确认一下信息,一步步确认点下来,提交就可以了。然后就是等待。。。。。几个星期之后可以在My Request里面查看审核状态。
Step4. 下载数据和Key
点击Downloads,可看到审核通过的可以下载的datasets列表,点击右侧Actions栏里面的Download可以下载数据(需要安装aspera),此处下载的数据是加密的,文件后缀是".ncbi_enc"。点击"get dbGaP repository key"下载解密要用的key,文件以“.ngc”结尾。
Step5. 文件解密
解密使用的软件是SRA-Toolkit,建议在linux端运行。
导入key文件:
vdb-config --import xxxx.ngc
(xxxx.ngc为key文件)
此时会自动创建"/home/ncbi/dbGaP-xxxx"文件夹及一些子目录,之后的解密命令要进入该文件夹操作
进入ncbi路径:
cd /home/ncbi/dbGaP-xxxx
运行解密命令:
vdb-decrypt xx.ncbi_enc
(xx.ncbi_enc为下载的需要解密的文件)
注意,运行vdb-decrypt时一定要切换到ncbi路径里,否则会报错!
大功告成!就可以看到文件加密后缀不见了,变成我们熟悉的文件格式。
以上就是dbGaP数据申请和下载解密的方法,希望大家都能顺利申请到权限,利用好公共数据库。
转自生信草堂
- 本文固定链接: https://maimengkong.com/kyjc/1487.html
- 转载请注明: : 萌小白 2023年4月28日 于 卖萌控的博客 发表
- 百度已收录