首页 > 科研教程 > “我的数据上传NCBI又报错了...” “攻略拿去!”
2020
10-25

“我的数据上传NCBI又报错了...” “攻略拿去!”

上一期的内容 中,我们分享了NCBI测序数据上传的主要步骤和资料填写的注意事项。今天跟大家分享最后一步:原始测序数据的上传以及上传后项目编号的相关类型和含义。

图1 NCBI测序数据上传步骤

原始测序数据上传

完成样本属性和样本测序建库相关信息的填写后,下一步(第7步)即为测序数据上传。当然,如果测序数据量比较大,也可以在申请账号后就开始数据预上传,然后在第7步选择对应文档就可以。预上传和第7步的上传方法一样(图2、图3)。

预上传界面:

登录后 → my submissions → Options to preload data。

图2 预上传界面

图3 第7步上传界面

Aspera和FTP都是远程传递大数据量的软件。通过软件将本地地址与远程地址相连,进行文件的高速传输。

我们以Aspera浏览器、Aspera命令行、FTP 3种形式为例介绍三种上传方法,Aspera命令行看起来是代码形式,比较复杂,但其实命令很简单,上传非常快而且稳定,大文件推荐使用Aspera命令行模式。

软件安装

1. Aspera软件安装

下载地址:

https://downloads.asperasoft.com/connect2/

Tips:选择“典型安装”模式,避免无法自动弹窗显示。

2. FTP 安装

下载地址:

https://filezilla-project.org/download.php?type=client

方法一Aspera浏览器

安装成功后,进入 “步骤7”,出现弹框,询问是否启用IBM Aspera,选择“打开”(图4);选择第一项,点击“选择文件”,弹框后,选择“允许”,选择对应文档,即进入上传界面(图5)。

图4 启用Aspera

图5 Aspera浏览器上传

Tips:如果将不同样本的序列文件压缩成一个文档,选择continue会出现warning(图6),提示找不到第6步meta data表格中的文档名,再次点击continue,NCBI会自动解压并核对文档。

图6 如有多个序列文件压缩,会提示warning界面

Tips:此步上传的序列文档名需要与metadata表格填写的filename完全一致,且文档数量也要一致。

方法二Aspera命令行模式

在预上传界面打开命令行的上传说明,或者在第7步勾选命令行选项。

1. 下载aspera.openssh,记录NCBI数据接收地址,即上传者专属路径(图7)。

图7 账户对应的专属路径和密钥界面

2. 查找记录aspera.openssh和ascp.exe两个文档的存储路径,添加两个“环境变量”:ASPERA_SCP_PASS 和Path(图8)。

图8 添加环境变量

操作如下:

我的电脑 → 鼠标右键→ 属性 → 高级系统设置 →环境变量 → 新建 →

“变量”输入“ASPERA_SCP_PASS”,“值”输入“路径/aspera.openssh”;

新建 →“变量”输入“Path”,“值”输入“路径/ascp.exe” → 确定。

3. 进入命令行模式:

Windows + R → 输入cmd → 确定 → 打开命令提示符

4. 输入命令:

(1)命令构成(各成分以空格相连):

①"路径ascp.exe"

②-i "路径aspera.openssh"

③上传参数

④"数据存放路径"

⑤NCBI接收地址

(2)命令示例:

①"C:UsersAdministratorAppDataLocalProgramsAsperaAsperaConnectbinascp.exe"

②-i "D:aspera.openssh"

③-QT -l100m -k1 -d

④"D:raw data" ⑤[email protected]:uploads/[email protected]_JexlxJIL

Tips:-l100m,表示设定的最大上传速度。

Tips:-d表示打开本地路径,建议先将所有待上传的测序数据放在一个文件夹内,再输入命令行,即可上传该文件夹内所有文档。

如图9,输入命令后回车,界面会显示读取的文档列表、上传进度、文件大小、速度和耗时。完成后会给出Completed说明。

图9 Asper命令行上传界面(当前速度每秒约9.4M)

5. 上传完成后,回到NCBI界面,点击刷新,选择文档

Tips:一般上传完成后,需要等待大约10min,NCBI网页才会同步上传完成。

方法三FTP上传

在预上传界面打开FTP的上传说明,或者在第7步勾选FTP选项。

1. 按图10,记录红框中的相关信息

图10 FTP上传提示

2. 打开软件,本地站点打开对应文件夹(图11)。

图11 FTP上传文档选择

3. 建立连接(图12),输入对应主机(Address),用户名(Username),密码(Password)。

图12 与NCBI建立连接

4. 输入远程站点分配的目录位置,enter键进入上传目录(图13)。

图13 远程连接

5. 在左边的“本地站点”找到要上传的文件夹,点击鼠标右键,点“上传”,页面下边则会有文件在上传的队列中。上传完成后,回到NCBI界面刷新。

Overview 总览

上传完成后可检查所有信息,确认无误后提交。

跳转至my submission,显示已提交,等待处理。大约10分钟后,Bioproject和Biosample一般会先处理完成,然后SRA待处理(图14)。1-2天后,SRA处理完成,即可获得样本和项目的SRA编号。

图14 上传进程查看

由于整个过程涉及到的编号非常多,所以我们进行了对比汇总,其中红色编号表示可以用在文章中作为检索测序数据的编号(图15)。

图15 NCBI上传编号说明

以上就是原始测序数据上传至NCBI的SRA数据库的所有操作指南,希望能帮助大家在数据上传时少走一些坑,让数据上传之路畅通无阻~


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情