最近很多老师的单细胞文章都纷纷开始投稿,却被文章发表前的临门一脚——GEO数据上传难住了,今天我们就来一起学习下单细胞数据上传GEO的具体操作步骤吧~
跟着这份操作指南,上传从此不再犯难!
· GEO数据库简介 ·
GEO数据库全称Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要用来储存二代测序、芯片以及其他高通量测序数据。利用这个数据库,我们可以公开共享自己的实验测序数据,也可以检索到其他文章上传的数据。很多文章在正式见刊前会要求将数据上传到GEO数据库中,具体如何操作呢?别担心,按照以下流程一步步来即可~
1、NCBI帐号注册/登录
进入网站
https://www.ncbi.nlm.nih.gov/geo/submitter/
如果已有NCBI帐号,点击Login登录;
如果没有则需要注册,注册步骤很简单,填写带星号(必填)的个人基本信息和邮箱地址即可(注意需要填写常用邮箱,后续上传成功或失败消息都会通过邮件形式告知)。
2、文件准备
点击进入
https://www.ncbi.nlm.nih.gov/geo/info/submission.html,
选择上传数据的类型:
Submit high-throughput sequence submisssions(高通量测序数据)。
这里我们需要准备三个文件,分别是:
① Metadata spreadsheet
② Processed data files
③ Raw data files
① Metadata spreadsheet
Metadata spreadsheet的示例模版表格可以从官网下载
(如下图,也可以进入以下链接直接下载https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx)。
表格中的蓝色加粗字体为必填项,蓝色未加粗的为选填项。右上角有红色三角标志的表格,将鼠标放上去会弹出填写内容的提示。以下是对表格里7个模块的详细说明:
· 1.1 SERIES
上传数据的基本信息
比如文章标题、研究目的、样本数量、来源、测序平台、主要贡献者等。
* 填写示例如下 *
·1.2 SAMPLES
样品描述信息
包括样品名称、组织来源、物种、年龄、表达量数据和原始数据等。
* 填写示例如下 *
·1.3 PROTOCOLS
样品的处理和建库等详细信息
可以参考项目报告的附录《欧易生物单细胞转录组实验技术方法说明_英文》进行填写。
* 填写示例如下 *
·1.4 DATA PROCESSING PIPELINE
数据处理步骤和比对参考基因组信息等……
可以参考项目报告的附录《欧易生物单细胞转录组生信分析方法_英文》进行填写。
* 填写示例如下 *
·1.5 PROCESSED DATA FILES
分析得到的基因表达量数据
可以是CellRanger/outs/filtered_feature_bc_matrix中的三个结果文件。
·1.6 RAW FILES
原始数据文件名称、格式、MD5值、测序平台和单双端信息等。
·1.7 PAIRED-END EXPERIMENTS
如果是双端测序,需要填写原始数据Read1 和Read2文件名称。
② Processed data files
基因表达量数据文件,即1.5 PROCESSED DATA FILES步骤中填写的三个结果文件。
③ Raw data files
测序原始数据,一般上传fastq.gz文件即可。
准备文件就绪,万事俱备,只欠东风~下面可以正式开始上传啦!
3、数据上传
回到GEO上传界面,点击Transfer Files,GEO会为你创建一个专属上传空间:uploads/********,如下图的Step1所示。
对于Windows用户,GEO官方推荐使用FileZilla软件
(下载地址:https://filezilla-project.org/),FileZilla软件界面如下所示。
首先使用上图Step2中公布的帐号密码登录
- 主机地址:ftp-private.ncbi.nlm.nih.gov
- 用户名:geoftp
- 密码:rebUzyi1(密码可能会不定期更新)
端口号不填,点击快速连接按钮(如果有出现permission demined提示,不影响,忽略即可)。
接着在下方右侧远程站点的地址框中,输入上图Step1提供的个人上传路径:uploads/********,按回车键进入。
最后,在个人上传目录里新建一个文件夹(文件夹名可以是GEO账户名),把第二步我们准备好的文件:Metadata spreadsheet信息表、Processed data files基因表达矩阵、Raw data files原始测序数据,全部拖到该文件夹下即可。
(由于单细胞数据量大,整体上传时间会比较久,这时候可以泡杯咖啡,再次自我检查一下文件是否都已填写完整,耐心等待上传完成就可以啦~)
4、通知GEO上传完成
文件上传完成后,点击Step3中的Notify GEO通知GEO,提交后会出现如下页面。
注意:如果上传之后没有及时通知GEO上传完成,文件会在两周后自动删除哦。
如果上传无误,GEO会在5个工作日内给你邮件发送GEO登录号,如:GSEXXXX。如果有问题,工作人员也会通过邮件告知你需要修改的地方,修改后再次上传即可。审核通过后会收到GEO登录号,可以用于准备发表的文章中。
有GEO上传需要,准备发文章的老师们,赶快来试一试吧~
- 本文固定链接: https://maimengkong.com/zu/1777.html
- 转载请注明: : 萌小白 2024年8月18日 于 卖萌控的博客 发表
- 百度已收录