首页 > 组学教程 > 单细胞数据上传GEO操作指南
2024
08-18

单细胞数据上传GEO操作指南

最近很多老师的单细胞文章都纷纷开始投稿,却被文章发表前的临门一脚——GEO数据上传难住了,今天我们就来一起学习下单细胞数据上传GEO的具体操作步骤吧~

跟着这份操作指南,上传从此不再犯难!

· GEO数据库简介 ·

GEO数据库全称Gene Expression Omnibus,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要用来储存二代测序、芯片以及其他高通量测序数据。利用这个数据库,我们可以公开共享自己的实验测序数据,也可以检索到其他文章上传的数据。很多文章在正式见刊前会要求将数据上传到GEO数据库中,具体如何操作呢?别担心,按照以下流程一步步来即可~

1、NCBI帐号注册/登录

进入网站

https://www.ncbi.nlm.nih.gov/geo/submitter/

如果已有NCBI帐号,点击Login登录;

如果没有则需要注册,注册步骤很简单,填写带星号(必填)的个人基本信息和邮箱地址即可(注意需要填写常用邮箱,后续上传成功或失败消息都会通过邮件形式告知)。

2、文件准备

点击进入

https://www.ncbi.nlm.nih.gov/geo/info/submission.html,

选择上传数据的类型:

Submit high-throughput sequence submisssions(高通量测序数据)。

这里我们需要准备三个文件,分别是:

① Metadata spreadsheet

② Processed data files

③ Raw data files

① Metadata spreadsheet

Metadata spreadsheet的示例模版表格可以从官网下载

(如下图,也可以进入以下链接直接下载https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx)。

表格中的蓝色加粗字体为必填项,蓝色未加粗的为选填项。右上角有红色三角标志的表格,将鼠标放上去会弹出填写内容的提示。以下是对表格里7个模块的详细说明:

· 1.1 SERIES

上传数据的基本信息

比如文章标题、研究目的、样本数量、来源、测序平台、主要贡献者等。

* 填写示例如下 *

·1.2 SAMPLES

样品描述信息

包括样品名称、组织来源、物种、年龄、表达量数据和原始数据等。

* 填写示例如下 *

·1.3 PROTOCOLS

样品的处理和建库等详细信息

可以参考项目报告的附录《欧易生物单细胞转录组实验技术方法说明_英文》进行填写。

* 填写示例如下 *

·1.4 DATA PROCESSING PIPELINE

数据处理步骤和比对参考基因组信息等……

可以参考项目报告的附录《欧易生物单细胞转录组生信分析方法_英文》进行填写。

* 填写示例如下 *

·1.5 PROCESSED DATA FILES

分析得到的基因表达量数据

可以是CellRanger/outs/filtered_feature_bc_matrix中的三个结果文件。

·1.6 RAW FILES

原始数据文件名称、格式、MD5值、测序平台和单双端信息等。

·1.7 PAIRED-END EXPERIMENTS

如果是双端测序,需要填写原始数据Read1 和Read2文件名称。

② Processed data files

基因表达量数据文件,即1.5 PROCESSED DATA FILES步骤中填写的三个结果文件。

③ Raw data files

测序原始数据,一般上传fastq.gz文件即可。

准备文件就绪,万事俱备,只欠东风~下面可以正式开始上传啦!

3、数据上传

回到GEO上传界面,点击Transfer Files,GEO会为你创建一个专属上传空间:uploads/********,如下图的Step1所示。

对于Windows用户,GEO官方推荐使用FileZilla软件

(下载地址:https://filezilla-project.org/),FileZilla软件界面如下所示。

首先使用上图Step2中公布的帐号密码登录

  • 主机地址:ftp-private.ncbi.nlm.nih.gov
  • 用户名:geoftp
  • 密码:rebUzyi1(密码可能会不定期更新)

端口号不填,点击快速连接按钮(如果有出现permission demined提示,不影响,忽略即可)。

接着在下方右侧远程站点的地址框中,输入上图Step1提供的个人上传路径:uploads/********,按回车键进入。

最后,在个人上传目录里新建一个文件夹(文件夹名可以是GEO账户名),把第二步我们准备好的文件:Metadata spreadsheet信息表、Processed data files基因表达矩阵、Raw data files原始测序数据,全部拖到该文件夹下即可。

(由于单细胞数据量大,整体上传时间会比较久,这时候可以泡杯咖啡,再次自我检查一下文件是否都已填写完整,耐心等待上传完成就可以啦~)

4、通知GEO上传完成

文件上传完成后,点击Step3中的Notify GEO通知GEO,提交后会出现如下页面。

注意:如果上传之后没有及时通知GEO上传完成,文件会在两周后自动删除哦。

如果上传无误,GEO会在5个工作日内给你邮件发送GEO登录号,如:GSEXXXX。如果有问题,工作人员也会通过邮件告知你需要修改的地方,修改后再次上传即可。审核通过后会收到GEO登录号,可以用于准备发表的文章中。

有GEO上传需要,准备发文章的老师们,赶快来试一试吧~



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情