首页 > 更多教程 > Pride Archieve原始数据上传指南 | 蛋白专题
2023
05-20

Pride Archieve原始数据上传指南 | 蛋白专题

1

如何向PRIDE提交数据

PRIDE可以直接提交蛋白质和多肽鉴定/定量数据以及随附的质谱证据和任何其他相关数据类型。PRIDE支持任何实验方法得到的蛋白质组学数据集的存储。当前,向PRIDE提交数据的方式是使用“PX Submission tool”(详细操作步骤与附于文末)。

2

注册成为PRIDE注册用户

在提交到PRIDE数据库之前,用户需要确保它具有使用PRIDE资源的帐户。如果您还没有PRIDE帐户,请点击https://www.ebi.ac.uk/pride/archive/register进行创建。成功注册后不会发送自动电子邮件。如果注册24小时后登录信息无效,请联系 [email protected]进行处理。

3

什么是PRIDE数据集?

一般规则是,一个数据集中的数据应当与同一手稿相关,而且所有数据都来自同一工作流程(例如:DDA)。如果手稿包含来自不同蛋白质组学工作流程(DDA和SRM)的数据,则需要将数据拆分为不同的数据集,以便第三方轻松理解。但是,应该强调的是,数据集如何组成由提交者,这可能还取决于其它某些因素(例如出版刊物)。

4

全部和部分提交

PRIDE支持两种类型数据集提交方式:

1)完整提交:完整提交可确保处理结果相关质谱数据可以通过PRIDE解析、整合和可视化,并将鉴定结果与质谱数据进行关联。为此,鉴定结果需要以PSI开放标准格式(mzIdentML或mzTab)提供。

2)部分提交:在这种情况下,处理后的识别结果将以不同于上述完整提交的数据格式提供。对于PRIDE,则无法将鉴定结果进行解析、整合和可视化以及将处理后的结果与质谱图相对应。但是,所有提交的文件都可以下载,这种机制允许从无法导出为支持格式的软件生成的数据,或从不太成熟的蛋白质组学实验方法中生成的数据都能存储在PRIDE中。

5

提交准备

首先,需要了解哪些文件是强制性的,哪些是推荐的,哪些是可选的,以及提供每种文件类型的好处。每个提交给PRIDE的数据集都必须包含以下信息(遵循ProteomeXchange指南):

1)质谱仪输出文件(RAW文件)(强制提交):RAW文件是本机数据文件(Thermo .RAW,ABSCIEX .wiff/.scan,Agilent .d,Waters .raw,Bruker .yep,Bruker .baf )。每个RAW文件需要与至少一个SEARCH文件相关联。

2)mzTab或mzIdentML结果文件(结果文件)(完整提交必须):mzTab和mzIdentML是大多数分析软件工具提供的标准文件格式。mzIdentML文件仅包含标识信息,而mzTab文件可以包含标识和定量结果。这些文件至少需要与一个“ PEAK”(peak list)文件相关联。

3)肽/蛋白质鉴定文件(SEARCH文件)(部分提交必须,完整提交可选):这些是用于执行数据分析的软件输出文件(Mascot .dat,ProteomeDiscover .msf)。每个SEARCH文件至少与一个RAW文件相关联。

4)PEAK列表文件(PEAK文件)(完整提交必须):如果提供了mzTab或mzIdentML,则必须提供相应的PEAK列表文件,以便能够检查MS / MS证据以支持肽段/蛋白质鉴定。

也可以选择将其它相关文件包含在数据集提交中,以利于审核过程、重现原始结果或对数据集的理解:

以下文件有特定标签:实验中生成的凝胶图像('GEL'),搜索序列数据库文件(FASTA),质谱库('SPECTRUM_LIBRARY')以及任何其它相关文件('OTHER')。

6

数据集提交

文件上传需要通过 PX Submission Tool。PX提交工具指导用户完成提交过程,最后生成submitting.px文件。Submit.px文件包含两种关键信息:

1)元数据:必需的实验元数据,例如实验说明,样品分类信息,使用的仪器和蛋白质修饰类型。

2)上传文件之间的映射关系:例如RAW文件与相应的“RESULT”或搜索引擎输出文件(“SEARCH”)之间的映射。

最终,用户可以使用Aspera(默认)或PX提交工具提供的FTP文件传输协议提交数据集。

7

提交后步骤

1)修改原始数据集:如果您需要添加少量补充“其它文件”(例如csv,纯文本文件,扩展表格,脚本等),可以通过FTP协议上传并将其添加到原始数据集,而无需重新提交整个数据集。如果您使用了PX Submission Tool ,并且需要添加其他RAW文件以及随附的RESULT或SEARCH文件,则需要再次重新提交整个数据集。

2)引用论文中的数据集。

3)公开发布数据集

默认情况下,在稿件被接受或得到作者通知后,数据集将被公开。通知方式:

  • 通过PRIDE存档网站(http://www.ebi.ac.uk/pride/archive)。帐户登录http://www.ebi.ac.uk/pride/archive/login,单击未发布的数据集旁边的绿色“发布”按钮。您可以在此处提供数据集的详细信息并提交Web表单。
  • 如果您不是原始提交者,但是发现该数据集已包含在出版物中,则可以直接转到https://www.ebi.ac.uk/pride/archive/projects/PXDxxxxxx/publish,其中“xxxxxx'是包含PXD数据集标识符的整数。

将项目公开后,将在PRIDE中发布项目页面,也可以在ProteomeCentral(http://proteomecentral.proteomexchange.org)上找到该页面。

数据集公开发布政策的例外

仅在有案可查的特殊情况下才可授予本政策的例外情况,具体情况将逐案考虑。如果原始提交者已在其他正在进行的研究中使用或计划使用相同的数据集(应发布),则他们可以请求一次扩展未发布状态。延长期限最长为6个月。数据所有者必须向PRIDE提出正式请求,并适当证明该请求的合理性。应当注意的是,这个为期6个月的延期并未考虑发表该文章的科学期刊的要求,这可能会要求无论如何都要立即发布数据。

附录1.支持文件归类:

附录2.支持上传原始数据性:

附录3.SEARCH文件类型:

附录4.PEAK文件类型:

附件5.RESULT文件类型:

提交SOP:

https://www.ebi.ac.uk/pride/static/markdown/submitdatapage/files/Submission_Tutorial.pdf

指导文献:

https://onlinelibrary.wiley.com/doi/full/10.1002/pmic.201400120

参考文献

https://www.ebi.ac.uk/pride/markdownpage/submitdatapage

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情