3款宏基因组组装软件,哪款最666?
卖萌控的博客
点击这里进入电脑版页面!体验更好
3款宏基因组组装软件,哪款最666?
2021-8-19 萌小白


组装是宏基因组分析中最重要的一环,它直接影响着后续基因集的构建、功能分析及物种注释等的分析结果。



小锐使用一个大约12G的土壤样本,测试了SOAPdenovo、megahit和metaSAPdes三个组装软件的组装性能。到底谁能胜出?请随着小锐一步一步来探个究竟。



1



软件安装



SOAPdenovo下载地址



http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/



MEGAHIT下载地址



https://github.com/voutcn/megahit



metaSPAdes下载地址



http://spades.bioinf.spbau.ru/release3.11.0/



评估软件quast下载地址



https://github.com/ablab/quast.git -b release_4.5



2



组装



SOAPdenovo组装



组装命令



SOAPdenovo-63mer all –s sample.config -p 10 -d 1 -K 55 -M 3 -F -u –o sample



参数说明



-s config配置文件



-p 需要使用的cpu数目,默认8



-K k-mer的长度(选取了4个kmer,分别是51,55.59,63)



-d [INT], kmerFreqCutoff, 去除频数小于等于该值的kmers,默认为0



-M [INT], mergeLevel连接contigs时, 合并相似序列的等级,默认为1,最小值为0,最大值为3



-F 利用reads对scaffolds的gap进行填补,默认不执行



-u 构建scaffold前屏蔽过高或过低覆盖度contigs,默认屏蔽



-o 输出文件前缀



MEGAHIT 组装



组装命令



megahit [options] {-1 <pe1> -2 <pe2> | --12 <pe12> | -r <se>} [-o <out_dir>]



参数说明



[options] 可以根据宏基因组数据的类型选择不同的类型,-1代表reads1,-2 代表reads2,-r 是single reads ; -o 是输出文件夹。



其他参数默认就可以,k-mer的长度是[21,29,39,59,79,99,119,141]。



metaSPAdes组装



组装命令



spades.py --meta -1 sample.1.fq.gz -2 sample.2.fq.gz -s sample.single.fq.gz -t -m -k -o <dirname>



参数说明



--meta 是宏基因组的组装(该程序可以进行其他类型数据的应用,比如RNA),-1,-2,-s 输入的序列,-t
使用的cpu数目(默认16),-m 使用的最大内存限制(默认250G),-k k-mer的长度(默认自动增加,最大128),-o 输出文件夹。



3



评估组装结果



接下来,就到大家最关心的时刻了。



马上奉上测评结果!






组装使用的时间及计算资源



3款软件对比



组装软件



时间



内存



SOAPdenovo



约24h



220G



metaSAPdes



约48h



250G



megahit



约6h



30G



组装性能



下载评估软件quast,解压即可进行评估。



运行QUEST



quast.py sample.contigs.fa -o report



输入组装得到的结果.contigs.fna文件(我们选取了contigs大于500bp的序列),-o 输出文件的位置。



各个组装软件具体结果评估并比较如下:






- 总结 -



小锐教你怎么选



从组装性能上看,三个不同的组装软件具有不同的特点:



SOAPdenovo组装序列的contigs数相对较少,适用一些简单样本的组装(比如人的肠道样本)。



而metaSAPdes和megahit组装得到的contigs数较多,适用一些复杂样本的组装(比如土壤和水体等样本)。



但同时考虑到组装过程中的计算时间及资源,megahit软件相对具有更好的组装性能。



发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容