首页 > 组学教程 > 测序数据质控界的宠儿-Trimmomatic
2022
04-03

测序数据质控界的宠儿-Trimmomatic

一个优质的测序结果,除了倚仗技术娴熟的实验人员和稳定的测序仪器,更重要的是要有一款集能力和才华于一身的质控软件。高通量测序下机的原始数据raw reads中存在一些低质量数据、接头以及barcode序列等,为消除其对后续分析准确性产生的影响,在数据下机以后对原始数据进行质控处理就成了至关重要的环节。今天,小奥要给大家介绍的就是数据质控界的宠儿——Trimmomatic软件。

Trimmomatic 简介

Trimmomatic软件,2014年首次发表在Bioinformatics期刊上,是一款专门对Illumina平台测序产生的reads进行修剪和过滤的软件。自发表以来,Trimmomatic软件凭借其简单的安装方法、较快的运行速度(支持多线程)、强大的去接头能力(simple和palindrome两种模式)、多元化的低质量数据处理方式、人性化的输出格式(clean reads为一一对应的pair-end形式,无需再次处理)等特点,深受数据处理者喜爱!下面就由小奥带大家一起来学习下Trimmomatic的具体用法。

Trimmomatic 下载安装

Trimmomatic下载安装方式有网站链接安装和Linux系统下命令安装两种方式。

◆方法一:直接进入网站http://www.usadellab.org/cms/index.php?page=trimmomati c进行手动下载二进制软件,解压后的trimmomatic-0.38.jar即为我们需要的软件。

◆方法二:在Linux系统下通过命令行进行下载安装

1.mkdir Trimmomatic(创建一个名为Trimmomatic的文件夹)

2.cd Trimmomatic (进入Trimmomatic文件夹工作路径下)

3.wget

http://www.usadellab.org/cms/uploads/supplementary/Trimmomatic/Trimmomatic-0.38.zip(通过wget命令下载Trimmomatic-0.38.zip压缩文件)

4.unzip Trimmomatic-0.38.zip (解压缩Trimmomatic-0.36.zip文件)

5.java -jar~/biosoft/Trimmomatic/Trimmomatic-0.36/trimmomatic-0.36.jar –h(运行安装命令,即可完成安装)

Trimmomatic 质控用法

根据单端测序和双端测序两种模式,Trimmomatic软件也有两种质控用法

◆ 1. SE 模式

SE模式下,只有一个输入文件和一个质控后的输出文件,运行命令如下

Java –jar < trimmomatic的安装路径> SE –threads <线程数> <input> <output> <step1> <step2> …<step1><step2>… 表示每一步的质控参数

◆ 2. PE模式

PE 模式下,有两个输入文件(正向测序reads和反向测序reads)和四个质控后的输出文件(双端序列都保留的paired序列文件和只保留一端序列的unpaired序列文件),运行命令如下:

Java -jar $trimmomatic PE -threads 12 -phred33 $R1.fq.gz $R2.fq.gz $R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz ILLUMINACLIP:$adapter.fa:2:30:10 LEADING:3 TRAILING:3 SLIDINGWINDOW:4:15 MINLEN:36

参数设置说明(同一个命令下的不同参数可以用“:”来界定):

$ 表示软件或文件所在的路径(建议使用绝对路径)

$R1.fq.gz $R2.fq.gz 为两个输入文件

$R1.paired.fq.gz $R1.unpaired.fq.gz $R2.paired.fq.gz $R2.unpaired.fq.gz 为四个对应的输出文件

Phred33 设置碱基的质量格式,默认的是-phred64。

ILLUMINACLIP:$adapter.fa:2:30:10 adapter.fa为接头文件,2表示最大mismatch数,30表示palindrome模式下碱基的匹配阈值,10表示simple模式下碱基的匹配阈值。

LEADING: 3 表示切除reads 5’端碱基质量低于3的碱基。

TRAILING:3 表示切除3’ 端碱基质量低于3的碱基。

SLIDINGWINDOW:4:15 表示以4个碱基为窗口进行滑动,切除窗口内碱基平均质量小于15的。

MINLEN:36 丢弃以上步骤处理后,序列长度小于36的reads。



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情