ATAC-Seq分析教程:重复样本的处理-IDR—科研必备表观遗传学知识
卖萌控的博客
点击这里进入电脑版页面!体验更好
ATAC-Seq分析教程:重复样本的处理-IDR—科研必备表观遗传学知识
2022-12-31 萌小白


前语



ATAC-seq/ChIP-Seq中重复样本的处理



ATAC-Seq要求有必要有2次或更多次生物学重复(非常珍贵或者稀有样本除外,但有必要做至少2次技能重复)。理论上重复样本的peaks应该有高度的一致性,实际情况并不完全与预期一致。怎么点评重复样本的重复性的好坏?怎么得到一致性的peaks?



这一节将介绍两种办法:



1. 用Bedtools进行简略的overlap合并重复样本

2. 用IDR(Irreproducibility Discovery Rate)的办法获得高重复性的peaks






ATAC-Seq剖析教程:重复样本的处理-IDR




1. Overlapping peaks using bedtools



怎么得到两个重复样本间一致性的peaks? 一种简略粗暴的办法就是用bedtools核算peaks的overlaps。

用法:bedtools intersect [OPTIONS] -a <bed/gff/vcf/bam> -b <bed/gff/vcf/bam>




其他常用参数解释和图解如下:




-v:Only report those entries in A that have no overlaps with B

如果只要-a-b参数,回来的是相对于A的overlaps。加上参数-wo回来A和B原始的记载加上overlap的记载。参数-wa回来每个overlap中A的原始记载。


ATAC-Seq剖析教程:重复样本的处理-IDR



运用代码示例:

bedtools intersect -a macs2/Nanog-rep1_peaks.narrowPeak -b macs2/Nanog-rep2_peaks.narrowPeak -wo > bedtools/Nanog-overlaps.bed



2. Irreproducibility Discovery Rate (IDR)



评价重复样本间peaks一致性的另一种办法是IDR。IDR是经过比较一对经过排序的regions/peaks 的列表,然后核算反映其重复性的值。

IDR在ENCODE和modENCODE项目中被广泛运用,也是ChIP-seq指南和规范中的一部分。






ATAC-Seq剖析教程:重复样本的处理-IDR



IDR的 长处:


运用IDR的注意事项:




--samples:narrowPeak的输入文件(重复样本)

--input-file-type:输入文件格局包括narrowPeak,broadPeak,bed

--rank p.value:以p-value排序

--output-file: 输出文件路径

--plot:输出IDR度量值的成果



输出文件解读:

具体内容可参阅:https://github.com/nboley/idr#output-file-format




输出文件包括:




  • sample-idr


  • sample-idr.log


  • sample-idr.png




(1)sample-idr

sample-idr是common peaks的成果输出文件,格局与输入文件格局类似,仅仅多了几列信息。前10列是规范的narrowPeak格局文件,包括重复样本整合后的peaks信息。




其他列信息如下:




wc -l *-idr 核算下common peaks的个数,接着可再核算下与总peaks的比率。

如果想看IDR<0.05的,能够经过第5列信息过滤:

awk \'{if($5 >= 540) print $0}\' sample-idr | wc -l

(2)sample-idr.log

log文件会给出peaks经过IDR < 0.05的比率,如下图所示


ATAC-Seq剖析教程:重复样本的处理-IDR



(3)sample-idr.png

png文件包括4个图

ATAC-Seq剖析教程:重复样本的处理-IDR


左上: Rep1 peak ranks vs Rep2 peak ranks, 没有经过特定IDR阈值的peaks显现为赤色。

右上:Rep1 log10 peak scores vs Rep2 log10 peak scores,没有经过特定IDR阈值的peaks显现为赤色。

下面两个图: Peak rank vs IDR scores,箱线图展现了IDR值的分布,默许情况下,IDR值的阈值为-1E-6。



发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容