首页 > 科研教程 > Chip差异Peak分析结果及报告
2023
06-22

Chip差异Peak分析结果及报告

1. 概述

1.1. 背景及分析流程简介

为了理解细胞中更为复杂的生物过程,许多研究已在通过比较ChIP-seq的差异获得的不同数据。越来越多的ChIP-seq实验正在研究多种实验条件(例如各种治疗条件,几个不同的时间点和不同的治疗剂量水平)下的转录因子结合,组蛋白修饰的差异。差异富集在生物学和医学研究中已变得具有实际重要性。 为了建立对比条件消除误差,我们对数据进行了以下流程处理:我们首先将A与B两组的结果进行共有Peak区域基因计算,对于有共有区域(overlap)的Peak,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域进行的每组样本进行reads表达定量,进行差异Peak的计算,筛选出差异Peak,进行临近3K注释到基因上,进行基因集富集分析。

本组实验结果,我们处理的是有两组重复的DiffPeak数据对比,我们的差异Peak筛选标准为:|log2FC| > 1 && FDR < 0.05

分析流程:






1.2. 结果汇总

路径 说明
差异Peak分析结果, 目录: Results/
Results/*DiffPeakInfo.xls 差异Peak计算的所有结果
Results/*DiffPeakInfo.bed 差异Peak计算的所有结果的bed文件
Results/*DiffPeakInfo_FC2-q0.05.xls 差异Peak计算结果按阈值筛选后结果
Results/*DiffPeakInfo_FC2-q0.05.bed 差异Peak计算结果按阈值筛选后结果的bed文件
Results/*DiffPeakInfo_FC2-q0.05_GAIN.bed 差异Peak计算结果按阈值筛选后结果的bed文件(差异上调)
Results/*DiffPeakInfo_FC2-q0.05_LOSS.bed 差异Peak计算结果按阈值筛选后结果的bed文件(差异下调)
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls 差异Peak计算结果按阈值筛选后结果的临近注释文件
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls 同上,差异Peak计算结果按阈值筛选后结果的临近注释文件
(按annotation(Promoter), Fold, FDR列排序)
Results/*DiffPeakInfo_FC2-q0.05_PeakAnno_gene.bed 注释到的基因(转录本)信息标记bed文件
差异Peak分析绘图结果, 目录: Results/Plot
Results/Plot/1cor_peakScore_*.png peak相关性热图分析
Results/Plot/1pca_peakScore_*.png peak相关性PCA分析
Results/Plot/2cor_readCount_*.png 共有区域的readCount相关性热图分析
Results/Plot/2pca_readCount_*.png 共有区域的readCount相关性PCA分析
Results/Plot/*_1cor.png 差异Peak相关性热图分析
Results/Plot/*_2pca.png 差异Peak的PCA分析
Results/Plot/*_3ma.png 差异Peak的MA图
Results/Plot/*_4vol.png 差异Peak的火山图
Results/Plot/*_5box.png 差异Peak的箱型图
Results/Plot/*_6heatmap.png 差异Peak的热图
显著差异Peak的临近基因集富集分析, 目录: Results/Enrich/
Results/3.Enrich/*/ 各组差异Peak的临近注释基因集的富集分析结果目录
Results/3.Enrich/*.html 辅助查看富集结果的网页文件
Results/3.Enrich/*/*-p.adjust1.00.csv 富集分析结果列表(原始)
Results/3.Enrich/*/*-p.adjust0.05.csv 富集分析结果列表(按padj<0.05筛选后)
Results/3.Enrich/*/*.pdf 富集分析的绘图高清文件



* 以上重要结果为加粗显示。


2. 分析流程

2.1. 重叠区域的计算


2.1.1. PeakScore相关性分析

为了进行后续的差异Peak的富集程度比较,我们需要合并Peak比较区域,在overlap的共有区域计算前,我们需要先了解各组内的peak重复性情况。 对Treat组和Control组进行PeakScore相关性热图分析,PCA分析。



Results/Plot/1cor_peakScore_Demo_A-B.png

Results/Plot/1cor_peakScore_Demo_C-D.png

Results/Plot/1pca_peakScore_Demo_A-B.png

Results/Plot/1pca_peakScore_Demo_C-D.png




2.1.2. readsCount相关性分析

我们选取至少含有overlap区域>=2个样本的callPeak区域结果,计算最高峰位点并向其两侧各延伸250bp作为合并峰计算区域,对每个区域每组样本进行reads表达定量。 随后,我们对各组进行readsCount的相关性热图分析,PCA分析。



Results/Plot/2cor_readCount_Demo_A-B.png

Results/Plot/2cor_readCount_Demo_C-D.png

Results/Plot/2pca_readCount_Demo_A-B.png

Results/Plot/2pca_readCount_Demo_C-D.png




2.2. 差异Peak的计算

2.2.1. 差异Peak的相关性计算及显著性差异Peak的筛选

通过计算两组之间的合并区域的表达差异,我们能获得两组比较计算的差异Peak所有结果。 通过相关性热图及PCA,可以看出组内的差异peak计算的相关性好坏,一般而言好的结果能明显区分开。 通过阈值|log2FC| > 1 & FDR < 0.05进行筛选获得显著差异Peak筛选结果,进行相关性热图,PCA,火山图,热图绘制如下。

通过差异Peak分析,我们得到了基因组范围内的差异Peak信息,为进一步得到差异Peak附近的临近基因信息,我们使用Chipseeker进行进一步注释,得到Peak所对应的临近注释基因,并给出Peak在Promoter的上下游3k,或之外的Intron、Exon等区域的位置及距离等信息的注释文件: Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls



Results/Plot/Demo_A-vs-B_1cor.png

Results/Plot/Demo_C-vs-D_1cor.png

Results/Plot/Demo_A-vs-B_2pca.png

Results/Plot/Demo_C-vs-D_2pca.png

Results/Plot/Demo_A-vs-B_4vol.png

Results/Plot/Demo_C-vs-D_4vol.png

Results/Plot/Demo_A-vs-B_6heatmap.png

Results/Plot/Demo_C-vs-D_6heatmap.png




Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.xls表头说明:



表头 说明
peakname 差异Peak的name
seqnames 差异Peak所在染色体
start 差异Peak在参考序列上的起始位置
end 差异Peak在参考序列上的终止位置
width 差异Peak的长度信息
strand 正负链信息
Conc Group1和Group2平均值进行log2标准化后的计数
Conc_Group1 Group1进行log2标准化后的计数
Conc_Group2 Group2进行log2标准化后的计数
Fold Group1与Group2的差异倍数(进行log2标准化)
p.value 差异Peak的置信度计算
FDR 差异Peak的多重校验FDR
change 上下调标记,上调标记为GAIN,下调标记为LOSS
annotation peak注释信息(对于注释到基因上等注释信息的描述)
geneChr 注释基因的染色体信息
geneStart 注释基因的起始位置
geneEnd 注释基因的终止位置
geneLength 注释基因的长度
geneStrand 注释基因的正负链
geneId 注释基因的EntrezID
transcriptId 注释基因的转录本名字
distanceToTSS 被注释Peak距离TSS的距离
ENSEMBL 注释基因的ENSEMBL名
SYMBOL 注释基因的SYMBOL名
GENENAME 注释基因的基本描述信息





2.2.2. 差异Peak注释基因的富集分析

将上述临近注释得到的基因集,进一步进行GO和KEGG富集分析,得到差异Peak筛选结果的临近注释基因富集结果。结果文件说明及解读,同CHIP标准分析流程报告。

结果目录: Results/Enrich/


3. 结果的IGV可视化

为了得到较为直观的测序分析结果,我们一般需要借助可视化工具,IGV在这个过程中扮演十分出色的角色,他不仅展示了不同样本测序覆盖情况,还常常用于联合分析,如mRNA的测序变化与chip测序的变化。 在此项目中,我们用于差异Peak的筛选与评估,我们可将分析结果文件导入,步骤如下:

  1. 导入CHIP分析结果,即前面我们的Chip标准分析结果中.bigwig.narrowPeak文件。

  2. 导入CHIP的差异Peak分析结果,即本分析中所得到的bed结果。

  3. 调节数据显示范围:

    • bigwig 高度范围显示调节:按住 ctrl / command 选中多个.bigwig文件,右击点击 Set Data Range...。 为方便对比,在对比不同区域Peak时,可手动调节显示范围。

    • bed / gene 重叠区域展开设置: 右击bed文件,点击 Expanded 设置展开。

  4. 搜索感兴趣的 Peakname / SYMBOL: 在第一排第三个框内输入Peakname / SYMBOL名,点击GO即可搜索。如果搜索不到,可尝试点击Reload重新加载。


筛选的 Peakname / SYMBOL 的一些方法:

  • 搜索感兴趣的Peak,可参考:Results/*DiffPeakInfo_FC2-q0.05_PeakAnno.sorted.xls,该文件按annotation(Promoter), Fold, FDR列排序, 即Promoter上游3K区域差异倍数较大的结果将被优先排序。 排名较前的结果具有一定的显著差异Peak筛选价值。

  • 搜索感兴趣的Gene,可根据生物学功能研究,挑选出较有意义的功能富集结果的基因集,反向去看差异Peak变化情况。 上述分析的功能富集结果具有一定的参考意义。


Demo展示:

一个示例如下,在该IGV中通过可视化,可读出的信息有:在 A vs B 的差异Peak对比中, Peakname 为 54218542195422054221 的这些Peak比较区域, A相对B具有显著下调趋势,它们都被临近注释到CCL2基因上,注释类型为3K内的Promoter。

示例图:




最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情