手把手教你做全基因组DNA甲基化测序分析

大家好，这是专注表观组学十余年，领跑多组学科研服务的易基因。

本期，我们讲讲全基因组DNA甲基化实验怎么做，从技术原理、建库测序流程、信息分析流程和研究套路等四方面详细介绍。

一、全基因组甲基化测序技术原理

表观修饰不需要改变 DNA 序列便能实现对性状的改变，表观修饰的改变与基因功能乃至细胞状态、发育、衰老、疾病等存在重要的关联。在众多的表观遗传修饰中，最为重要且研究最为广泛的修饰之一是 DNA 甲基化，而全基因组甲基化测序（WGBS-seq）无疑是最有效的研究手段。

全基因组甲基化测序利用重亚硫酸盐能够将未甲基化的胞嘧啶（C）转化为胸腺嘧啶（T）的特性，将基因组用重亚硫酸盐处理后测序，即可根据单个 C 位点上未转化为 C 未转化为 T 的 reads 数目与所有覆盖的 reads 数目的比例，计算得到甲基化率。该技术对于全面研究胚胎发育、衰老机制、疾病发生发展的表观遗传机制，以及筛选疾病相关的表观遗传学标记位点具有重要的应用价值。

全基因组甲基化测序原理示意图入下：

图1：重亚硫酸盐测序技术原理

二、全基因组甲基化测序建库流程

样品检测——样品打断 ——文库构建——BS处理——文库质检

（一）样品检测

对DNA样品的检测主要包括2种方法：

（1）琼脂糖凝胶电泳分析DNA降解程度以及是否有污染，检测具有明显的主带，且条带清晰；

Qubit 2.0对DNA浓度进行精确定量，DNA检测总量不低于1ug。

（二）文库构建

样本检测合格后，使用Bioruptor系统将1µg样品基因组DNA与未甲基化的lambda DNA混合，然后将其片段化，平均大小约为250bp。片段化后，纯化的随机片段化DNA随后用T4 DNA聚合酶，Klenow片段和T4多核苷酸激酶的混合物进行修复，钝化和磷酸化末端。随后使用Klenow片段（3'-5'exo-）对钝的DNA片段进行3'腺苷酸化，然后与连接5'-甲基胞嘧啶而不是使用T4 DNA连接酶的胞嘧啶连接的衔接子进行连接。完成每个步骤后，使用磁珠纯化DNA。之后，根据说明使用ZYMO EZ DNA甲基化金试剂盒将未甲基化的胞嘧啶转化为尿嘧啶。最后，用JumpStart Taq DNA聚合酶进行PCR扩增，再使用磁珠对PCR产物进行纯化获得最终文库。

（三）文库质检

文库构建完成后，先使用Qubit2.0进行初步定量，稀释文库至1ng/ul，随后使用Agilent 2100对文库的insert size进行检测，insert size符合预期后，使用qPCR方法对文库的有效浓度进行准确定量（文库有效浓度> 2nM），以保证文库质量。

（四）上机测序

文库检测合格后，把不同文库按照有效浓度及目标下机数据量的需求pooling后在illumina Nova平台测序，测序策略为PE150。

三、全基因组甲基化测序信息分析流程

（一）原始下机数据质控

原始下机数据为FASTQ格式，是高通量测序的标准格式。FASTQ文件每四行为一个单位，包含一条测序序列（read）的信息。该单位第一行为read的ID，一般以@符号开头；第二行为测序的序列，也就是reads的序列；第三行一般是一个+号，或者与第一行的信息相同；第四行是碱基质量值，是对第二行序列的碱基的准确性的描述，一个碱基会对应一个碱基质量值，所以这一行和第二行的长度相同。以下为一条read信息的示例：

图2： FASTQ格式示例

原始下机数据包含建库时引进的接头序列以及质量过低的碱基，这些因素会导致后续比对到基因组的reads较少，从而导致得到的信息较少，因此需要进行过滤。利用trim_galore软件对原始数据进行去除接头序列及低质量碱基等质控步骤。

（二）序列比对

经过质控的reads需要根据与参考基因组的序列相似度比对到参考基因组上。相比于常规基因组及转录组测序，WGBS测序方法产生的数据的特点决定其在比对时存在三大困难：

（1）DNA片段正链和负链经过重亚硫酸盐转化后将不再反向互补，再经过PCR，便会产生四条不同的序列，这将大大增加比对时的计算量。

（2）经过重亚硫酸盐转化后，DNA序列大部分C碱基被转化成T碱基，因此序列含大量T而缺乏C；经过PCR后，产生的互补链则含有大量A而缺乏G。这样便导致序列的复杂度降低（即序列的组成特征更单一），从而增加比对的难度。

（3）C和T的比对是不对称的。经过重亚硫酸盐转化后，序列中非甲基化的C碱基（占大部分）被转化为T，这将导致测序序列与参考基因组不匹配，T既可能应该比对到T上，有可能应该比对到C上；而C则只能比对到C上。这也增加了比对的难度。

利用BSMAP软件进行比对。BSMAP进行比对时，先以参考基因组上C碱基的位置作为指导，将reads中对应参考基因组C碱基位置的T标记为C，其他T保持不变，从而使reads可以直接比对到参考基因组。

（三）甲基化水平计算

甲基化水平可根据未转化为 T 的 C 与转化为 T 的 C 的 reads 的比例计算得到，即：

Beta-value = C-reads / (C-reads + T-reads) * 100%

其中，Beta-value 即为该胞嘧啶的甲基化水平，C-reads 为覆盖该位点的支持甲基化的reads 数目（测得该位点为 C 的 reads），T-reads 为覆盖该位点的不支持甲基化的 reads 数目（测得该位点为 T 的 reads）。计算原理示意图如下：

图3：甲基化水平的计算原理

利用BSMAP统计甲基化水平。

（四）差异甲基化区域（DMR）鉴定及统计

DMR检测使用权威期刊发表的metilene软件。该软件先将基因组进行预分段，以排除较长序列中不包含CG位点的片段。随后，利用二元分隔算法，递归缩小检测范围，以搜索得到组间累积平均甲基化差异最大的区域，作为可能的DMR；最后，结合双重统计学检验（MWU-test和2D KS-test），得到准确的DMR。检测原理如下图所示：

图4：metilene检测DMR原理示意图

本分析检测DMR的标准如下：

（1）区域平均甲基化差异不小于0.1；

（2）CpG位点数不少于5个；

（3）区域长度不小于50 bp；

（4）甲基化水平差异统计检验的校正P值小于0.05；

（5）2D KS-test检验P值小于0.05。

（五）信息分析流程示意图

图5：信息分析流程示意图

四、总结：全基因组甲基化研究思路

DNA甲基化组学研究的核心内容在于对DNA甲基化数据的挖掘。DNA甲基化一般遵循三个步骤进行数据挖掘。

首先，进行整体全基因组甲基化变化的分析，包括平均甲基化水平变化、甲基化水平分布变化、降维分析、聚类分析、相关性分析等。其次，进行甲基化差异水平分析，筛选具体差异基因，包括DMC/DMR/DMG鉴定、DMC/DMR在基因组元件上的分布、DMC/DMR的TF结合分析、时序甲基化数据的分析策略、DMG的功能分析等。最后，将甲基化组学&转录组学关联分析，包括Meta genes整体关联、DMG-DEG对应关联、网络关联等。

五、全基因组甲基化研究案例

Whole-Genome Bisulfite Sequencing of Two Distinct Interconvertible DNA Methylomes of Mouse Embryonic Stem Cells. 两种状态的小鼠胚胎干细胞的甲基化组学研究

1、背景

小鼠胚胎干细胞一般生长在含有血清的基质中，被称作血清干细胞(serum ESCs)；加两种激酶抑制因子使胚胎干细胞在无血清的情况下更能保持多能性的基态，这种干细胞称为2i干细胞(2i ESCs)；这两种状态的胚胎干细胞可以互相转化。以前这方面的甲基化研究大多基于质谱，覆盖度和研究结果有限，尚缺乏2i胚胎干细胞的甲基化组学研究。

2、方法

利用全基因组重亚硫酸盐甲基化测序（WGBS），对这两种可互相转换的小鼠胚胎干细胞进行甲基化组学研究

3、结论

全面准确的检测了两种小鼠胚胎干细胞的DNA甲基化修饰并进行了系统的比较；同serum ESCs相比，雄性2iESCs全局低甲基化；在血清中，雌性ESCs跟雄性2i ESCs类似呈现全局低甲基化，而在2i ESCs状态下，甲基化水平会进一步降低。

不同状态下小鼠胚胎干细胞的甲基化修饰比较

以上就是关于全基因组甲基化测序实验流程和分析思路的介绍。

参考文献：

[1] Ashburner, M. and C. A. Ball, et al. Gene ontology: tool for the unification of biology. The Gene Ontology Consortium. Nat Genet, 2000, 25 (1): 25-9.

[2] Dirk Schübeler. Function and information content of DNA methylation. Nature, 2015, 517: 321–326.

[3] Frank Jühling et al. metilene: Fast and sensitive calling of differentially methylated regions from bisulfite sequencing data. Genome Research, 2016, 26: 256-262.

[4] Kanehisa M, Goto S. KEGG: kyoto encyclopedia of genes and genomes. Nucleic acids research, 2000,28(1): 27-30.

[5] Tadafumi Kato Kazuya Iwamoto. Comprehensive DNA methylation and hydroxymethylation analysis in the human brain and its implication in mental disorders. Neuropharmacology, 2014, 80: 133-139.

[6] Xiaojing Yang et al. Gene Body Methylation Can Alter Gene Expression and Is a Therapeutic Target in Cancer. Cancer Cell 26, 577–590.

[7] Yuanxin Xi et al. BSMAP: whole genome bisulfite sequence MAPping program. BMC Bioinformatics, 2009, 10:232.

[8] Gao F, et al. De novo DNA methylation during monkey pre-implantation embryogenesis. Cell Res. 2017 Apr;27(4):526-539. pii: cr201725.

更多学习内容可关注微信公众号：易基因

转自：易基因