背景知识:
哺乳动物的三维(3D)组织基因组在基因调控中起到重要作用,如增强子对靶基因具有很强的调控作用,拓扑关联域(TADs)是哺乳动物基因组组织的基本单位。Hi-C, ChIA-PET, Capture-C, Capture Hi-C, PLAC-Seq and HiChIP等染色体构象捕获技术的出现,使基因组空间组织的研究越来越得到重视。因此大量的染色体互作数据不断增加,如何高效快速的查询所需信息成为急需解决的主要问题。为解决该问题,大量的搜索引擎被开发出来,它们都有各自的优缺点。
Hi-C数据浏览器:第一个将Hi-C数据可视化为热图的网络查询工具,目前它不支持缩放功能,只支持有限数量的数据集。
WashU Epigenome 浏览器:能够展示Hi-C和ChIA-PET数据,并且能够使用ENCODE and RoadmapEpigenome projects中的成千上万个表观遗传学数据集。由于Hi-C数据所占用的存储空间较大,能够达到数以百计的字节,因此上传和搜索Hi-C数据的速度非常不理想。另外它没有提供将染色体间相互作用数据显示为热图的选项。
Juicebox和Hi-Glass:,用户能够以非常快的速度浏览Hi-C数据,但是它们没有提供其他类型的染色体互作数据,比如Capture Hi-C 和 ChIA-PET。
以上浏览器都不能够提供一个很好的方式浏览增强子和启动子的互作。
3D基因组浏览器容纳了以上浏览器的优点并且克服了它们的缺点,并且具有六种不同的模式,用户可以根据自身需求查询和探索染色质互作组数据。
3D浏览器的组成部分如下图所示,该浏览器包含300多种不同种类染色质互作数据库。
如下图所示,3D浏览器预测了所有细胞/组织中的拓扑关联域(topologically associating domains,TAD)。图中红色部分是将相同类型细胞的所有公开染色质数据展示在同一窗口,有助于用户探索3D基因组组织和基因调控。
用户查询某个基因的染色质互作信息时,也能够观察该基因在109种类型细胞/组织中的表达模式。
该浏览器具有6大特色:
(1) 作为热图显示的染色体内Hi-C的接触基质,能够与TAD和可用的相同细胞类型基因组注释相结合。
(2) 染色体内部的热图能够特异性的帮助用户观察染色体的互作及易位。
(3)与Hi-C矩阵相比,Hi-C热图来自不同的组织甚至不同的物种。
(4)virtual4C:将Hi-C数据绘制为用于查询基因或基因座(诱饵)的弧,其中中心是诱饵区域,该方法有助于揭示两个个体间的染色质互作。
(5) ChIA-PET或其他基于ChIP的染色质相互作用数据,如PLAC-Seq和HiChIP。
(6) 捕获Hi-C或其他基于捕获的染色质相互作用数据。
下面我们将用几个例子来展示这些特征。
用Hi-C数据探索染色质互作,我们注意到K562细胞系中5 kb分辨率Hi-C图中的染色质互作(图中用黑色箭头标记),通过结合WashU Epigenome Browser的基因注释,组蛋白修饰H3K4me1, H3K4me3 和 H3K27ac以及chromHMM技术对K562细胞系的研究,我们发现两个相互作用的染色体位点是SLC25A37的启动子并且利用组蛋白修饰模式和chromHMM预测其为增强子,下图垂直灰色线。该猜想已经被得到证实。
3D基因组浏览器利用Capture Hi-C 和 DHS-linkage检测启动子和增强子的相互作用,Capture Hi-C或者ChIA-PET能够更好的检测基因和调控元件之间的染色体互作。我们用Capture Hi-C捕获与PAX-5基因的相关因子,并寻求该因子远端的互作因子。Capture Hi-C鉴定的PAX-5基因的染色质环以绿色弧的形式呈现。轨迹的中心是捕获的该基因的相关因子,为其启动子。该启动子与附近区域高度互作,大多数相互作用的区域都富有强烈的增强子特征。
为进一步验证增强子与启动子的连接关系,我们通过该区域的DNase I超敏位点(DHS)探索了连接数据库(图中蓝线部分)。该数据库通过另一种方法将远端调节元件与其靶基因连接起来。我们发现了一些涉及PAX-5基因的启动子的互作因子和ZCCHC7基因下游的潜在的增强子,其中一个增强子已被确定为PAX5的增强子。说明3D基因组浏览器能够检测启动子和增强子的相互作用。
virtual 4C分析靶基因非编码区域的遗传变异,virtual 4C是基于染色质连接的方法,用于检测基因组中一对多的互作现象,即“诱饵”基因座与任何其他基因座之间的相互作用频率,并将数据绘制为线性直方图。其中心为“诱饵”区域,远端区域的任何峰值信号表明染色质互作的频率。为了提高virtual 4C的绘图能力,3D基因组浏览器也补充了ChIA-PET 和 DHS-linkage 数据。
我们用virtual 4C查询了SNP rs12740374,该SNP与高血浆低密度脂蛋白胆固醇(LDL-C)有关,能够导致冠状动脉疾病和心机衰弱。通过结合ChIA-PET 和 DHS-linkage判断SNP rs12740374作为增强子能够与SORT1启动子互作,随后证明SNP rs12740374次要等位基因产生C /EBPα结合位点,增强SORT1表达,导致LDL-C水平降低。虽然大多数次要等位基因通常都是功能丧失,但是3D基因组浏览器通过virtual 4C检测到SNP rs12740374的次要等位基因通过遗传变异获得了相应的功能。
探索物种间染色体结构的保守性,我们在人和小鼠的原癌基因BCL-6 / Bcl-6周围的同源区观察到TAD边界附近基因保守性。说明染色体结构对原癌基因的调控具有保守作用。
揭示癌症基因组的结构变化,Hi-C数据不仅能够检测染色质互作因子,而且也能够显示结构变异。下图表示染色体结构变化:两个慢性髓细胞系白血病的细胞K562 和 KBM7与正常细胞GM12878 相比,致癌基因BCR-ABL在癌细胞染色质中发生易位。
另外3D基因组将Hi-C数据转换为BUTLR(BUTLRBinary Upper TrianguLar MatRix)数据格式,大大提升了用户的浏览以及查询速度。
总之这种交互式的3D基因组浏览器提供了简单易懂的操作界面,并且使用户能够快速访问。另外该浏览器连接多种复杂的染色体互作数据库,为全世界范围内的用户研究哺乳类3D基因组结构和功能提供了非常好的平台。
- 本文固定链接: https://maimengkong.com/moreshare/1441.html
- 转载请注明: : 萌小白 2023年4月15日 于 卖萌控的博客 发表
- 百度已收录