首页 > 科研教程 > 表观组学中的motif分析到底在研究什么?
2022
03-14

表观组学中的motif分析到底在研究什么?

# 一、无处不在的motif #

在各类表观组学文章中,motif分析总是占据着关键版面,例如m6A文章中经典的RRACH类型RNA甲基化motif、ATAC文章中各类转录因子结合位点预测也少不了motif结果的展示,甚至可以利用motif分析预测蛋白功能。用途如此广泛的分析究竟该如何去理解与学习其基础概念,手上有数据该如何完成此类分析,分析结果又如何解读,今天我们就带大家来好好认识一下这位期刊文章中的常客—motif分析。

图1 m6A研究文章中常见的motif结果

motif(模体)这个概念很早就被提出,而首次系统化描述这个概念内容的文章是在2002年,发表于Science期刊上。在这篇文章中,motif被定义为:在复杂网络中某种连接模式出现频率显著高于随机网络的现象。

motif我们可以简单理解为:在复杂网络中出现的局部规律,这种规律现象无处不在。例如对于X-Y这个motif,在生态网络中,可以是大鱼X吃掉小鱼Y,也可以是神经网络中神经元X激活神经元Y;甚至是我们日常生活听到的音乐中反复出现的和弦走向、服装上的重复花纹等都可以用某种motif进行描述。motif概念的引入,使得网络研究(基因网络、生态网络等)不局限于某些固定节点或网络整体,我们可以经由motif研究复杂网络的微观结构,关注某些元素之间的关联特性。

# 二、表观组学中的motif分析 #

回归到表观组学中,无论是转录因子结合或是DNA、RNA甲基化修饰,他们都存在一定碱基偏好性,即结合/修饰位点并不是随机现象,而是出现在某些特定的碱基组合中,利用motif分析可以挖掘其修饰/结合偏好,进而锁定相关基因,对后续讨论、实验具有指导作用。

TF:Tranion Factor,转录因子

TFBS:Tranion Factor Binding Site 转录因子结合位点

# 三、常见motif算法 #

当前常用的motif计算方法可分为两大类:字符搜索算法、概率模型算法;其中概率模型算法又分为期望最大算法以及吉布斯取样算法。

1)字符搜索算法:其核心思想是将一个单词组合(如:ATTCG)出现次数与其期望次数进行比较分析,将相似的单词组合成一个motif。这种算法适用于短motif搜索,目前这类算法使用较少;

2)吉布斯取样算法 (Gibbs sampling) :这类算法的核心思想是进行随机采样,不断更新motif模型以及在序列中出现的位置,当满足设置好的阈值条件就终止迭代,获得最终的motif结果;

3)期望最大算法 (expectation maximization, EM) :EM算法是目前应用最为广泛的motif算法,这类算法对序列集合构建二元有限混合模型,再运用最大似然估计法对模型参数值进行估计。

EM算法的典型软件代表就是MEME软件,这款软件功能强大,还提供了操作简单的在线工具,在表观组学涉及motif分析文章中的出现频率极高。

MEME在线工具地址:

https://meme-suite.org/meme/tools/meme

图2 MEME软件主页面

# 四、MEME-ChIP#

MEME中有一款整合组件MEME-ChIP,它整合了motif搜索、富集、浏览以及比较工具组件,输入一批数据可完成一系列motif分析操作,这款组件广泛用于ATAC-seq、DAP-seq、ChIP-seq等测序数据motif挖掘中。

MEME-ChIP主要包含组件:

1)MEME\DREME\STREME:motif搜索工具,MEME主要用于较长motif(8-15bp)搜索;DREME则用于预测短motif(3-8bp),目前已不再整合入MEME-ChIP中;STREME主要用于输入IP序列以及Input序列时的motif比较搜索。

图3 不同长度motif结果图

*注:图形横轴表示碱基序号,纵轴表示校正后的得分,碱基高度越高表示motif该位置出现这种碱基可能性越高

2)CentriMo/SpaMo:motif富集工具,CentriMo用于发现Motif在输入序列上的富集情况,要求输入序列等长;SpaMo分析则用于计算距离主要motif周围的次要motif信息(较少使用)。

图4 motif在序列中心富集概率曲线

3)Tomtom:motif注释工具,主要用于预测的motif结果与jaspar等转录因子数据库中记录的motif对比、注释。

图5 motif注释结果

4)FIMO:查找获得的motif具体位置,可构建起motif-peak-相关基因的关系,进而分析转录因子对相关基因的表达调控作用。

图6 基迪奥DAP流程FIMO结果表格

# 五、MEME-ChIP实操、结果解读#

#1

上传数据

地址:

https://meme-suite.org/meme/tools/meme-chip

注意:MEME-ChIP需要输入等长的序列,官方推荐500bp长度fa格式文件进行上传分析。

#2

参数选择

1)基础参数信息

2)高阶参数信息调整

#3

任务结果查看下载

200条500bp长度的DNA序列上传,默认参数下, 5分钟左右即可获得motif结果。任务结果提供了网页版本可直接查看,也提供了打包下载功能。

#4

结果总览

打开网页版结果,整体展示任务的motif结果信息,点击对应链接可以跳转查看。

#5

MEME结果

点击MEME结果部分,给出了序列、显著性E值等一系列motif搜索相关信息,还可以查看motif在各染色体具体位置。

#6

TOMTOM结果

提供JASPAR等数据库motif比对结果,可根据这部分结果分析相关转录因子在序列结合情况。

#7

Centrimo结果

对已知/搜索获得motif出现在输入序列中心位置概率进行分析,0位置峰越高,说明该motif出现在序列中心位置概率越大,越有可能是后续研究的重点。

#8

FIMO结果

FIMO组件展示了MEME组件搜索到的motif具体匹配到的序列信息(所处染色体、起始终止位置、显著性等),可用于构建motif-peak-相关基因的位置关系,从而获得motif潜在调控的相关基因。

# 小结 #

motif分析作为表观组学高分文章的必备分析条目,掌握它并用好它能为后续的关键基因筛选、调控机制挖掘提供不小的参考与指导。



最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情