# 一、无处不在的motif #
在各类表观组学文章中,motif分析总是占据着关键版面,例如m6A文章中经典的RRACH类型RNA甲基化motif、ATAC文章中各类转录因子结合位点预测也少不了motif结果的展示,甚至可以利用motif分析预测蛋白功能。用途如此广泛的分析究竟该如何去理解与学习其基础概念,手上有数据该如何完成此类分析,分析结果又如何解读,今天我们就带大家来好好认识一下这位期刊文章中的常客—motif分析。
图1 m6A研究文章中常见的motif结果
motif(模体)这个概念很早就被提出,而首次系统化描述这个概念内容的文章是在2002年,发表于Science期刊上。在这篇文章中,motif被定义为:在复杂网络中某种连接模式出现频率显著高于随机网络的现象。
motif我们可以简单理解为:在复杂网络中出现的局部规律,这种规律现象无处不在。例如对于X-Y这个motif,在生态网络中,可以是大鱼X吃掉小鱼Y,也可以是神经网络中神经元X激活神经元Y;甚至是我们日常生活听到的音乐中反复出现的和弦走向、服装上的重复花纹等都可以用某种motif进行描述。motif概念的引入,使得网络研究(基因网络、生态网络等)不局限于某些固定节点或网络整体,我们可以经由motif研究复杂网络的微观结构,关注某些元素之间的关联特性。
# 二、表观组学中的motif分析 #
回归到表观组学中,无论是转录因子结合或是DNA、RNA甲基化修饰,他们都存在一定碱基偏好性,即结合/修饰位点并不是随机现象,而是出现在某些特定的碱基组合中,利用motif分析可以挖掘其修饰/结合偏好,进而锁定相关基因,对后续讨论、实验具有指导作用。
TF:Tranion Factor,转录因子
TFBS:Tranion Factor Binding Site 转录因子结合位点
# 三、常见motif算法 #
当前常用的motif计算方法可分为两大类:字符搜索算法、概率模型算法;其中概率模型算法又分为期望最大算法以及吉布斯取样算法。
1)字符搜索算法:其核心思想是将一个单词组合(如:ATTCG)出现次数与其期望次数进行比较分析,将相似的单词组合成一个motif。这种算法适用于短motif搜索,目前这类算法使用较少;
2)吉布斯取样算法 (Gibbs sampling) :这类算法的核心思想是进行随机采样,不断更新motif模型以及在序列中出现的位置,当满足设置好的阈值条件就终止迭代,获得最终的motif结果;
3)期望最大算法 (expectation maximization, EM) :EM算法是目前应用最为广泛的motif算法,这类算法对序列集合构建二元有限混合模型,再运用最大似然估计法对模型参数值进行估计。
EM算法的典型软件代表就是MEME软件,这款软件功能强大,还提供了操作简单的在线工具,在表观组学涉及motif分析文章中的出现频率极高。
MEME在线工具地址:
https://meme-suite.org/meme/tools/meme
图2 MEME软件主页面
# 四、MEME-ChIP#
MEME中有一款整合组件MEME-ChIP,它整合了motif搜索、富集、浏览以及比较工具组件,输入一批数据可完成一系列motif分析操作,这款组件广泛用于ATAC-seq、DAP-seq、ChIP-seq等测序数据motif挖掘中。
MEME-ChIP主要包含组件:
1)MEME\DREME\STREME:motif搜索工具,MEME主要用于较长motif(8-15bp)搜索;DREME则用于预测短motif(3-8bp),目前已不再整合入MEME-ChIP中;STREME主要用于输入IP序列以及Input序列时的motif比较搜索。
图3 不同长度motif结果图
*注:图形横轴表示碱基序号,纵轴表示校正后的得分,碱基高度越高表示motif该位置出现这种碱基可能性越高
2)CentriMo/SpaMo:motif富集工具,CentriMo用于发现Motif在输入序列上的富集情况,要求输入序列等长;SpaMo分析则用于计算距离主要motif周围的次要motif信息(较少使用)。
图4 motif在序列中心富集概率曲线
3)Tomtom:motif注释工具,主要用于预测的motif结果与jaspar等转录因子数据库中记录的motif对比、注释。
图5 motif注释结果
4)FIMO:查找获得的motif具体位置,可构建起motif-peak-相关基因的关系,进而分析转录因子对相关基因的表达调控作用。
图6 基迪奥DAP流程FIMO结果表格
# 五、MEME-ChIP实操、结果解读#
#1
上传数据
地址:
https://meme-suite.org/meme/tools/meme-chip
注意:MEME-ChIP需要输入等长的序列,官方推荐500bp长度fa格式文件进行上传分析。
#2
参数选择
1)基础参数信息
2)高阶参数信息调整
#3
任务结果查看下载
200条500bp长度的DNA序列上传,默认参数下, 5分钟左右即可获得motif结果。任务结果提供了网页版本可直接查看,也提供了打包下载功能。
#4
结果总览
打开网页版结果,整体展示任务的motif结果信息,点击对应链接可以跳转查看。
#5
MEME结果
点击MEME结果部分,给出了序列、显著性E值等一系列motif搜索相关信息,还可以查看motif在各染色体具体位置。
#6
TOMTOM结果
提供JASPAR等数据库motif比对结果,可根据这部分结果分析相关转录因子在序列结合情况。
#7
Centrimo结果
对已知/搜索获得motif出现在输入序列中心位置概率进行分析,0位置峰越高,说明该motif出现在序列中心位置概率越大,越有可能是后续研究的重点。
#8
FIMO结果
FIMO组件展示了MEME组件搜索到的motif具体匹配到的序列信息(所处染色体、起始终止位置、显著性等),可用于构建motif-peak-相关基因的位置关系,从而获得motif潜在调控的相关基因。
# 小结 #
motif分析作为表观组学高分文章的必备分析条目,掌握它并用好它能为后续的关键基因筛选、调控机制挖掘提供不小的参考与指导。
- 本文固定链接: https://maimengkong.com/kyjc/851.html
- 转载请注明: : 萌小白 2022年3月14日 于 卖萌控的博客 发表
- 百度已收录