做基因家族分析或者其他一些需要同时展示一个序列集合的保守序列区域(motif或者pattern的时候),最常用的工具,应该是MEME
suite。MEME
Suite是集合众多预测和注释motif工具的在线网站,其中MEME是一款强大的分析motif软件,MEME算法是基于最大期望值(EM)算法来识别motif。
工具:MEME
链接:http://meme-suite.org/
具体的操作如下:
1
打开MEME主页
MEME网站的具体功能都在主页上显示,可以根据自己的需求选择合适的分析工具,今天主要选择的工具是MEME。
当点击MEME时,出现如下的画面:
在这个页面主要进行目标序列的motif分析,可以对DNA、RNA、蛋白序列进行motif查找,可以根据页面的提示选择合适生物学的参数进行目标序列的分析。
该页面一共有5个参数。对任何参数有问题,可以点击?图标查看帮助文档。
2
3个关键参数设置
1. Input the primary sequences(上传数据)
文件的格式fasta格式
上传完文件后,MEME网站会自动检测是蛋白序列还是DNA序列;
2. Select the site distribution
默认是:Zero or one occurrence per sequence,某类型的结构域(motif)在一条序列只出现0次或1次。
3. Select the number of motifs
决定在这一组多条序列中,将被挖掘出的结构域(motif)的种类数量。默认值是3,这意味着在这一组序列中,发现的motif的数量最多3个。但有时候,我们无法预先了解这组序列实际上的结构域的数量,那么可以先填写一份较大的数值。例如10。在完成分析后,再查看分析结果中结构域的显著性。例如,如果结果中保守性达到显著水平(P<0.05)的结构域数量是6。那么,则可以将最初的参数从“10”修改为“6”,然后重新提交数据分析一次。
在选择合理参数分析完后,填写提交个人的具体邮箱(在分析完成后,结果将会发送到你的个人邮箱),然后提交分析。
3
MEME运行的结果
Motif查找的结果主要7种不同的格式呈现,并且记录运行结果的具体参数和运行时间,可以进行查看;
结果解读:
一共查找到了5种不同的motif,motif的具体结构如上图,并且给出了motif显著性的期望值(p值),site值就是找到含有该motif序列条数,width就是这个motif的具体的序列长度,可以根据科研的需要进行具体数据的下载;
对具体每条序列的motif形象化的展示,不同颜色的方块代表不同motif,方块的大小代表motif的长度,该图就可以形象展示不同序列motif的同异,下方给出 不同碱基或氨基酸的代号和具体频率。
最后可以根据研究的需要,在MEME的结果下载合适文件格式进行后续的修改和研究。