首页 > 组学教程 > 数据挖掘,我们有秘密武器(下)
2022
05-16

数据挖掘,我们有秘密武器(下)

我们上一期介绍了数据挖掘中的表达量挖掘法(回顾戳这里☞),相信大家都已经了解了四大利器的威力,那么今天我们就带大家接着了解一下功能挖掘法和寻找“明星”的数据挖掘方法吧。

图1.转录组数据挖掘常用方法

功能挖掘法

虽然我们进行了表达量的挖掘,但是每个基因在生物过程中都具有它们独特的功能,仅关注表达量的信息,会让我们漏掉非常多的信息。因此我们不能局限于表达量挖掘,而忽略了基因的功能。数据的挖掘除了我们常用表达量四大利器之外,还离不开我们的功能三大利器——注释信息、GO富集分析、KEGG富集分析。

1.注释信息

注释信息,是我们数据挖掘中的长剑,所有的基因都会有它自己特殊的功能,通过注释的方法能帮助我们将基因外层厚厚的谜团破开。选择不同的数据库进行注释就是从不同的角度将基因的功能挖掘出来,我们可以合理的利用这些注释信息来寻找我们的目标基因。举个例子,如果我们研究的目标是病原侵染宿主的机制时,那么这个时候,PHI数据库和植物R基因数据PRGdb就是帮助我们解开谜团的利剑。

PHI数据库,是专门收集病原宿主互作基因的数据库,研究的对象主要是真菌、卵菌和细菌病原,即病原的信息,通过PHI数据库的注释,可以快速的帮我们找到,侵染过程中在病原内起作用的关键基因。

而R基因是植物的抗病基因,病原入侵时会在植物体内繁殖或扩张,为了应对病原的入侵,植物就会请出R基因来帮忙识别病原所产生的效应蛋白,阻止病原菌的扩散。通过植物R基因数据库PRGdb就可以帮助我们将植物体内的R基因找出来。

综上所述,将PHI数据库和PRGdb数据库联合使用,就可以快速的帮助我们定位病原宿主互作过程中的目标基因,简单又高效,是不是很优秀呢~

当然,研究的目标不同,可以用到的数据库也就不同,为了方便广大科研人员,其实已经有非常非常多的数据库可以针对特定的目标进行分析,后期我们会多多介绍常见的数据库,帮助大家进行数据挖掘。

图2.PHI数据库和PRGdb数据库

2.GO/KEGG富集分析

除了注释信息之外,我们还经常会利用GO和KEGG富集分析来进行数据挖掘,他们俩是可以说是我们听得最多的98k,在文章分析的时候,受到广大学者的喜爱。通常与高通量测序相关的文章,我们都能看到他们俩的身影。

为什么富集分析会这么广泛的使用呢?原因也比较简单,基因的注释虽然重要,但是当我们面对成百上千的差异基因or目标基因集时,信息非常零碎,利剑就难以一一将基因的谜团破除,我们就需要对这些基因进行归类,而归类的这个过程,就是富集分析。

富集分析的作用,一方面是对零散的基因功能信息进行归类,帮助我们找到下一步研究的方法,而另一方面就是产生一些美观的图表了,一篇文章,如果没有几张镇得住场面的图形,那很难入得了审稿人的法眼的。

富集分析的思路,就是研究差异的基因显著富集在哪些通路之中。富集分析的研究方法同样有两种,一种就是直接对富集显著的通路开展讨论和分析,既然这些通路会被显著富集,说明它们肯定在差异中起到了重要的作用,那么研究它们,肯定没有错。

此外,有些不显著的通路,但是明显就是与我们研究相关,我们也是可以进行讨论,比如“Plant Hormone Signal transduction pathway”,当我们研究的课题是植物激素相关时,这个通路我们肯定要讨论一下了。至于为什么,大家可以看一下周老师的解释(链接戳这里),有详细的介绍原因,在这里,我们就不再赘述了。

图3.GO富集调控图(左),KEGG富集气泡图(右)

寻找“明星”

1.已有文献报道的“明星”基因or通路

介绍完了表达量挖掘法和功能挖掘法,可能大家会觉得还是比较难下手,需要我们一步步的进行挖掘,其实还有一些捷径可以走,那就是——寻找“明星”。

我们在做某个方向的研究时,往往已经有很多前人帮我们铺好了路,需要研究哪些基因、通路,都已经在文章中做了许多探讨和研究。而我们可以做的,就是尽量的多收集相关的文献。比如我们研究的是细胞自噬,那么就去搜索与细胞自噬相关的文章,将搜出来相关的文献进行汇总,发现原来PI3K/Akt/mTOR通路大家都会讨论进行讨论,那么毫无疑问的,我们下手就对了。

尽管文献的搜索和阅读会花费不少的时间,但正所谓磨刀不误砍柴工,提前多花些时间进行调研,我们在写文章时就不会盲人摸象,毫无头绪了。

图4.医学机制研究中的“明星”

2.某些特定的基因

除了寻找明星分子,其实我们还可以去寻找些特定的基因进行研究,比如转录因子,激酶/磷酸酶,等等。这类基因通常具有特定的功能,在转录调控过程中起到重要的作用,也常常在文章中进行讨论,或者整个文章就是围绕着这些特定的基因展开分析。针对这些特殊的基因,也是帮助我们进行数据挖掘的好帮手。

图5.转录因子分类统计图

介绍了这么多,相信大家对数据挖掘的这些秘密武器有大致的了解了。在实际的数据挖掘中,我们可以将表达量、功能和寻找“明星”这三种利器相互结合进行使用,如富集分析中寻找关心的通路,其实就是将功能挖掘与“明星”通路两种利器强强联手,快速定位目标通路。

大家可以尽可能的进行尝试,挖掘想要的结果。

转自:基迪奥生物


最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情