首页 > 科研教程 > 干货分享|四张图教你看懂基因组Survey分析
2021
08-13

干货分享|四张图教你看懂基因组Survey分析

为了深入探究物种进化、基因表达调控等生物学问题,组装一个高质量的参考基因组显得尤为重要。在进行基因组组装前,通常会借助Survey分析初步了解基因组的特征。那么,一张不起眼的Survey图究竟暗藏着怎样的玄机呢?下面,小编将与大家一起来揭秘!

如何进行Survey分析?

提到基因组Survey分析就不得不提K-mer评估,这是目前最常用的基因组Survey方法。所谓K-mer,是指从一段连续的测序序列中迭代地选取长度为K个碱基的序列。即当一条reads的长度为L时,经过迭代选取会产生L-K+1个K-mer。如图1所示,第一行为测序获得的reads序列,长度L=9,当设定K=4时,可获得从第二行至第七行的6个K-mer序列。因此,当基因组测序产生的reads总数为n时,则基因组的K-mer总数Nk-mer=(L-K+1)* n。获得所有的K-mer序列后,即可根据K-mer序列出现的频率对基因组大小、杂合度、重复序列等信息进行评估,详细的计算原理实在是太复杂了,小编就不在此赘述了(其实小编是担心把自己给绕晕了),只给大家介绍一些简单又实用的看图技巧吧。

图1 K-mer示例图

1. 简单基因组Survey分析图

在理想状态下,K-mer曲线服从泊松分布,即只会出现一个明显的主峰。因此,当基因组中不存在杂合区和重复序列,或者杂合度较低、重复序列在整个基因组中占比较少时,通常会看到图2所示的K-mer频率分布图。但自然界的物种经过亿万年的进化,基因组复制、杂交等情况多有发生,因此,基因组中往往会含有不同比例的重复序列、杂合位点,使得K-mer曲线不会呈现出良好的泊松分布。

图2 简单基因组K-mer频率分布图

注:基因组杂合度0.14,重复序列18.4%

2. 高重复基因组Survey分析图

基因组复制事件会使基因组中产生大量的重复序列。重复序列的存在使得基因组中某一个K的K-mer序列增多,即K-mer的出现频率增加,在进行K-mer分析时,表现为主峰拖尾或在主峰后对应横坐标的整数倍处出现重复峰(图3)。但重复序列的多少并不会影响重复峰的位置,只会削低峰的高度。当基因组中重复序列占比较高时,通常会选取大一点的K-mer以跨越重复序列,提高组装效果。图3中,Depth=29处是主峰,主峰位置之后Depth=55(约为主峰位置2倍处)及Depth>55后面的拖尾被认为是由基因组中的重复序列导致。

图3 某高重复植物基因组K-mer频率分布图

注:基因组杂合度0.31,重复序列62.6%

3. 高杂合基因组Survey分析图

在高杂合基因组中,序列中的杂合位点会使得(该序列的)K-mer分成两个部分,序列中某些碱基的覆盖深度也会相应减半。因此,与纯合序列相比,杂合片段中K-mer的覆盖深度会下降50%,最终在K-mer曲线上表现为:在主峰前对应横坐标的1/2处出现一个小峰,且基因组的杂合度越高,该峰越明显。如下图4所示,Depth=359处是主峰,主峰位置之前Depth=179(约主峰位置1/2处)被认为是基因组杂合导致的,主峰位置之后Depth=650(约为主峰位置2倍处)及Depth>650的拖尾被认为是由基因组重复导致的。

图4 某高杂合植物基因组K-mer频率分布图

注:基因组杂合度0.77,重复序列23.5%

4. 多倍体基因组Survey分析图

基因组复制、杂交等事件除了会引起基因组中重复序列含量和杂合度增加外,也可能会导致同源或异源多倍体的产生,多倍体的峰图判断也相对更复杂。异源四倍体通常是由两个不同的二倍体物种杂交产生,又称双二倍体,因此,异源四倍体的峰图跟二倍体有一定程度的相似。以异源四倍体花生[1]为例,其Survey图在50X、100X和150X处分别有一个峰出现,后面两个峰虽都与主峰(50X)成整数倍关系,但150X处的峰值较低,且峰形并不十分明显,应该是重复序列导致的(花生重复序列占比77.65%)(图5A)。而同源多倍体则不同,其Survey图中往往会出现更多峰,且峰值较高。如图5B所示,某同源四倍体植物的K-mer曲线中出现了3个峰,且后面两个峰的值也相对较高,结合该物种其他信息,最终判定为同源四倍体。此外,在0-10X处,由于测序深度较低,可能存在测序错误,影响了K-mer分布,在K-mer曲线上形成了异常峰图。由此可见,对于多倍体的鉴定要更为谨慎,最好是结合物种核型分析和材料具体来源等因素进行综合考虑。

图5 异源四倍体花生(A)[1]和某同源四倍体植物(B)基因组K-mer频率分布图

总结

在利用二代数据进行基因组Survey时,借助K-mer分析能够初步获得基因组大小、重复序列比例、杂合度等信息。K-mer分析时,若基因组中含有较多重复序列,通常会在主峰后形成拖尾或在对应的横坐标整数倍处出现重复峰,而当基因组中含有杂合位点时,则会在主峰前1/2位置处形成一个小峰。基因组大小、重复序列比例、杂合度等信息的获得,能够为基因组测序深度、组装软件的选择、冗余去除等生信分析流程提供依据,提升组装基因组的质量。

参考文献

[1] Zhuang W, Chen H, Yang M, et al. The genome of cultivated peanut provides insight into legume karyotypes, polyploid evolution and crop domestication[J].Nature Genetics, 2019, 51(5): 865-876.

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情