人类基因组突变学会(Human Genome Variation Society,HGVS)已建立系统的基因突变命名方法,是目前学术界所公认的命名规则。具体基因突变命名方法可查阅网站http://www.HGVS.org/varnomen。HGVS基因突变命名指南根据需求不断更新。
HGVS官方网站
遗传信息的流动遵循中心法则,即从DNA传递给转录后的RNA,后者进一步修饰后再翻译成蛋白质。因此,基因突变包括DNA、RNA和蛋白质水平的突变,此外还有线粒体DNA等。
中心法则
在描述基因突变前,我们首先要了解基因的参考序列。这些参考序列可以是DNA、RNA或者蛋白质参考序列,也可以是cDNA、非编码DNA或者线粒体参考序列。当描述某一序列改变时,其前缀表明其参考序列类型。例如“g.”表示基因组序列,“c.”表示cDNA序列,“m.”表示线粒体DNA序列,“r.”表示RNA序列,“p.”表示蛋白序列。在数据库中的收录号以及版本号应当在实验记录报告中列出,当两种突变在反式(in trans)中检测到,则用方括号表示。
突变描述中常见的表示符号和缩写
“>”表示替换(substitution)
“del”表示缺失(deletion)
“dup”表示重复(duplication)
“ins”表示插入(insertion)
“inv”表示倒置(inversion)
“con”表示转换(conversion)
“fs”表示移码突变(frame shift)
“ext”表示延伸(extension)
“add”表示额外的染色体(an additionalchromosome (marker chromosome))
“cen”表示染色体的着丝点(the centromereof a chromosome)
“chr”表示染色体(a chromosome)
“pter”表示染色体的第一个核苷酸(the first nucleotideof a chromosome)
“qter”表示染色体的最后一个核苷酸(the last nucleotideof a chromosome)
“gom”表示甲基化的获得(a gain of methylation)
“lom”表示甲基化的丢失(a loss of methylation)
常见的突变类型
1、DNA序列变异术语规范
DNA核苷酸用大写字母A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)以及T(胸腺嘧啶)来表示。用正链来表示DNA序列。当DNA序列改变时,以相应核苷酸所在位置及相应字母来描述。“>”符号表示“从某一变化至另一”。在描述突变方式时,数字、字母、箭头、上标以及下标之间不应出现空格。
2、RNA序列变异术语规范
RNA序列以小写字母a(腺嘌呤)、c(胞嘧啶)、g(鸟嘌呤)、u(尿嘧啶)进行描述。RNA序列改变描述方式与DNA相类似。具体术语可参阅HGVS网站。
3、蛋白质序列变异术语规范
蛋白质序列改变通常以单个字母或三个字母(第一个字母大写)来描述。尽管单个字母描述氨基酸明确无误,但是由于三联密码子相对于其编码的氨基酸存在冗余性,具体给出发生突变的三联体密码子可以更清楚地描述氨基酸改变方式。例如,用来描述氨基酸的A(丙氨酸)、C(半胱氨酸)、G(甘氨酸)以及T(苏氨酸)可能会与核苷酸字母A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)以及T(胸腺嘧啶)相混淆。
4、错义突变及无义变异术语规范
由于三联体密码子的简并性,多个位点核苷酸的改变可能不影响最终氨基酸序列。因此,应该分别从DNA水平和氨基酸水平描述突变。从DNA水平对某一突变位点的描述方式包括碱基位点,正常碱基,“>”符号,突变碱基。例如,某一蛋白第551号氨基酸残基由G(甘氨酸)突变为D(天冬氨酸),从DNA水平描述即c.1652G>A。
在氨基酸水平,由于错义突变的产物以氨基酸残基位点以及表示氨基酸的单字母或三联体密码子来描述。表示方法是野生型的氨基酸、位点、突变氨基酸,三者之间不要有空格。例如,p.Gly551Asp表示该蛋白中551号甘氨酸残基(G)被天冬氨酸残基(D)所代替。无义突变表示方法与之相类似。需要指出的是“X”符号代表终止密码子。例如,p.Gly542X表示542位点的甘氨酸残基被终止密码子所代替。
5、缺失和插入术语规范
缺失和插入突变分别用前缀“del”和“ins”来表示,并注明突变位点以及碱基。例如,c.441delA表示在该DNA序列中441号位点发生A碱基缺失。c.241_243delATC表示在该DNA序列中从241号到243号缺失ATC三个碱基。
在蛋白水平,上述突变描述方式为p.Ile24del,表示该蛋白质中第24号的异亮氨酸残基发生缺失。“indels”则表示该段序列缺失的同时有片段插入。例如,234_239delAATTCGinsTA(或者234_239delinsTA)表示该DNA序列234至239号位点缺失AATTCG六个碱基,同时该段位点被新插入的TA碱基所替代。
6、移码突变术语规范
移码突变用“fs”符号来表示。“fs*#”则用于进一步描述突变类型。例如,p.His62Profs*21表示该蛋白发生移码突变,第62号氨基酸由组氨酸突变为脯氨酸并产生新的阅读框架,终止于第62号密码子下游21号密码子处。该突变也可简要描述为p.His62fs,即该蛋白从第62号密码子发生移码突变。
7、碱基重复序列
HGVS推荐,核苷酸重复序列基因多态性描述时通常以一个重复序列为单元,后面加上“[重复的次数]”,如CGG[55]。当重复序列的次数在一个范围之内时,需要在小括号“()”中标注出可能的最少的和最高的重复次数,如某个人HTT基因中发现有12个和15个CAG重复,基因水平的表示如下:c.52CAG[12]+[15],蛋白水平则表示为:p.Gln18[12]+[15]。HTT基因的重复序列范围则描述为:c.52CAG(27_35) 或 p.Gln18(27_35)。
参考文献
- Den Dunnen J T, Dalgleish R, Maglott D, et al. HGVS Recommendations for the Description of Sequence Variants: 2016 Update[J]. Human Mutation, 2016, 37(6): 564-569.
- 肿瘤个体化治疗检测技术指南(试行)
- 本文固定链接: https://maimengkong.com/learn/811.html
- 转载请注明: : 萌小白 2021年11月29日 于 卖萌控的博客 发表
- 百度已收录