首页 > 科研教程 > NGS研究设计的四项基本原则
2021
08-22

NGS研究设计的四项基本原则

载请:解螺旋·临床医生科研成长平台

高通量测序,或称下一代测序(Next Generation Sequencing,NGS)方法在研究中的运用已经很广泛了,它能产生非常丰富的信息量,有助于探索几乎所有性状、疾病的遗传学特征,已经对许多疾病的研究都做出了贡献。

但放下研究者的满腔热血,还是要冷静地想,这种方法并不是没有偏倚,不恰当的设计仍然会带来错误的结论。要避免偏倚则要从研究设计阶段就做好控制,否则后边执行或发文章时可糟心了。

NGS研究的设计有和其他研究的共同之处,但也有它自身的特色。近期BMJ上发文讨论了NGS研究设计中的四个原则,是避免偏倚、假阳性等问题需要注意的,可供不太熟悉NGS的临床研究者参考。

1

设立实时对照组

要看一个遗传变异是否与疾病相关,一般要设立病例和对照组进行比较。有些研究者就会选用现有数据库中的数据作为对照组,自己收集病例组做新的检测,以此节省成本。

尽管DNA突变相比于其他遗传学特征,如表达量、甲基化等,可重复性要好一些,但自己同时做个对照组仍然很有用,尤其是全外显子测序(WES)及其他靶向测序的研究。

与全基因组测序(WGS)不同的是,WES和其他靶向测序应用商业生产的“钓饵”(捕捉探针)等工具来实现特定基因组位置的测序,而生产商可能会对这些产品如探针、试剂、仪器等定期更新,来提升覆盖度。

而且,不同的历史数据库也有可能采用了不同的试剂、测序深度,或靶向不同的区域,或用不同的生信工具、流程进行处理。所以数据库中的历史数据是否仍能作为新样本的对照呢?

如果没有实时对照,若现在测出的跟历史数据不一样,则可能是由于技术不同,但却会让研究者误以为是疾病和对照组的不同。进一步讲,有自身对照、用同样的技术流程去检测就更好了。

还有一种两步法设计,即用新样本病例组的测序数据去跟历史数据对比,排除常见变异,而剩下的变异再拿去跟新样本对照组对比,这回用一种稍便宜的测序方法。不过如果能在第一步就用上一些新样本对照组,或许能排除部分假阳性,总体上仍然降低成本。

如图,上下三组序列分别代表历史数据、新样本病例组、实时或相似技术下的对照组。图左,在新的病例组中发现了变异,但历史数据和新的对照组都没有,则很可能是疾病相关的变异,需要跟踪研究。

中间一列,如果历史上没有很好地测过这一位置的序列,那么新对照不仅必要,还能排除一些常见变异。

图右,如果三者都采用了相似的技术,则鉴定常见变异就比较容易了。

2

合适的随机化策略

随机化有助于防范系统误差。当测序技术在某一时间或空间内发生改变时,随机化的样本则可使病例组和对照组受影响的差异减小。

有各种各样的随机化策略。简单的随机化只是把受试者盲目分配,可能不会考虑到多种潜在的混杂因素中,对照组和病例组是否仍均匀分布;区组随机化则以可能的混杂因素划分区组,在区组内做随机分配,使两组更为均衡。选择合适的随机化方法可以减少假阳性率,提高可重复性。

3

充分的测序深度和多路复用

NGS技术很依赖于对每个核苷酸的多次检测。在全外显子和全基因组测序中,来自多个细胞的DNA片段被分离、测序、比对、绘制成基因组。测序深度即指这些片段为某个碱基位置提供信息的次数,也称读取深度(read depth),或覆盖度(coverage),比如可以说“某段序列是以15 reads或15× coverage的深度进行测序”。

这深度可能在不同实验条件下中会有很大的不同,尤其是靶向测序方法。虽然也有分析工具允许对深度较小的样本进行对比、分析,甚至病例和对照组深度不同都行,但许多分析流程会完全过滤掉某个域值以下的位点,于是它们就无法进入分析,来检验你的假设。

下图示意一个DNA片段上,一条泳道上测序4样本、3样本和2样本(即多路复用,multiplexing)的测序深度及覆盖度。如果以20× 为深度阈值,则三种情况下该片断的覆盖度分别为35%、60%、95%。

减少测序深度时,多路复用可以省钱,但有时候也会发生误读。研究者必须结合实际情况,权衡一下经费条件和覆盖度之间的平衡。可以从前期的或相似的研究中寻找最佳的多路复用策略。

4

足够的样本量

这是在所有研究中都会被提醒的要点,在一定的效应量下,提高样本量才能达到理想的统计功效。首先要通过现有的信息预先估计好效应量,将要选用的统计方法,需要控制的假阴性假阳性率,再去计算所需的样本量。这跟选择最佳测序深度一样重要。

由于多重检验问题,NGS研究所要求的统计显著性阈值比大多数研究要低得多、严格得多,而又有基因位点间并非相互独立的情况,所以并非简单校正,一般采用1 × 10 -7至1 × 10-8。

虽然有现成的软件工具能在给定的效应量、统计显著性阈值等参数下,很快计算出样本量,但参数也不是这么好估计的,最好也要由临床学者、统计学者、生物信息学者一起制定方案。

参考文献:

1. Mason, C. C. Four study design principles for genetic investigations using next generation sequencing. BMJ 359, j4069 (2017).

最后编辑:
作者:萌小白
一个热爱网络的青年!

发布评论

表情