为什么有的基因组拼不出来?为什么有的突变二代测序永远看不见?答案可能藏在‘读长’里。
在生命科学领域,测序技术的发展就像计算机芯片一样日新月异。从最早的一代测序(Sanger),到广泛应用的二代测序(NGS),再到如今的第三代测序(long-read sequencing),每一次迭代都在推动基因组学和转录组学研究进入新阶段。
今天,我们将重点介绍三代测序技术,并深入探讨 PacBio 与 Nanopore 两大平台,同时对比二代测序,帮助你快速了解它们的优势与局限。
1.三代测序是什么
第三代测序指能对单个未扩增的 DNA 或 RNA 分子进行直接测序的技术,能够产生千到上万碱基甚至更长的连续读长,常见实现包括纳米孔测序(Oxford Nanopore Technologies,ONT)和单分子实时测序(Pacific Biosciences,PacBio)的 HiFi/SMRT。
三代测序与二代测序比较:
测序技术 | 主要特点 | 代表平台 |
---|---|---|
二代测序(NGS) | 高通量、短读长(通常 50-300bp)、需 PCR 扩增 | Illumina(如 NovaSeq、Miseq) |
三代测序 | 单分子测序、长读长(可达数万至数十万 bp)、无需 PCR 扩增 | PacBio SMRT、Oxford Nanopore |
简单来说,二代测序擅长“大规模并行短读长测序”,而三代测序则擅长“单分子长读长测序”。
2.三代测序的两大主流平台
2.1 PacBio:高准确率的长读长
PacBio 的核心技术是 单分子实时测序(SMRT),由美国太平洋生物科学公司(Pacific Biosciences)开发。PacBio SMRT / HiFi(Circular Consensus Sequencing, CCS):单个 DNA 分子被做成环状模板,在酶驱动下重复读多个循环,生成多次覆盖同一分子后合并成高精度的 HiFi 读(既长又高准)。HiFi 读的准确率可以达到短读长可比的水平(>99%)。
2.1.1 测序原理
PacBio 的测序过程可以形象地理解为“观察 DNA 聚合酶跳舞”:
-
零模波导孔(ZMW):每个 ZMW 孔只允许单个 DNA 分子进入,背景噪音极低。 -
荧光标记的核苷酸:四种碱基(A、T、C、G)分别标记不同颜色的荧光。 -
实时监测:当聚合酶将荧光标记的碱基掺入 DNA 链时,会发出特定颜色的光信号,实时记录碱基序列。
2.1.2 特点
-
读长:可达 10 kb–100 kb -
准确率:HiFi 模式下 >99.9%,和 Illumina 短读长相媲美 -
应用:基因组组装、结构变异检测、全长转录本测序
如果说三代测序曾经“长但不准”,PacBio HiFi 就是那个把“长 + 准”结合在一起的方案。
2.2 Nanopore:实时、超长、便携
Nanopore 测序由英国牛津纳米孔公司(Oxford Nanopore Technologies,ONT)开发,是另一种主流的三代测序技术。Oxford Nanopore (ONT):分子被牵引通过蛋白或固态纳米孔,穿过孔时扰动离子电流产生“squiggle”信号,随后通过 base-calling 将信号转换成碱基序列。优点是实时产出、可做超长读(>100 kb 可达 Mb 级)和便携性强(如 MinION)。
2.2.1 测序原理
Nanopore 的核心是“让 DNA 分子穿过纳米孔,通过电流变化来识别碱基”:
-
纳米孔蛋白:固定在电阻膜上,形成纳米级孔道。 -
电信号检测:DNA 单链在电场驱动下穿过纳米孔,不同碱基(A、T、C、G)通过时产生独特的电流变化,实时识别碱基序列。
2.2.2 特点
-
读长:理论上无限,实践中可达 Mb 级 -
直接测序:能直接读 RNA 和碱基修饰(如甲基化) -
便携实时:从 U 盘大小的 MinION 到 PromethION,都可以边测边出结果
这让 ONT 特别适合 现场测序(比如疫情期间快速检测病原体),也适合研究 超长重复区和端粒序列。
3.三代测序的优势
-
长读长能直接跨越重复序列与结构变异,极大提高基因组拼接与 SV(结构变异)检测的分辨率。
-
能读取完整转录本(full-length isoforms),无需复杂的拼接(imputation),利于 isoform 定量、TSS/TER 识别和可变剪接研究。
-
直接检测碱基修饰(如 5mC、6mA):尤其是纳米孔测序对电流扰动敏感,可用于表观基因组学。
-
实时与便携(主要指 ONT):适合现场、快速检测和应急监测(如病原体溯源)。
4.三代测序的局限与挑战
-
原始错误率差异:早期第三代读序列的错误率高于短读长;但经过技术进步(PacBio HiFi、改进的 ONT base-caller)后已大幅降低——HiFi 可达 ~99.9% 级,ONT 也通过模型和化学改进将错误率显著降低。实际分析中仍需针对性纠错或结合短读数据。 -
上游样本制备要求高:要得到超长读需要高完整性的超高分子量 DNA,抽提与保存方法对结果影响大。 -
成本与通量的权衡:虽然单条长读价值高,但在某些高深度短变异检测场景中,短读仍更经济/稳定。不同平台在通量、成本、运行维护上各有差异。 -
数据分析生态仍在成熟:长读特有的错误模式、修饰信号和更大的文件量对下游工具链提出了更高要求,需要合适的 aligner、纠错、拼接与可视化工具支持。
不过,随着 PacBio HiFi 和 ONT base-caller 的不断改进,这些问题正在逐步缓解。
5.应用场景
-
高质量基因组组装:尤其是复杂或重复丰富的植物、动物基因组。 -
结构变异(SV)检测:对大片段插入、缺失、易位和复杂重排更敏感。 -
全长转录组与 isoform 分析:识别新 isoform、完整 CDS、TSS/TER 使用情况(例如 R2C2 / Mandalorion 等长读法)。 -
表观基因组学:直接在测序信号中检测 DNA 和 RNA 修饰。 -
临床与快速检测:病原体测序、耐药性检测、核酸监测(得益于 ONT 的便携与实时)。
第三代测序在准确性、通量和成本上都在快速进步。想象一下,Illumina 给你的是“拼图碎片”,而 PacBio 和 ONT 给你的是“整张拼好的拼图”。这就是三代测序的魅力。PacBio 的 HiFi 路线把“长读 + 高准确”变为现实,ONT 在化学、孔道与 AI base-caller 的改进上持续推进,使得长期被视为“错误率高”的问题逐步缓解。未来,随着技术的不断进步,三代测序的准确性将进一步提高,成本也将逐渐降低,预计将在更多领域得到广泛应用。
如果你的研究问题涉及 异构转录本、结构变异、复杂基因组拼接或碱基修饰,第三代测序几乎是不可替代的工具。选择平台前请把研究目标、样本特性、预算与计算资源放在第一位,必要时考虑混合策略(长短结合)以兼顾准确率、成本与覆盖范围。
- 本文固定链接: https://maimengkong.com/zu/2051.html
- 转载请注明: : 萌小白 2025年9月13日 于 卖萌控的博客 发表
- 百度已收录