三代明星:PacBio及其序列数据
再来看看江湖呼声渐涨的三代测序技术。目前三代测序市场上,表现最为抢眼的莫过于以PacBio公司的SMRT和Oxford Nanopore Technologies为代表的纳米孔单分子测序技术。与前两代相比,三代测序最为核心的特点就是单分子测序,测序过程无需进行PCR扩增。
PacBio SMRT技术其实也应用了边合成边测序的思想,并以SMRT芯片为测序载体。测序时,不需要对目标DNA进行PCR扩增,而是直接在目标片段两端加上两个发卡结构的接头,形成一个连续的环状结构。也因此,PacBio系统在读长上显示了极大的优势。目前比较受市场热捧的三代测序是PacBio的RSⅡ和2015年推出的Sequel。
PacBio下机产生的序列文件以HDF5格式存储。可以采用h5dump命令来查看H5文件内容。
1. 查看碱基序列:
h5dump –d /PulseData/BaseCalls/Basecall raw.h5 > Basecall.info ,文件内容如下:
DATA {(0): 67, 71,67, 67, 65, 71, 67, 71, 65, 65, 84, 71, 71, 67, 84, 71, 67, (17): 71, 71, 71,71, 65, 65, 71, 67, 65, 71, 65, 65, 65, 84, 84, 65, 84, (34): 67, 67, 71, 84,65, 65, 65, 67, 84, 71, 84, 84, 71, 67, 84, 71, 67,
该文件采用的ASCII码的编码方式存储的碱基序列:A=> 65, C=>67, G=>71, T=>84。
2. 查看碱基质量值:
h5dump -d /PulseData/BaseCalls/QualityValue raw.h5 > Basecall.quality,
文件内容如下,其碱基质量值采用与illumina技术一致:
DATA {(0): 51, 44,42, 44, 24, 24, 51, 51, 51, 51, 50, 20, 20, 20, 50, 51, 51, (17): 48, 48, 48,47, 9, 9, 9, 51, 51, 46, 31, 31, 31, 31, 44, 51, 51, 30, (35): 30, 51, 51, 7,7, 7, 7, 51, 51, 44, 44, 44, 51, 51, 50, 27, 27, 26,
长到天际:Nanopore及其序列数据
Oxford Nanopore 公司2005年在英国牛津成立,其运用的纳米孔测序技术使得DNA链在一个单通道中就能够被解码和识别,而不需要将长链打断成小短链。由于实现了DNA聚合酶内在自身的延续性和反应速度,Nanopore读长更长速度更快;同时由于能直接检测每个碱基的特征性电流,因而能对修饰碱基进行测序,对于表观遗传学研究具有极高的价值;因此,这款长到天际的测序仪,非常有潜力横扫当前测序格局。
2014年春天推出U盘大小的便携式MinION测序仪,仪器售价仅需$1000,据官网报道最长Reads可长达960 Kb,2014年10月推出平板大小的台式测序仪PromethION,有48个flow cell,可以单独运行也可以并行,2017年推出桌面式GridION X5测序仪。
Nanopore目前还主要在测试和生产阶段,尚未大规模应用,其应用主要体现在微生物等小基因组生物上。推出至今,其最亮眼的表现莫过于2014年西非埃博拉病毒爆发,MinION以最快的速度破译病毒序列,名噪一时。随着独特的纳米孔技术的成熟和完善,未来在即时检测、太空应用、大众检测等方面会有很大的想象空间。
Nanopore测序得到的序列文件的格式基础也是HDF5(https://support.hdfgroup.org/HDF5/),下机产生后缀为Fast5的序列文档。Fast5文件可经由Poretools软件(http://poretools.readthedocs.io/en/latest/)转换为Fastq文件或Fasta,然后进行后续数据分析。
① 应用Poretools将fast5转换为fastq,示例见:
http://poretools.readthedocs.io/en/latest/content/examples.html#poretools-fastq
② 应用Poretools将fast5转换为fasta,示例见:
http://poretools.readthedocs.io/en/latest/content/examples.html#poretools-fasta
总结一下,在测序市场中,一代测序因其准确度高,仍作为突变检测、单菌鉴定等的金标准而存在;以illumina HiSeq和MiSeq为代表的二代测序势头强劲,主打低成本和高通量,2017新机型NovaSeq更宣称已将测序成本降至百美金;科研市场上三代测序最常见的莫过于PacBio,辅以冉冉上升的新星Nanopore等,主打长读长策略,直击二代测序碎片化序列的软肋,在基因组de novo上表现不俗,错误率较高,但可被矫正。
回到我们今天的主题---数据格式上,一代测序主要是读取峰图文件后转化为Fasta格式;二代测序中illumina原始读取数据为BCL,下游分析中转化为Fastq格式;454下机序列为SFF格式,后续分析中转化为Fna-Qual格式使用;Ion Torrent下机序列为WELLS格式,下游分析中转化为Bam格式;三代测序的两大主流系统PacBio和Nanopore,其下机数据都以HDF5格式为基础,后续转化为Fastq格式进行下游分析。
不管一代、二代还是三代的数据分析中,原始下机数据都以二进制文件为主,原因无他,相比于文本文件,二进制文件在存储上更为经济集约。二进制文件本身是难于阅读的,并且很难改动,所以,我们可以乐观的认为,二进制文件造假的可能性是很低的。二进制的数据拿到之后,我们想要把数据转换成正常人能看懂的格式,这时身为文本文件的Fastq就应运而生了,Fastq文件会被用于质控及比对等后续分析。
总之,Fastq是当前最为主流认可的序列数据存储格式,不管哪一代测序技术,什么样的原始数据,都免不了要打上Fastq格式的烙印,Fastq文件的格式及使用已经成为高通量测序学习中当仁不让的第一站。
来源:生信者言- 本文固定链接: https://maimengkong.com/zu/1415.html
- 转载请注明: : 萌小白 2023年4月2日 于 卖萌控的博客 发表
- 百度已收录