二代测序组装PK三代测序组装

二代测序组装PK三代测序组装

2016-07-29    编辑:诺禾致源

二代测序组装PK三代测序组装

三代Pacbio测序技术

以其长读长,无需扩增,无GC偏好性等优势成为de novo组装的新宠儿。
然而,Pacbio测序成本依然很高,并且Pacbio测序错误率较高,需要较高的深度的测序来修正自身错误率,
高深度测序就意味着高成本。是否有更高性价比的方法得到更好的结果?

组装技术介绍

近期研究人员开发出一种新的组装方法,
将二代测序Illumina的short-reads与10X Genomics公司研发的linked-reads相结合,
并加上BioNano光学图谱数据,得到了媲美三代数据组装的结果。

二代测序组装PK三代测序组装

图1 10X Genomics数据辅助基因组组装流程图[1]

技术优势

1      超低DNA起始量

表1 Pacbio文库和10X Genomics文库所需DNA量

组装策略 1个PacBio 20 Kb文库 1个10X Genomics文库
Input DNA ≥30 μg 1 ng

2      低成本,高指标

分别利用Illumina+10X Genomics+BioNano和Pacbio+BioNano[2]两种策略对人的基因组NA12878进行组装,同时以Illumina+Fosmid-end组装策略作为对照[3]。三者组装的指标见下表。利用Illumina+10X Genomics+BioNano的策略组装Scaffold最长长度可达99.96Mb,而利用Pacbio+BioNano的策略组装Scaffold最长长度为81.4Mb,更长的Scaffold在后续注释中,能够得到更全的基因结构,有助于后续生物学问题的解读。从结果可以看出,前者在组装Scaffold优势上丝毫不逊于后者,但前者的测序成本却远低于Pacbio+BioNano的策略。

表2 不同组装策略组装指标比较

组装策略 组装基因组大小 ScaffoldN50 Scaffold数目 成本
Illumina+10X Genomics+BioNano 2.86 Gb 33.5 Mb 170
Pacbio+BioNano 2.76 Gb 31.1 Mb 202
Illumina+Fosmid-end 2.78 Gb 11.5 Mb 23,634

3    高指标,更有高质量

对组装的基因组进行质量评估,检测结果如下表所示。首先检测N(未知碱基)的含量,在未知碱基这个指标中显示了三代测序策略的优势,说明利用三代长片段测序可有效提高连续序列片段(Contig)长度。同时将组装的序列分割成以100Kb为单位与参考基因组进行比较来验证组装的准确性,可以看到Illumina+10X Genomics+BioNano策略组装的基因组准确性在95%以上,说明该方法组装质量是高度可信的。并且利用此方法能够找到更多的SNVs(single-nucleotide variations)。

表3 不同组装策略组装指标比较

组装策略 N content % Validity at 100Kb Phase SNV
Illumina+10X Genomics+BioNano 10.2 95.2% 2,783,119
Pacbio+BioNano 4.61 97.5% 2,421,740
Illumina+Fosmid-end 5.9 93.5% N/A

二代测序组装PK三代测序组装

图2 组装的Scaffold比对到参考基因组

备注:每个颜色代表一个完整Scaffold,说明组装的基因组较为完整。

综合比较而言,利用Pacbio+BioNano和Illumina+10X Genomics+BioNano两种组装策略在基因组Scaffold的长度以及准确性上均有优秀的表现,但是前者的高质量是建立在高成本之下,相比而言,通过二代数据,采用新技术组装策略(Illumina+10X Genomics+BioNano)的后者,无疑是一种更高性价比的选择。

参考文献

[1] Mostovoy Y, Levy-Sakin M, Lam J, et al. A hybrid approach for de novo human genome sequence assembly and phasing[J]. Nature     methods, 2016. 阅读原文 >>

[2] Pendleton M, Sebra R, Pang A W C, et al Assembly and diploid architecture of an individual human genome via single-molecule     technologies[J]. Nature methods, 2015.阅读原文 >>

[3] Gnerre S, MacCallum I, Przybylski D, et al. High-quality draft assemblies of mammalian genomes from massively parallel sequence     data[J]. Proceedings of the National Academy of Sciences, 2011, 108(4): 1513-1518. 阅读原文 >>