二代测序组装PK三代测序组装

2016-07-29 编辑：诺禾致源

二代测序组装PK三代测序组装

三代Pacbio测序技术

以其长读长，无需扩增，无GC偏好性等优势成为de novo组装的新宠儿。
然而，Pacbio测序成本依然很高，并且Pacbio测序错误率较高，需要较高的深度的测序来修正自身错误率，
高深度测序就意味着高成本。是否有更高性价比的方法得到更好的结果？

组装技术介绍

近期研究人员开发出一种新的组装方法，
将二代测序Illumina的short-reads与10X Genomics公司研发的linked-reads相结合，
并加上BioNano光学图谱数据，得到了媲美三代数据组装的结果。

二代测序组装PK三代测序组装

图1 10X Genomics数据辅助基因组组装流程图[1]

技术优势

1 超低DNA起始量

表1 Pacbio文库和10X Genomics文库所需DNA量

组装策略	1个PacBio 20 Kb文库	1个10X Genomics文库
Input DNA	≥30 μg	1 ng

2 低成本，高指标

分别利用Illumina+10X Genomics+BioNano和Pacbio+BioNano[2]两种策略对人的基因组NA12878进行组装，同时以Illumina+Fosmid-end组装策略作为对照[3]。三者组装的指标见下表。利用Illumina+10X Genomics+BioNano的策略组装Scaffold最长长度可达99.96Mb，而利用Pacbio+BioNano的策略组装Scaffold最长长度为81.4Mb，更长的Scaffold在后续注释中，能够得到更全的基因结构，有助于后续生物学问题的解读。从结果可以看出，前者在组装Scaffold优势上丝毫不逊于后者，但前者的测序成本却远低于Pacbio+BioNano的策略。

表2 不同组装策略组装指标比较

组装策略	组装基因组大小	ScaffoldN50	Scaffold数目	成本
Illumina+10X Genomics+BioNano	2.86 Gb	33.5 Mb	170	低
Pacbio+BioNano	2.76 Gb	31.1 Mb	202	高
Illumina+Fosmid-end	2.78 Gb	11.5 Mb	23,634	高

3 高指标，更有高质量

对组装的基因组进行质量评估，检测结果如下表所示。首先检测N（未知碱基）的含量，在未知碱基这个指标中显示了三代测序策略的优势，说明利用三代长片段测序可有效提高连续序列片段（Contig）长度。同时将组装的序列分割成以100Kb为单位与参考基因组进行比较来验证组装的准确性，可以看到Illumina+10X Genomics+BioNano策略组装的基因组准确性在95%以上，说明该方法组装质量是高度可信的。并且利用此方法能够找到更多的SNVs（single-nucleotide variations）。

表3 不同组装策略组装指标比较

组装策略	N content %	Validity at 100Kb	Phase SNV
Illumina+10X Genomics+BioNano	10.2	95.2%	2,783,119
Pacbio+BioNano	4.61	97.5%	2,421,740
Illumina+Fosmid-end	5.9	93.5%	N/A

二代测序组装PK三代测序组装

图2 组装的Scaffold比对到参考基因组

备注：每个颜色代表一个完整Scaffold，说明组装的基因组较为完整。

综合比较而言，利用Pacbio+BioNano和Illumina+10X Genomics+BioNano两种组装策略在基因组Scaffold的长度以及准确性上均有优秀的表现，但是前者的高质量是建立在高成本之下，相比而言，通过二代数据，采用新技术组装策略（Illumina+10X Genomics+BioNano）的后者，无疑是一种更高性价比的选择。

参考文献

[1] Mostovoy Y, Levy-Sakin M, Lam J, et al. A hybrid approach for de novo human genome sequence assembly and phasing[J]. Nature methods, 2016. 阅读原文 >>

[2] Pendleton M, Sebra R, Pang A W C, et al Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature methods, 2015.阅读原文 >>

[3] Gnerre S, MacCallum I, Przybylski D, et al. High-quality draft assemblies of mammalian genomes from massively parallel sequence data[J]. Proceedings of the National Academy of Sciences, 2011, 108(4): 1513-1518. 阅读原文 >>

二代测序组装PK三代测序组装