二代测序组装PK三代测序组装
二代测序组装PK三代测序组装
2016-07-29 编辑:诺禾致源
三代Pacbio测序技术
以其长读长,无需扩增,无GC偏好性等优势成为de novo组装的新宠儿。
然而,Pacbio测序成本依然很高,并且Pacbio测序错误率较高,需要较高的深度的测序来修正自身错误率,
高深度测序就意味着高成本。是否有更高性价比的方法得到更好的结果?
组装技术介绍
近期研究人员开发出一种新的组装方法,
将二代测序Illumina的short-reads与10X Genomics公司研发的linked-reads相结合,
并加上BioNano光学图谱数据,得到了媲美三代数据组装的结果。
图1 10X Genomics数据辅助基因组组装流程图[1]
技术优势
1 超低DNA起始量
表1 Pacbio文库和10X Genomics文库所需DNA量
组装策略 | 1个PacBio 20 Kb文库 | 1个10X Genomics文库 |
Input DNA | ≥30 μg | 1 ng |
2 低成本,高指标
分别利用Illumina+10X Genomics+BioNano和Pacbio+BioNano[2]两种策略对人的基因组NA12878进行组装,同时以Illumina+Fosmid-end组装策略作为对照[3]。三者组装的指标见下表。利用Illumina+10X Genomics+BioNano的策略组装Scaffold最长长度可达99.96Mb,而利用Pacbio+BioNano的策略组装Scaffold最长长度为81.4Mb,更长的Scaffold在后续注释中,能够得到更全的基因结构,有助于后续生物学问题的解读。从结果可以看出,前者在组装Scaffold优势上丝毫不逊于后者,但前者的测序成本却远低于Pacbio+BioNano的策略。
表2 不同组装策略组装指标比较
组装策略 | 组装基因组大小 | ScaffoldN50 | Scaffold数目 | 成本 |
Illumina+10X Genomics+BioNano | 2.86 Gb | 33.5 Mb | 170 | 低 |
Pacbio+BioNano | 2.76 Gb | 31.1 Mb | 202 | 高 |
Illumina+Fosmid-end | 2.78 Gb | 11.5 Mb | 23,634 | 高 |
3 高指标,更有高质量
对组装的基因组进行质量评估,检测结果如下表所示。首先检测N(未知碱基)的含量,在未知碱基这个指标中显示了三代测序策略的优势,说明利用三代长片段测序可有效提高连续序列片段(Contig)长度。同时将组装的序列分割成以100Kb为单位与参考基因组进行比较来验证组装的准确性,可以看到Illumina+10X Genomics+BioNano策略组装的基因组准确性在95%以上,说明该方法组装质量是高度可信的。并且利用此方法能够找到更多的SNVs(single-nucleotide variations)。
表3 不同组装策略组装指标比较
组装策略 | N content % | Validity at 100Kb | Phase SNV |
Illumina+10X Genomics+BioNano | 10.2 | 95.2% | 2,783,119 |
Pacbio+BioNano | 4.61 | 97.5% | 2,421,740 |
Illumina+Fosmid-end | 5.9 | 93.5% | N/A |
图2 组装的Scaffold比对到参考基因组
备注:每个颜色代表一个完整Scaffold,说明组装的基因组较为完整。
综合比较而言,利用Pacbio+BioNano和Illumina+10X Genomics+BioNano两种组装策略在基因组Scaffold的长度以及准确性上均有优秀的表现,但是前者的高质量是建立在高成本之下,相比而言,通过二代数据,采用新技术组装策略(Illumina+10X Genomics+BioNano)的后者,无疑是一种更高性价比的选择。
参考文献
[1] Mostovoy Y, Levy-Sakin M, Lam J, et al. A hybrid approach for de novo human genome sequence assembly and phasing[J]. Nature methods, 2016. 阅读原文 >>
[2] Pendleton M, Sebra R, Pang A W C, et al Assembly and diploid architecture of an individual human genome via single-molecule technologies[J]. Nature methods, 2015.阅读原文 >>
[3] Gnerre S, MacCallum I, Przybylski D, et al. High-quality draft assemblies of mammalian genomes from massively parallel sequence data[J]. Proceedings of the National Academy of Sciences, 2011, 108(4): 1513-1518. 阅读原文 >>