全基因组数据CNV分析简介

欢迎关注”生信修炼手册”!

除了利用aCGH和snp芯片来检测CNV之外,也可以通过NGS数据来分析CNV, 比如全基因组和全外显子测序。针对全基因组CNV的检测,还针对开发了一种称之为CNV_seq的测序策略,指的是低深度全基因组测序,只需要5X的测序深度,就可以有效的检测CNV。

本文根据一篇2015年的综述来简单介绍下全基因组CNV分析的策略,文章标题如下

Whole-genome CNV analysis: advances in computational approaches

链接如下

https://www.frontiersin.org/articles/10.3389/fgene.2015.00138/full

根据软件的基本原理,可以分为以下4大类别,图示如下

全基因组数据CNV分析简介

1. Read-Pair(RP)

RP是最早出现的算法,利用双端测序插入片段长度分布来检测CNV, 也称之为PEM,pair end mapping方法。双端测序插入片段长度分布如下图所示

全基因组数据CNV分析简介

当插入片段长度过长或者过短时,都代表着基因组发生了结构变异,如上图中的两个阈值,图示如下

全基因组数据CNV分析简介

以上两幅图来自文献Jan O. Korbel et al.Science 318, 420 (2007)

当计算出来的插入片段长度小于cutoff I时,说明相比reference, 实际检测样本中对应区域插入了部分碱基,相反地,如果计算出来的插入片段长度大于cutoff D时,说明相比reference, 实际检测样本对应区域插入了部分碱基。

受到测序读长的影响,该方法适用于检测中等长度的insertion和deletion, 对过小的插入不敏感,而且比较依赖比对的准确性,无法分析低复杂度的segmental duplication区域。

采用该策略的部分软件列表如下

  1. BreakDancer

  2. PEMer

  3. Ulysses

2. Split-read(SR)

SR方法利用一端能够比对,另外一端比对不上的reads来识别CNV。另外一端比对不上,可能是存在CNV, 通过将单独的reads进行拆分,使其能够正确比对到参考基因组上,拆分的点就是CNV的断裂点。

只利用了单端reasd, 读长进一步受到限制,所以该方法只适用于检测小规模的插入和缺失,采用该策略的部分软件列表如下

  1. Pindel

  2. PRISM

  3. SVseq2

  4. Gustaf

3. Read-Depth(RD)

RD方法利用拷贝数和对应区域测序深度的相关性来进行分析,基本模型是缺失区域的测序深度相对低,而插入区域的测序深度相对高。该算法采用滑动窗口的方式,统计每个窗口内的测序深度分布,然后根据不同窗口测序深度的分布来预测CNV区域,图示如下

全基因组数据CNV分析简介

上图来自文献Genome Res. 2011. 21: 974-984

类似芯片中的log ratio值,在RD方法中,会根据区域对应的测序深度来判断对应的CNV数目。在该类方法中,滑动窗口的大小对结果影响较大,当窗口很大时,一些长度很短的small  cnv信号就会被掩盖。

相比RP和SR两种方法,RD可以进行CNV分型,明确CNV的数目,RP和SR只能检测断点的位置, 而且RD可以检测大规模的CNV, 是目前较为主流的算法。采用该策略的部分软件列表如下

  1. CNVnator

  2. ERDS

  3. ReadDepth

  4. CNVrd2

4. Assembly(AS)

AS方法利用测序得到的短序列进行组装,将组装的contig与参考基因组进行比较,从而确定发生了结构变异的区域。组装的精确依赖测序读长和算法的准确度,而且组装对硬件资源的消耗特别大,并不是一个理想的CNV检测的算法,这里就不做过多的介绍了。

以上4种是最基本的算法理念,还有很多软件会综合其中的某几种算法来检测CNV, 比如speedseq中集成的lumpy软件,综合利用RP,SR, RD三种方式来检测CNV。

比对准确性是基于NGS的策略检测结果准确的前提,mapping的准确率和二代测序对基因组的覆盖度都会影响到CNV的检测结果,同时在计算测序深度时GC含量差异带来的PCR扩增偏移,也需要进行校正,通过设置对照样本,能够有效的减少系统误差的干扰,更好的进行CNV的检测。

综上所述,每种算法各有其优缺点,综合使用多种策略有助于提高检测结果的准确性和敏感性,同时设置对照样本,可以更加有效的分析拷贝数的变化。

·end·

—如果喜欢,快分享给你的朋友们吧—

扫描关注微信号,更多精彩内容等着你!

全基因组数据CNV分析简介