MRCNN: a deep learning model for regression of genome-wide DNA methylation(论文阅读报告)
MRCNN: a deep learning model for regression of genome-wide DNA methylation
Motivation
DNA甲基化的过程是在DNA甲基转移酶(Dnmt)作用下向胞嘧啶选择性地添加一个甲基以形成5-胞嘧啶。
在哺乳动物基因组中,70-80%的CpG二核苷酸都有甲基化现象。
CpG甲基化对基因表达等方面有影响。
全基因组DNA甲基化的测定是研究其影响的基础。
Related Work
-
WGBS:可以实现基因组甲基化模式的系统级分析。但是具有以下缺点:昂贵;受到亚硫酸氢盐转化的基因组的低序列复杂度和降低的GC含量的限制;不稳定的环境和不同的平台使预测更加困难。
CpG位点特异性甲基化水平的预测对于全基因组的甲基化分析至关重要。
-
CGI:着重于预测特定基因组区域的甲基化模式。
-
大多数方法都需要结合大量信息,比如预定义特征。但甲基化位点的数量很大,很难轻松获得相应的预测特征。这导致在做预测之前需要做大量的人工注释和数据预处理。
Method
MRCNN:
- 基于多层卷积神经网络模型,可以在单碱基情况下实现CpG位点的甲基化预测。
- 由于连续的MSE(均方误差)损失函数,该方法可以实现连续值回归。
- 通过局部DNA序列实现了CpG位点的甲基化预测,不仅克服了繁琐的预处理过程,而且预测结果涵盖了甲基化值的所有范围。
- 通过训练过程中提取的DNA序列模式,发现了相应的de novo motifs。
Data and encoding
Raw Data:多个系列的全基因组亚硫酸氢盐序列。
Input Data:原始序列。
Output Data:每个CpG位点的甲基化程度用甲基率表示,0~1。
Preprocessing:对于一个DNA序列,提取出以测定的甲基化位点为中心的400 bps片段。然后进行编码,A = [0,0,0,1];T = [1, 0, 0, 0];C = [0, 1, 0, 0];G = [0, 0, 1, 0]。得到一个400*4的2D张量。
MRCNN
-
第一层为单卷积层,没有池化层。
因为第一层的卷积本质上是编码信息的合成,也就是说要确保该卷积网络可以完全读取每个碱基的编码信息,所以没有池化层。因为每个碱基都是1 * 4独立编码,所以卷积核的大小只能是1 * 4。
运算过程:输入数据为400*4的2D张量,将每一个卷积核与该矩阵进行运算,得到一个通道的400*1的张量。有16个卷积核,就可以得到16个通道的400*1张量。
-
将400*1张量调整为20*20张量。
为了:提取DNA序列模式中包含的信息;有利于之后的2D数组卷积和池化操作。
-
第二层和第三层为卷积层和池化层。
卷积核的大小为3*3,步长为1*1;(先Relu**函数将负数均设置为0);池化为最大值池化,步长为3*3。
实现非重叠池可减小输入张量的尺寸,从而减小模型参数的数量。
运算过程:20*20张量经过卷积得到18*18张量;再经过池化得到6*6张量。
-
接下来的两层都是单卷积层,其大小和步长与第二层的卷积核相同。
运算过程:6*6张量——4*4张量——2*2张量。
-
最后一层为全连接层。
运算过程:将16个通道的2*2张量转化为64*1的矩阵,每个像素点乘相应权重得到一个输出值,为甲基化水平(由于最终的预测值是连续的,因此它可能大于1或小于0,因此我们将其统一合并。 对于大于1的预测值,将该值设为1,将小于0的预测值视为0)。
训练过程中的损失函数为均方误差。
Model construction
Training set:10 million sites from WGBS。拟合模型。
Validation set:2 million CpG sites from the remaining sites。优化超参数。
Test set:将训练集中的数据随机分为几份,生成多个独立的测试子集。进行最终模型评估和比较。
epoch:
Results
Regression error
根据原始的甲基化值将数据分为三类:大于0.9,为高甲基化;小于0.1,为低甲基化;0.4~0.6,为中甲基化。
然后通过计算真实值和预测值之间的误差来评估回归结果。
- MRCNN在预测不同的甲基化状态中性能不同:对于高甲基化的位点,误差较小。
- MRCNN的总体回归结果不错:单个位点预测的最大误差约为0.5;所有测试站点的大多数误差都集中在0.1左右;从三类数据的RMSE和MAE值可看出误差可接受。
Classification performance
三个模型:MRCNN、DeepCpG、simple CNN(输入层,卷积层1,池化层1,卷积层2,池化层2,全连接层,输出层)。
将数据分为:由于我们的标签值和预测结果是连续的,因此我们选择0.5作为临界值,以将甲基化状态分为阳性样本(> 0.5)和阴性样本(≤0.5)。
将数据分为:来自CpG岛和非CpG岛的基因位点。(CpG岛:CpG保持或高于正常概率的区域)
我们用SE、SP、ACC、AUC分别评估对来自CpG岛和非CpG岛的基因位点的分类性能。
结果表明
-
MRCNN的总体预测优于DeepCpG,而DeepCpG的结果优于simple CNN。
-
在预测CpG岛的位点时,SE小于SP,而对于非CpG岛的位点,情况相反。
-
我们还考虑了不同细胞和组织类型对MRCNN预测的影响。由于用于训练模型的数据来自人体的正常干细胞,因此我们比较了预测另外三种组织的甲基化水平的性能。结果表明,预测结果略微差一些,但仍然很好。
说明MRCNN对较复杂的甲基化问题具有一定的鲁棒性。
Feature analysis and motifs finding
-
用t-SNE可视化图来评估第一层卷积层中的卷积核区分高甲基化和低甲基化状态的能力。
可以看出:原始特征不能很好地区分高甲基化和低甲基化状态,而在卷积特征提取之后,它可以粗略地分开。这证明了卷积运算的有效性。
(t-SNE的使用、具体输入的是什么 不是特别清楚)
-
在线基序的序列分析工具MEME有已发现的与DNA甲基化相关的序列基序。
MRCNN发现的de novo motifs与其匹配。(?)
可以发现:
高甲基化的相应基序倾向于具有在特定位点的一种特定类型的主要碱基,而低甲基化和中间甲基化状态相对应的基序没有特别明显的趋势。
无论甲基化过高或甲基化过低的位点如何,一些匹配的已知基序都与锌指因子有关,这表明它可能在甲基化过程中起重要作用。
Future work
- 将深度学习与现有已知的甲基化生物学背景相结合,以构建全面的分析模型,以更深入地了解这种表观遗传现象。
- MRCNN训练过程中学习到的特征可能反映了甲基化的正常和异常模式。可以与癌症数据相结合来扩展模型。