生物信息学之抗癌药物反应论文阅读一:DeepProfile

论文地址:DeepProfile: Deep learning of patient molecular profiles for precision medicine in acute myeloid leukemia

DeepProfile:深度学习应用于精准医学,急性髓细胞白血病患者分子谱分析 

作者信息

[1] Ayse Berceste Dincer, Safiye Celik, Naozumi Hiranuma, Su-In Lee: Paul G. Allen School of Computer Science and Engineering.

Paul G. Allen计算机科学与工程学院(隶属于华盛顿大学)

 

[2] Su-In Lee: Department of Genome Sciences, School of Medicine, University of Washington.

华盛顿大学医学院基因组科学系

概述

        大多数癌症晚期患者继续着接受无效的药物治疗。急性髓细胞白血病(AML的治疗和治愈率仍在25%的范围内。一些病人癌症病理性相似但是对同样的药物反应却不同,这表明了利用分子特性预测药物反应的重要性。在以往的研究中,常用的机器学习算法有弹性网络、支持向量机、随机森林、贝叶斯多任务多核学习等。常用的生物和分子数据有基因表达、突变和拷贝数畸变。在2014年发表在Nature Biotechnology的文章表明基因表达数据是在预测问题中最有效的数据 。本文提出的DeepProfile使用VAE模型(Dec. 2013)公开可用的数据集收集白血病患者的基因表达数据,从中学习有意义的潜在变量作为表型预测的特征。是使用深度学习从大量未标记(即没有表型)的表达样本中学习特征表示的第一次尝试。

实验部分

数据集:

训练数据

数据来源:  美国国立生物技术信息中心(NCBI)基因表达汇编数据库(GEO

数据包含:4367例白血病患者样本。其中包括2831AML (急性髓细胞白血病)以及ALL(急性淋巴细胞白血病)、CML(慢性骨髓性白血病)、CLL(慢性淋巴细胞白血病)、BPDCN(胚胎浆细胞样树突细胞肿瘤)和MDS(骨髓增生异常综合征)

测试数据

数据来源:华盛顿大学医学中心(UWMC

数据包含:30AML患者样品的基因表达数据和这些样品对160种化疗药物的体外药物敏感性数据

训练数据预处理:

1)使用Bioconductor注释数据库将探针ID转换为基因ID。所有数据集*存在4,051个基因(所有白血病数据集中重叠的基因)。

2)对每个数据集中的每个基因芯片数据进行了标准化
3)对数据进行了批次效应修正,以最大限度地减少实验变化导致的潜在混淆因素的影响。

上面提到的一些名词的解释:

      基因芯片数据标准化的目的是消除由于实验技术所导致的表达量的变化。分为片内和片间标准化。片内标准化是去除每张芯片的系统误差。片间标准化是将不同芯片数据调整到同一水平。批次效应是由于芯片在不同的实验批次处理而产生的系统误差。

      VAEVariational  Autoencoder)有很多论文和博客提到,这里就不详细介绍啦~在这篇论文中,作者使用变分自编码器把基因表达数据降维。

训练与测试过程:

VAE作用:学习基因表达数据的低维特征表示。

网络参数设置:VAE模型由编码器和解码器网络组成,编码器具有4个全连接层。分别包含1,024,256648个隐藏单元。解码器具有4个全连接层,分别包含6425610244051个隐藏单元。

        在学习了VAE模型后,使用推断出的权重对30AML患者中的每一个编码一个8维特征向量。然后在L1正则化线性回归(用于药物反应预测)或L1正则化逻辑回归(用于完全缓解类别预测)中衡量该向量的预测性能。使用leave-one-out交叉验证(LOOCV)来计算预测误差,并在训练样本上使用5倍交叉验证来选择正则化参数λ

       VAE模型是非凸的,学到的LDRlow-dimensional representation)不是唯一的。所以对模型进行十次训练。给出结果包括了10VAE运行过程中一个标准偏差的误差线。

DeepProfile 框架:

生物信息学之抗癌药物反应论文阅读一:DeepProfile

实验结果

比较试验:

1)通过VAE学习到的LDR30AML患者测量的16,864基因表达水平进行比较。

2)通过包括k均值聚类主成分分析(PCA在内的其他降维方法进行比较。

衡量指标:

(1药物反应L1正则化线性回归 (2完全缓解L1正则化逻辑回归

药物反应预测实验:

 VAE GE

生物信息学之抗癌药物反应论文阅读一:DeepProfile

a)通过三种方法获得的所有160种抗癌药物预测的MSE值。

b)通过三种方法获得的44种预测效果好的药物预测的MSE值。

预测效果好:三种方法中至少一种MSE<=0.7。误差线表示VAE10次不同运行时误差值的一个标准偏差。

生物信息学之抗癌药物反应论文阅读一:DeepProfile

c) 比较由基因表达水平和VAE-AML获得的MSE值的散点图(109/160)。

d) 排除c中基因表达和VAE-AMLMSE均大于0.7的药物的点(29/44)。

每个点代表药物,并且对角线上方的点对应于VAE-AML优于基因表达水平的药物。

VAE K均值聚类、PCA

生物信息学之抗癌药物反应论文阅读一:DeepProfile

       对于k均值聚类,该文学习了8个基因簇,并将聚类质心用作LDR。对于PCA,该文使用前8个主成分作为LDR。相对于线性方法,VAE的非线性维数降低产生了更多信息量。

VAE模型的深度和训练数据的大小

生物信息学之抗癌药物反应论文阅读一:DeepProfile生物信息学之抗癌药物反应论文阅读一:DeepProfile

       向VAE模型添加更多层提高了性能,因为更深的网络能够发现基因之间更复杂的非线性关联。然而,当网络太深时,由于样本量不足,学习的VAE-AML LDR表现更差。VAE LDR的性能随着样本量的增多而增加。

完全缓解预测效果实验

预测30AML患者的完全缓解表型。

完全缓解:所有癌症迹象都被治疗清除。

生物信息学之抗癌药物反应论文阅读一:DeepProfile

结论:VAE学习到的LDR可以推广到其他预测任务。

总结

        该文介绍采用变分自动编码器(VAE)的DeepProfile框架,从Gene Expression OmnibusGEO)数据库获得的AML患者的基因表达数据,通过使用VAE产生的较低维度表示(即潜在变量)显著优于药物反应预测问题中的原始输入特征表示(即基因表达水平)。

        值得注意的是,VAE的表现不仅取决于样本大小,而且还受到数据性质的影响。 当添加来自其他类型白血病患者的样本时,预测性能恶化。可能的原因是不同的癌症亚型具有不同的特征,并且每种癌症亚型显示特定的分子特性。

未来发展方向:

1)使用数据标签获得的半监督VAE

2)增加训练VAE的样本量。

3)将框架扩展到不同的癌症类型,并构建一个通用工具,用于提取特定于不同癌症类型的潜在特征。