生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

论文地址：Predicting drug response of tumors from integrated genomic profiles by deep neural networks

利用深度神经网络预测整合基因组谱的肿瘤药物反应

作者信息：

Yu-Chiao Chiu1, Hung-I Harry Chen1,2, Tinghe Zhang2, Songyao Zhang2,3, Aparna Gorthi1, Li-Ju Wang1, Yufei Huang2,4§, Yidong Chen1,4§
1德克萨斯大学健康科学中心格里希儿童癌症研究所

2德克萨斯大学圣安东尼奥分校电气和计算机工程系

3西北工业大学自动化学院信息融合技术实验室

4德克萨斯大学健康科学中心流行病学和生物统计学系

论文信息：

在美国加利福尼亚州洛杉矶举行的智能生物学和医学国际会议（ICIBM 2018）上以及BMC Genomics增刊上发表。

研究背景：

由于肿瘤的异质性，准确预测药物反应和鉴定新型抗癌药物仍是一项具有挑战性的任务。

由于患者的药物反应数据难以获得，大规模的基于细胞系的筛查可以极大地促进癌症药物基因组学的研究。但由于体内和体外生物系统的根本差异，将从细胞中获得的药物基因组学特征转化为肿瘤药物反应的预测仍需要继续研究。

本文旨在基于基因组谱预测肿瘤对抗癌药物的反应。作者设计了一个深度神经网络(DNN)模型，利用肿瘤基因组图谱(TCGA)的大量肿瘤样本，从高维突变和表达谱中了解遗传背景。利用GDSC中的药物基因组学数据对模型进一步训练，最终再次应用于TCGA数据，预测肿瘤的药物反应。

研究方法：

数据源：

CCLE： 935个细胞系的基因表达数据E^CCLE

UCSC TumorMap ：11,078个TCGA泛癌肿瘤数据E^TCGA

作者将基因表达数据表示为log以2为底（每百万个基因的转录本数+1），对于突变数据，考虑了四种类型的非同义突变，包括错义和无义突变、移码插入和删除。有突变赋值为1，野生型赋值为0。

GDSC：990个细胞系对265种抗癌药物应答数据。

对GDSC中缺失的数据使用R包VIM和laeken，通过5种最接近的药物的IC50值加权平均值进行推算。

本研究分析了25种组织类型的622个包含有效表达、突变和IC50数据的细胞系和33种肿瘤类型的9059个包含表达谱和突变谱的肿瘤。经过数据预处理后，对CCLE和TCGA样本中的18,281个突变基因和15,363个表达基因数据进行分析。

DNN模型概述

提出的DNN模型用于根据细胞或肿瘤的基因组特征预测IC50值。

输入为样本c的突变和表达向量对。输出为一个长度为D的代表IC50值的向量。

该模型由三个网络组成：突变编码器(Menc)，表达编码器(Eenc)，预测网络(P)。

前两部分是使用TCGA数据的突变数据和表达数据（n=9059）进行预训练的自编码器，用于将突变和表达数据的高维特征学习为低维表示。将低维表示连接到P中，使用CCLE数据（n = 622，分别使用80%、10%和10%的样本作为训练、验证和测试集）对整个模型（三部分）进行训练，预测265种药物的IC50值。

DNN的设置和计算环境

本研究中的DNN训练使用Keras 1.2.2。网络各层均为全连接层。

优化器为Adam，损失函数为均方误差（MSE）。

P的输出层使用线性**函数，其它层的**函数设为ReLU。输出为对数尺度IC50值。

神经网络模型示意图

生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

预训练突变和表达编码器

Autoencoder是一种无监督的DL模型，包括一对非对称的编码器和解码器。通过最小化输入数据和重构数据之间的损失减少数据的维数，并在瓶颈层捕获关键特征。

为了确定优化结构，作者采用超参数优化方法hyperas，选取：

（1）第一层神经元数量(4096、2048或1024)

（2）第二层神经元数量(512、256或128)

（3）第三层神经元数量(瓶颈层;64、32或16)

（4）批大小(128或64)。

每个组合训练了20个epochs，表现最好的模型重复运行100次。

最终模型神经元数：Menc （18281-1024-256-64） Eenc （15363-1024-256-64）

完整的预测网络

在完整模型中，两个自编码器与P相连，预测IC50值。P是一个五层前馈神经网络, 第一层合并两个编码器的输出神经元,三个全连接层和输出层。使用均匀分布对预测网络(P)进行初始化，突变编码器(Menc)和表达编码器(Eenc)通过对TCGA数据进行预训练得到的参数进行初始化。当验证集中的损失连续3个epoch停止下降时，停止训练，以避免模型过拟合。

使用测试集进行模型评估。并使用最终的模型来预测TCGA肿瘤的药物反应。IC50预测值高表明患者对相应药物有不良反应。

与其他模型的比较

将与线性回归、支持向量机和四种不同的DNN进行了性能比较。

首先，为了评估TCGA预处理对Menc和Eenc的影响，使用均匀分布对两个编码器进行随机初始化，并计算整个模型的MSE。

其次，将Menc和Eenc网络的降维问题替换为主成分分析(PCA)，将Menc和Eenc替换为突变和表达数据的前64个主成分。

最后两个模型仅包含Menc或Eenc，研究它们是否提高了性能。

在每次迭代中，CCLE样本随机分为训练组(80%)、验证组(10%)和测试组(10%) 。根据消耗的epochs数量和IC50的MSE，比较了100次迭代的性能。

对于多变量线性回归和正则化支持向量机，融合突变和基因表达的前64个主成分，预测所有(使用线性回归) 或单个药物(SVM)的IC50值。

实验结果：

（A） CCLE的真实(包含缺失值)、推算和预测的IC50值和TCGA的预测数据的密度图。原始数据的两种模式有所增强。

（B）计算和预测CCLE IC50值的热图。预测IC50的分布与原始数据相似。

生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

（C,D）CCLE样本IC50预测值与估算值之间的Pearson和Spearman相关性。

生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

性能比较

作者共进行了100次训练，每次都重新选择了训练、验证和测试单元。总的来说，模型在14.0个epoch内收敛(标准差为3.5), 测试样本MSE为1.96 ，训练/验证集中为1.48。

两种经典方法在测试样本的MSE值较高。本文的模型相对于随机初始化和PCA结果更优且稳定(测试样本中MSE的标准差分别为0.13、1.21和0.17)。Eenc-only的性能与本文模型相似， Menc的加入似乎带来更快的收敛速度。这与生物学先验知识相符，即基因表达与生物功能的联系更直接，信息含量比突变更丰富。

生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

在TCGA - per-cancer研究中，基因突变与药物反应预测的关系

为了在肿瘤中寻找有效的肿瘤抗癌药物，作者将构建的模型直接应用于预测9059个TCGA样本对265种抗癌药物的反应。预测的IC50值与CCLE细胞分布相似。

因为细胞系和肿瘤有不同的性质，作者首先检查了几种具有知名靶基因的药物。雌激素受体阳性的乳腺癌对它莫西芬的反应优于雌激素受体阴性患者。阿法替尼和吉非替尼, 在EGFR突变的非小细胞肺癌中实现更好的性能。这些结果显示了模型对肿瘤的适用性，但预测的IC50水平差异的幅度不大，表明了细胞系和肿瘤之间的差异。

生物信息学之抗癌药物反应论文阅读六：DNN整合基因组谱

作者分析了所有癌症-突变-药物组合，并测试了每一种癌症有突变和没有突变的样本之间IC50的显著性差异。设定Bonferroni校正t检验P < 1.0×10-5,共确定了4453种癌症-突变-药物组合，涉及256种药和169个癌症-突变组合。前三种组合为肺腺癌（LUAD）-TP53突变(共235种药物有调节作用)、肺鳞癌（LUSC）-TP53突变(228种药物)、胃腺癌（STAD）-TP53突变(224种药物）。TP53是许多癌症中突变最频繁、研究最深入的基因之一。该突变已被证明与癌症干细胞和耐药性功能相关，从而调节耐药性。