生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

论文地址:Predicting drug response of tumors from integrated genomic profiles by deep neural networks

利用深度神经网络预测整合基因组谱的肿瘤药物反应

作者信息

Yu-Chiao Chiu1, Hung-I Harry Chen1,2, Tinghe Zhang2, Songyao Zhang2,3, Aparna Gorthi1, Li-Ju Wang1, Yufei Huang2,4§, Yidong Chen1,4§
1德克萨斯大学健康科学中心格里希儿童癌症研究所

2德克萨斯大学圣安东尼奥分校电气和计算机工程

3西北工业大学自动化学院信息融合技术实验室

4德克萨斯大学健康科学中心流行病学和生物统计学

论文信息:

在美国加利福尼亚州洛杉矶举行的智能生物学和医学国际会议(ICIBM 2018)上以及BMC Genomics增刊上发表。

研究背景:

       由于肿瘤的异质性,准确预测药物反应鉴定新型抗癌药物仍是一项具有挑战性的任务

       于患者的药物反应数据难以获得,大规模的基于细胞系的筛查可以极大地促进癌症药物基因组学的研究由于体内和体外生物系统的根本差异,将从细胞中获得的药物基因组学特征转化为肿瘤药物反应预测仍需要继续研究

      旨在基于基因组谱预测肿瘤对抗癌药物的反应作者设计了一个深度神经网络(DNN)模型,利用肿瘤基因组图谱(TCGA)的大量肿瘤样本,从高维突变表达谱中了解遗传背景。利用GDSC中的药物基因组学数据对模型进一步训练,最终再次应用于TCGA数据,预测肿瘤的药物反应

研究方法:

数据源:

CCLE 935个细胞系的基因表达数据E^CCLE

UCSC TumorMap 11,078TCGA泛癌肿瘤数据E^TCGA

        作者将基因表达数据表示为log以2为底(每百万个基因的转录本数+1),对于突变数据,考虑四种类型的非同义突变包括错义无义突变、移码插入和删除。有突变赋值为1,野生型赋值为0

GDSC990个细胞系对265种抗癌药物应答数据

       对GDSC缺失的数据使用RVIMlaeken,通过5种最接近的药物的IC50值加权平均值进行推算

       本研究分析了25种组织类型的622包含有效表达、突变和IC50数据的细胞系33种肿瘤类型的9059包含表达谱和突变谱的肿瘤经过数据预处理,对CCLETCGA样本中的18,281个突变基因15,363个表达基因数据进行分析

DNN模型概述

       提出DNN模型用于根据细胞或肿瘤的基因组特征预测IC50

       输入为样本c的突变和表达向量对。输出为一个长度为D的代表IC50值的向量 。

       该模型由三个网络组成:突变编码器(Menc)表达编码器(Eenc)预测网络(P)

       前两部分是使用TCGA数据的突变数据和表达数据(n=9059)进行预训练的编码器,用于将突变和表达数据的高维特征学习为低维表示。将低维表示连接到P,使用CCLE数据n = 622,分别使用80%10%10%的样本作为训练、验证和测试集)整个模型(三部分)进行训练,预测265种药物的IC50

DNN设置计算环境

     本研究中的DNN训练使用Keras 1.2.2。网络各层均为全连接层

     优化器为Adam,损失函数为均方误差MSE)。

     P的输出层使用线性**函数,其它层的**函数设为ReLU。输出为对数尺度IC50值。

神经网络模型示意图

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

预训练突变和表达编码器

        Autoencoder是一种无监督的DL模型,包括一对非对称的编码器和解码器。通过最小化输入数据和重构数据之间的损失减少数据的维数,并在瓶颈层捕获关键特征。

       为了确定优化结构,作者采用超参数优化方法hyperas,选取:

1)第一层神经元数量(409620481024)

2)第二层神经元数量(512256128)

3)第三层神经元数量(瓶颈层;643216)

4)批大小(12864)

     每个组合训练了20epochs,表现最好的模型重复运行100次。

     最终模型神经元数:Menc 18281-1024-256-64Eenc 15363-1024-256-64

完整的预测网络

      在完整模型中,两个自编码器与P相连,预测IC50值。P是一个五层前馈神经网络, 第一层合并两个编码器的输出神经元,个全连接和输出层。使用均匀分布对预测网络(P)进行初始化,突变编码器(Menc)和表达编码器(Eenc)通过TCGA数据进行预训练得到的参数进行初始化。当验证集中的损失连续3epoch停止下降时,停止训练,以避免模型过拟合。

       使用测试集进行模型评估。并使用最终的模型来预测TCGA肿瘤的药物反应。IC50预测值高表明患者对相应药物有不良反应 

与其他模型的比较

        将与线性回归支持向量种不同的DNN进行了性能比较

        首先,为了评估TCGA预处理对MencEenc的影响,使用均匀分布对两个编码器进行随机初始化,并计算整个模型的MSE

       其次,将MencEenc网络的降维问题替换为主成分分析(PCA),将MencEenc替换为突变和表达数据的前64个主成分。

       最后两个模型仅包含MencEenc研究它们是否提高了性能

       在每次迭代中,CCLE样本随机分为训练组(80%)、验证组(10%)和测试组(10%) 。根据消耗epochs数量IC50MSE,比较100次迭代的性能

       对于多变量线性回归和正则化支持向量机,融合突变基因表达的前64主成分,预测所有(使用线性回归) 单个药物(SVM)IC50值。

实验结果:

 

A CCLE真实(包含缺失值)推算预测IC50TCGA的预测数据的密度图。原始数据的两种模式有增强。

B计算和预测CCLE IC50图。预测IC50的分布与原始数据相似。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

C,DCCLE样本IC50预测值与估算值之间的PearsonSpearman相关性。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

性能比较

      作者共进行100次训练,每次都重新选择了训练、验证和测试单元。总的来说,模型在14.0epoch收敛(标准差为3.5), 测试样本MSE1.96 ,训练/验证集中为1.48

       两种经典方法在测试样本的MSE较高。本文的模型相对于随机初始化PCA结果更优且稳定(测试样本中MSE的标准差分别0.131.210.17)Eenc-only性能本文模型相似, Menc的加入似乎带来更快的收敛速度。这与生物学先验知识相符,基因表达与生物功能的联系更直接信息含量比突变更丰富

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

TCGA - per-cancer研究中,基因突变药物反应预测关系

      为了在肿瘤中寻找有效的肿瘤抗癌药物,作者将构建的模型直接应用于预测9059TCGA样本265种抗癌药物的反应。预测的IC50值与CCLE细胞分布相似。

      因为细胞系肿瘤有不同的性质,作者首先检查了几种具有知名靶基因的药物。雌激素受体阳性的乳腺癌对莫西的反应优于雌激素受体阴性患者。阿法替尼吉非替尼,EGFR突变的非小细胞肺癌中实现更好的性能。这些结果显示了模型对肿瘤的适用性,但预测IC50水平差异的幅度不大,表明了细胞系和肿瘤之间的差异。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

      作者分析了所有癌症-突变-药物组合,并测试了每一种癌症有突变和没有突变的样本之间IC50的显著性差异。设定Bonferroni校正t检验P < 1.0×10-5,共确定4453癌症-突变-药物组合,涉及256种药和169个癌症-突变组合。前三种组合为肺腺癌(LUAD-TP53突变(235药物有调节作用)、肺鳞癌(LUSC-TP53突变(228种药物)、胃腺癌(STAD-TP53突变(224药物)。TP53是许多癌症中突变最频繁、研究最深入的基因之一。该突变已被证明与癌症干细胞和耐药性功能相关,从而调节耐药性

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

TCGA - pan-cancer基因突变药物反应预测关系

       作者分析了11个在所有TCGA样品中变异率高于10%的基因 。确定2119个突变-药物对,其中1882(88.8%) 耐药,237(11.2%) 敏感。          

      对于前五种数量最多的药物反应-调节基因,TP53TTN突变分别与最多的耐药药物和敏感药物相关。因此,作者进一步研究2种基因药物应答与状态的关系

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

野生型TP53CX-5461索拉非尼发挥抗癌作用的必要因素,能使癌细胞硼替佐米敏感 ,并增强了苯乙双胍诱导的生长抑制和凋亡。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

      对于之前较少研究的TTN突变,研究结果显示TNN可能是对维诺瑞epothilone等药物敏感的标记基因。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

      单癌和泛癌的研究结果证明了模型预测肿瘤药物反应寻找肿瘤中调节药物反应的新基因的能力

TCGA多西他docetaxelCX-5461的药物基因组学分析

       作者以两种药物为例,对药物耐药性相关突变和表达谱进行研究。

       对于每一种药物,比较预测为非常敏感和耐药(IC50最先1%和最末1%,每组n = 91)的患者。

      西他赛敏感患者的主要癌症类型为食管癌(ESCA;25.3%)、宫颈癌(CESC;13.2%)以及头颈部鳞状细胞癌(HNSC;9.9%),而耐药患者主要为肝癌(LIHC;42.9%)LGG(26.4%)、胶质细胞(GBM;12.1%)

      CX-5461最近被证明在治疗急性髓系白血病(LAML)方面优于标准化疗方案。LAMLb细胞淋巴瘤(DLBC)的患者共占45.1%,对CX-5461的应答极好。

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

     对于Docetaxel基因,平均每个敏感肿瘤有2.7个突变,而耐组为0.51个。

     对于CX-5461,前10个差异突变的9基因集中在耐药组,以TP53突变为主(突变率:耐药组95.6%,敏感组13.2%)IDH1是敏感肿瘤中唯一优先突变的基因,且以LGG为主(44个敏感LGG42个发生突变)

      药物基因组学分析揭示了众所周知的多西他赛的耐药机制,揭示了CX-5461对造血系统恶性肿瘤和LGG的潜在作用

生物信息学之抗癌药物反应论文阅读六:DNN整合基因组谱

总结:

(1)本文提出了一个DNN模型,基于癌细胞肿瘤的突变和表达谱预测药物反应。模型提高了药物反应的预测准确度。将模型应用于肿瘤中,还发现了研究良好且新颖的耐药机制和药物靶点

(2)由于具有高表征能力和模型的复杂性,该方法存在过拟合的问题。针对这一问题,本研究将训练数据划分为训练集和验证集,使得训练过程能够提前停止。未来的工作可能会进一步将dropoutregulalization纳入DNNs

(3)模型可以将整合额外的基因组突变信息,例如拷贝数的改变,进一步降低MSE

(4)随着神经网络的发展,最近提出了几种新的方法来提取神经网络学习到的特征。未来的工作可以结合这些方法,进一步揭示新的致癌基因组谱。