生物信息学之抗癌药物反应论文阅读七:MOLI
论文地址:MOLI: Multi-Omics Late Integration with deep neural networks for drug response prediction
小Tip:这是总结生物信息学相关论文系列的最后一篇啦~因为要 毕!业!了!
MOLI:将多组学晚期整合深度神经网络用于药物反应预测
作者信息:
Hossein Sharifi-Noghabi 1,3, Olga Zolotareva 2, Colin C. Collins 3,4,*, and Martin Ester 1,3,∗
1.加拿大西蒙弗雷泽大学计算机科学学院。
2.德国比勒菲尔德大学生物技术学院基因组信息学国际研究小组。
3.温哥华前列腺中心。
4.加拿大哥伦比亚大学泌尿系。
研究背景:
1.精准肿瘤学是利用基因组数据为肿瘤患者量身定做治疗方案。目前,只有11%接受精准肿瘤学治疗的患者能够进入临床试验,只有5%的患者从精准肿瘤学中获益。
2.药物反应预测中信息量最大的数据类型是基因表达。有研究表明,整合额外组学数据可以提高预测精度,由此引出了如何整合额外组学数据的问题。
3.无论采用何种集成策略,临床实用性都是至关重要的。多组学方法结合临床数据集可以提高药物反应预测的临床相关性。
研究方法:
在多组学数据分析中,一个关键的问题是如何集成不同的数据类型。多组学集成主要有两种方法:早期集成和晚期集成。
早期集成:首先将一个样本所有可用的组学数据类型连接起来,然后使用一些特征学习方法,如自动编码器,来创建该样本的集成表示。
早期集成的缺点:
I.忽略了每种组学数据类型各自的分布情况。
II.需要适当的标准化,以避免赋予具有更高维度的组学数据类型更大的权重。
III.进一步增加了输入数据的维数。
晚期集成:对每种组学数据类型分别学习特征,然后将这些特征集成到一个统一的表示中,作为分类器或回归器的输入。
本文提出了一种基于深度神经网络的多组学晚期整合方法MOLI。MOLI将体细胞突变、拷贝数畸变和基因表达数据作为输入,预测给定药物的反应。MOLI包含多个前馈编码子网络,每个编码子网络输入相应的组学数据。将编码子网络中学习到的特征拼接成一种表示。将拼接的表示作为分类子网络的输入,用于预测药物反应。整个网络以端到端的方式进行训练。分类子网络的成本函数结合了三元损失和二元交叉熵损失。前者使得响应样本间的表达更相似,响应样本与非响应样本的表示更不同,后者使得这种表示对IC50值更有预测性。MOLI是第一个使用深度神经网络的端到端晚期集成方法。
整体工作流程如下:
分步介绍:
1.通过编码子网络学习特征
使用XM,XE和XC表示突变,拷贝数畸变和基因表达数据,维度为N×D,其中N是样本的数量,D是基因的数量。
每个编码子网络的基本结构为全连接层,**函数为Relu,均包含dropout和批标准化。将这些子网络分别表示为fM (XM)、fC (XC)和fE (XE)。
2.整合特征
如果三个编码子网络的输出是三个M×N特征矩阵,经过拼接,输出为 M×3 N特征矩阵。经过l2标准化层进一步平滑了集成表示。集成过程:F(XM ,XC,XE )= fM (XM) ⊕ fC (XC) ⊕ fE (XE) ,⊕表示连接操作。
3.通过组合成本函数优化特征
MOLI的最后一个子网络的**函数为Sigmoid,使用dropout和L2正则化。将这个分类器表示为g(.)。组合成本函数的第一部分是传统意义上的二元交叉熵损失函数,这里就不展开说啦。下图说一下第二部分——三元损失函数。
选择三元组( triplets )的方法:离线选择和在线选择。离线选择是在训练模型之前,根据标签的值构建三元组。在线选择在训练期间从每一个mini-batch中构建三元组。作者采用了在线选择的方式。在线选择也包含两种:软选择是在输入样本/mini-batch所有可能的组合构建三元组。硬选择是只使用三元损失值高的三元组。
软选择为模型提供了更多的训练样本,但网络可能过于依赖简单的样本,在困难样例上表现不佳。硬选择训练样本少,在小的不平衡数据集上表现不佳。作者采用了软选择的方法。
对于靶向药物,作者使用迁移学习,用泛药物训练MOLI。这种泛药物输入包含针对同一通路或分子的靶向药物族的多组学特征和药物反应。一个MOLI模型是针对一个药物族进行训练的,这种方法增加了训练数据集的大小。作者评估了EGFR通路抑制剂的迁移学习,该方法适用于任何靶向药物族。
实验结果:
数据集
1.肿瘤药物敏感性基因组学(GDSC)数据集
包含1000多个癌细胞系的多组学数据和265种靶向和化疗药物的反应数据。
2.异种移植(PDX)百科全书数据集
包含300多个不同癌症类型的PDX模型及34种靶向和化疗药物的反应数据。
3.TCGA数据集
包含一万多名不同癌症类型患者的肿瘤样本的谱数据及部分患者药物反应。
数据类型
1.基因表达:将基因表达的值进行了标准化。
2.体细胞拷贝数:缺失或扩增基因赋值为1 ,其余赋值为0 。
3.体细胞点突变:体细胞点突变的基因赋值为1,其余赋值为0。
训练数据:GDSC细胞系
MOLI性能实验中使用的药物种类:多西他赛、顺铂、吉西他滨、紫杉醇、厄洛替尼和西妥昔单抗
迁移学习性能实验中使用的药物种类(靶向EGFR通路的药物): 西妥昔单抗、厄洛替尼、阿法替尼、吉非替尼和拉帕替尼。使用这些药物的多组学数据创建一个大的训练集( > 3000个样本)。
验证数据:体外(PDX)和体内(TCGA患者)
作者使用5种化疗药物和2种靶向治疗药物对MOLI进行了验证。
实验主要针对三个问题进行设计:
1.在PDX和患者数据的预测中,MOLI是否优于单组学和早期整合模型?
2.迁移学习是否对靶向药物有效,即接受泛药物数据训练的MOLI是否优于接受单药数据训练的MOLI ?
3.对于靶向药物,MOLI预测的反应是否与该药物的靶向有关?
实验结果包含几部分:
首先是MOLI和对照模型的AUC值。
NA:非靶向药物 NSC:损失曲线或AUC曲线是波动的 Complete:MOLI包含分类损失和三元损失
由表格可以得出的结论:
1.MOLI在三种药物中表现最佳,在三种药物中表现第二(下划线指示)。
2.对于Erlotinib和Cetuximab,MOLI在接受泛药物输入时表现更好。
3.对于Paclitaxel和 Erlotinib,大多数对照模型要么表现不佳,要么出现NSC。可能的原因是样本数量少 。
4.在四种药物的早期整合模型中观察到了NSC,可能的原因是开始时的级联增加了维度,使自编码器和分类器在特征学习上更加困难。
将EGFR抑制剂的泛药物输入训练的MOLI应用于从TCGA(乳腺癌、膀胱癌、胰腺癌、肺癌、肾癌和前列腺癌)下载的无药物反应的多组学数据,并预测这些患者的反应。由于这些药物靶向EGFR通路,作者预计该通路基因的表达状态与预测的药物反应密切相关。为了研究相关性,作者从REACTOME数据集中获得EGFR通路的基因列表。通过预测响应和列表中基因表达水平间的多元线性回归,得到每个基因的p-value。
乳腺癌:AP2A1(P = 0.007),CALM2(P = 0.01),CLTA(P = 0.0002)、EGFR(P = 1×10−5),PIK3CA(P = 0.007),和UBA52(P = 3×10−6)基因的表达水平与预测的反应有显著关联。
前列腺癌:AKT1 (P = 0.02)、CDK1(P = 0.01)、RICTOR (P = 0.0002)、CREB1 (P = 0.02)、CSK(P = 0.01)基因的表达水平与预测的反应相关。
肾癌:EGFR (P = 0.04)基因的表达与预测反应相关。
肺癌:CDC42 (P = 0.04)、EGFR(P = 3×10−5)和PRKAR2A (P = 0.01)基因的表达与预测反应相关。
膀胱癌和胰腺癌:未观察到显著的相关性。
根据多元线性回归得到的p值,发现EGFR基因与MOLI预测的反应之间存在大量强相关性。
总结:
1.与目前最先进的单组学和早期多组学整合方法相比,MOLI获得了更高的预测精度(AUC值)。
2.与特定药物输入相比,靶向药物的迁移学习提高了预测性能。
3.在生物学方面,MOLI预测的EGFR抑制剂对乳腺癌、肺癌、肾癌和前列腺癌患者的反应与EGFR通路中的某些基因具有统计学意义上的相关性。
4.经过体外数据训练的MOLI模型可以很好地转化为体内数据,可能对精确肿瘤学有实用价值。
研究局限
1.不同数据集的格式不同,需要大量的预处理和标准化。例如,不同的研究使用不同的方法测量基因组数据,无法做到完全统一。在药物反应方面,GDSC细胞系使用IC50作为响应度量,PDX数据集基于肿瘤体积来定义有反应者和无反应者。给药物反应预测任务增加了额外的难度。
2.本研究集中于单一药物治疗,没有探讨联合用药的效果。
3.本文使用的所有数据集都存在类分布不平衡现象。