生物信息学之抗癌药物反应论文阅读二:HNMDRP

论文地址A novel heterogeneous network-based method for drug response prediction in cancer cell lines

HNMDRP:一种新颖的基于异构网络的癌症细胞系药物反应预测方法

作者信息

[1]中国科学技术大学信息科学与技术学院

[2]中国科学技术大学生物医学工程学院

研究背景

       个性化医疗面临的持久挑战在于为每位患者选择合适的药物。

       基因组信息被广泛应用在细胞系与药物关联的研究中。目前,许多研究开始关注细胞系基因组改变、细胞系 - 药物敏感性和药物化学结构之间的异质关系。而有助于提高其预测性能的药物-靶标互相作用的信息还未整合到异构网络中。

        该文提出了一种新颖的基于异构网络的方法,命名为HNMDRP通过整合细胞系、药物和靶标之间的异质关系(heterogeneity relationship),准确的预测细胞系-药物关联。

研究方法

首先,构建了5个子网络:

1)基于细胞系基因表达谱计算Pcc值获得的细胞系相似性网络

2)基于药物化学结构计算Pcc值获得的药物相似性网络

3)合并PPI信息和基于基因表达谱得到的相关系数获得的靶标相似性网络

4)通过对数归一化IC50值获得的细胞系 - 药物关联网络

5)通过已知的复合分子活性获得的药物 - 靶标相互作用网络

       然后在上述子网的基础上构建一个全面的异构网络。

小tip:

PccPearson Correlation Coefficient)为皮尔森相关系数,用来反映两个变量线性相关程度的统计量。它被定义为:

生物信息学之抗癌药物反应论文阅读二:HNMDRP

其中X和Y是节点特征的列向量

 

文中涉及的数据集总结:

数据集:GDSC (Genomics of Drug Sensitivity in Cancer)

      该数据集由1001个癌细胞系和265个测试药物组成。这项工作使用了189既具有化学结构特征又具有药物反应数据的药物和962经过数据预处理后具有基因组特征和药物反应的细胞系。根据GDSC数据集提取189种药物243种靶基因之间的相互作用。

数据集: STRING

      为了将PPI纳入靶标相似性网络,从STRING数据库中总共获得4850628PPIs数据,并提取与靶标基因相关的3040个可用基因之间的396419PPI的相互作用信息。

数据集:PubChem(有机小分子生物活性数据

     用来获得药物的化学结构。

数据集:KEGGKyoto Encyclopedia of Genes and Genomes

     是一个整合了基因组、化学和系统功能信息的数据库。

整体架构的组成成分:

细胞系相似性网络

       根据GDSC的基因组数据得到具有16383维基因表达谱的962个细胞系。每个细胞系对的Pcc值是根据它们的基因表达谱来计算的。然后,使用矩阵SIMcc来表示由所有细胞系对的Pcc值产生的细胞系 - 细胞系相似性网络。

细胞系 - 药物关联网络

       将来自GDSC数据库的对数标准化IC50值作为初始的细胞系 - 药物关联。使用Iorio, et al.提供的阈值将这些连续的IC50值分为两类:敏感或耐药。每种药物的阈值是不同的,将高于该阈值的IC50值定义为耐药,其余定义为敏感。最后,得到962个细胞系和189种药物中的总体关联,包括17316个敏感性,129815个耐药性和34687个未知关联。使用矩阵Acd来表示962个细胞系与189种药物之间的关联网络用以进一步分析。

药物相似性网络

       从PubChem下载189种药物的化学结构,它们均具有化学结构特征。然后,使用PaDEL软件以默认设置提取药物的一维和二维结构特性。

       1-D特征包括组合分子性质,如原子数、键数和分子量。

       2-D特征包括分子拓扑结构的各种定量性质,例如Kappa形状指数、RandicWiener指数。

       根据这些特征计算每对药物对的Pcc值。使用矩阵SIMdd来表示由所有药物对的Pcc值产生的药物相似性网络。

药物 - 靶标相互作用网络

       首先,提取了在KEGG药物数据库中这189种药物和243种靶基因之间的药物 - 靶标相互作用数据。然后,根据STRING数据库提取3040个与靶基因相关的可用基因。最后,产生相应的矩阵Adt表示189种药物和3040种基因中的药物靶向相互作用网络。

靶标相似性网络

       构建靶标 - 靶标相似性网络,要生成两个不同的基因 - 基因关系矩阵WppiWcorr

       首先,使用0.4的置信区间值 ,根据STRING数据库提取可用基因之间的396419PPIs。这些PPIs的置信度分数被转换为矩阵Wppiii)。它被标准化如下:

生物信息学之抗癌药物反应论文阅读二:HNMDRP

       其中Dppiii)是Wppiii)中第i行的总和,          表示可用基因中PPIs的权重的归一化矩阵。

       然后基于GDSC数据库提取那些可用基因的基因表达谱。基于基因表达谱计算Pcc值。使用矩阵Wcorr来表示由可用基因中的Pcc值产生的相关关系的权重。

      最后,处理这两种加权矩阵(WcorrWppi)如下:

生物信息学之抗癌药物反应论文阅读二:HNMDRP

      随后,在该网络上执行基于信息流的算法,并获得所有细胞系-药物对的得分,其中得分代表对药物反应的预测。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

      其中矩阵Acd0Adt0代表细胞系 - 药物关联和药物 - 靶标相互作用的初值,SIMccSIMddSIMtt分别是细胞系、药物和靶标之间的相似性网络,α是衰减因子,范围从01

      当Acd k+1Acdk之间满足阈值为1e-4的总和误差时,矩阵Acdk+1即为最终的得分矩阵。由于不同的数据资源被整合在一起,需要对矩阵进行适当的归一化以确保算法能够收敛。 定义如下:

生物信息学之抗癌药物反应论文阅读二:HNMDRP

      其中Wvivj)是矩阵 (SIMdd×Adtk×SIMtt×Adtk T) (Adtk T×SIMcc× Acdk × SIMdd )Normvivj)是归一化矩阵。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

A)收集细胞系和药物之间已知的敏感或抗性关联。

B)整合细胞系基因表达谱、药物化学结构、药物靶标和PPIs异质信息。

C)网络模型的原理图。获得每个子网络以构建全面的异构网络。

D)在异构网络上执行基于信息流的算法

实验结果

与现有方法的比较

     该文实施了leave-one-out交叉验证(LOOCV)将其与现有方法进行比较。综合结果显示HNMDRP达到了大多数药物的最佳AUC值。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

生物信息学之抗癌药物反应论文阅读二:HNMDRP

细胞系类型的组织特异性

       不同组织类型中药物反应可能有很大差异。作者测试了在考虑不同的细胞系组织类型时,HNMDRP是否能够取得良好的效果。基于GDSC数据集得到了癌细胞系的19种组织类型和这些类型的分布。

       研究发现,主要的组织类型是白血病(急性髓细胞性白血病和慢性淋巴细胞性白血病)、泌尿生殖系统(膀胱癌)、NSCLC(非小细胞肺癌)。他们在所有962个癌细胞系中分别占8.3%(80),10.4%(100),11.3%(109)。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

A)各种组织类型的分布,包括肺癌,白血病,乳腺癌,肾癌等。

     在以上三种类型的组织中预测药物反应的性能。条形图表示三种组织类型的ROC曲线下面区域的面积。HNMDRP, Zhang’s method, Stanfield’s method, DLNDRP and SVMDRP对白血病,泌尿生殖系统和肺NSCLC的平均AUC值分别为0.6787,0.5053,0.5534,0.52650.5324


     这些结果表明了HNMDRP方法可以在不同组织类型上获得较好的性能。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

B)三种主要组织类型(白血病,肺NSCLC,泌  尿生殖系统)的AUC值。

删除不同信息时的预测性能

      结果显示每一种信息对于药物反应预测结果都很重要。其中蛋白质和蛋白质间的内在联系、基因和基因的相互作用信息更为重要。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

RDSI - 仅去除药物结构信息    RPPI - 仅去除PPIs信息   RGCI - 仅去除基因 - 基因相关信息    RTI - 仅去除靶向信息

实例研究

      据了解,假阳性的预测结果通常在生物信息学研究中是存疑的。因此需要验证五种方法检索真阳性(敏感度)关联的能力

      除了ROC曲线外,作者还根据不同百分位数比较了正确检索的细胞系 - 药物敏感关联的数量。

      以药物GSK2126458为例。这种药物包含94个阳性(敏感)关联和808个阴性(耐药性)关联,对于每个百分点p%(1%,2%,5%,10%和100%),根据预测结果计算962个细胞系中检索到的真阳性数目。

      HNMDRP方法在1%和2%的百分比下几乎没有真阳性预测,但在更高的百分位数上有更多的预测。 

生物信息学之抗癌药物反应论文阅读二:HNMDRP

        预测结果通常需要实验验证,但在实际实施中存在较多困难。所以,根据细胞系 - 药物对的预测得分找出新的敏感性关联。

        为了进一步检验HNMDRP方法预测潜在细胞系 - 药物关联的能力,作者搜索了在GDSC数据集中未知关联的所有细胞系 - 药物对的前20个的预测结果。发现有文献证据支持这些细胞系 - 药物对是新的潜在敏感性关联。

生物信息学之抗癌药物反应论文阅读二:HNMDRP

       例如,细胞系MHH-CALL-2的细胞类型是B细胞白血病,Lucas et al.提供了文献证据,表明预测结果中排名第4的药物MS-275是该癌细胞系有希望的治疗方案。Gobin, et al.表明药物NVP-BEZ235是细胞系CHSA0011的潜在的治疗策略。表中显示的其余新颖敏感性预测结果和文献证据表明,HNMDRP方法能够准确揭示癌细胞系与药物之间的新型敏感性关联,这为未来的实验验证提供了基础。

总结

主要贡献

1)整合了细胞系基因表达谱、药物化学结构特征、药物 - 靶标相互作用和PPIs信息。

2)证明了药物靶标的相互作用和PPIs有助于提升药物反应的预测性能。方法的有效性不仅因为其有效的预测了已知的细胞系 - 药物关联,而且预测了具有可靠文献证据的未知细胞系 - 药物关联。

3)使用了细胞系、药物、靶标之间的相关性。因此,细胞系基因表达谱和药物化学结构特征的巨大维度并未严重影响预测结果。

4)由于人们只关心特定的癌细胞系对治疗药物是敏感还是耐药,而不是确切的应答值。在这项工作中,作者没有研究在以前的工作中常做的确切的反应值,而是研究药物反应的二元分类问题(敏感或抗药性)。从结果中发现对于大多数药物,HNMDRP方法可以获得最好的AUC值。综合结果显示,HNMDRP在预测药物反应方面的性能比现有的最先进的方法略好。

不足之处

1)细胞系相似性网络的构建仅依赖于细胞系的全基因组基因表达谱数据,而不是整合细胞系的体细胞突变和拷贝数变异,这可能会影响基于异构网络方法的预测性能。

2)药物相似性网络的构建依赖于药物的1-D2-D结构特性,这些特性可能具有足够的特征来代表药物,但不能整合可能对某些药物起关键作用的3-D结构特征。

3)靶标相似性网络的构建仅依赖于相关关系和PPIs。以前的工作表明,靶标序列信息对药物反应同样具有预测性。