基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测

基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测

论文题目:Drug-Drug Interaction Prediction Based on Knowledge Graph Embeddings and Convolutional-LSTM Network
论文来源:https://doi.org/10.1145/3307339.3342161
药理学物质之间的干扰会造成严重的医疗伤害。正确的预测Drug-Drug Interaction(DDI)可以减少这些医疗伤害,降低药物的开发成本。利用多种信息可以提高DDI预测的效率。在这个工作中,作者使用了DrugBank、PharmGKB和KEGG数据库的12,000个药物特征,并使用知识图谱(KGs)进行了整合。为了训练预测模型,首先使用各种嵌入方法将节点嵌入到图中。最后发现最好的组合是使用PyTorch-BigGraph (PBG)与复杂lstm网络和经典的基于机器学习的预测模型创建的复杂嵌入方法。
结果: 在5次交叉验证试验中,三种最佳分类器的模型平均集成方法在AUPR、F1-score和MCC上分别得到0.94、0.92、0.80的性能。
主要贡献:
1、建立了一个包含2,898,937个药物-药物相互作用对的数据集。
2、准备了一个大规模的DDIs整合KG,数据来自DrugBank, KEGG, OFFSIDES,和PharmGKB,有12亿个三元组。
3、用不同的设置评估了不同的KG嵌入技术来训练和评估ML模型。
4、最后得到将CNN和LSTM网络(称为convl -LSTM)结合起来用于预测DDIs,可以获得最高的准确性。
问题形式化:
DDIs的预测任务为一个链接预测问题,对于一个给定的DDI KG(Knowledge Graph)为G = (V,E), 其中的每个边e=(u,v) 属于集合E 表示药物u,v之间存在相互作用。药物总的数目定义为N, DDI矩阵为基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测
当当药物u,v之间存在相互作用时,矩阵中的y(u,v)为1,否则是0.
提取DDIs,构造KG
基于DrugBank、KEGG drug、PharmGKB的药物及药物靶点相关数据,构建整合了知识图谱。利用MEDLINE的 OFFSIDES, TWOSIDES, and scientific literature来寻找具有足够证据证明存在的DDI。
DrugBank:是一个生物信息学和化学信息学资源,它结合了详细的药物相关信息,包括化学、药理学和药学数据以及全面的药物靶标信息
PharmGKB:包含12,664种药物,包括2,588种已获批准的小分子药物、1,287种已获批准的生物科技药物、130种保健品和6,305多种实验药物。是一个基因学、分子和细胞表型数据库,它还包含了参与药物基因组学研究的人的临床信息和遗传变异对药物反应的影响。药物基因学知识库包含基因、疾病、药物和途径相关数据,以及470个影响药物代谢的遗传变异的详细信息。
KEGG:包含与代谢物和蛋白质/酶信息超链接的代谢途径。拥有10979条药品相关信息和501689条DDIs关系。
OFFSIDES:包含从基于PharmGKB不良事件报告中挖掘出的药物效应,报告438,802种药物副作用。
利用以上的资源,构建了一个DDI数据库和KG。
DDI提取
采用一种半监督的方法从上述来源中提取DDIs。从DrugBank提供的XML文件中解析了DDI信息,并编制了一个药物标识符组合的边缘列表,得到2,641,889个两两配对的DDIs和2,630,796个唯一的DDIs,涵盖12,112种药物。尽管KEGG药物数据库有10979种相关药物和501689种DDIs关系,但由于缺少映射,映射到药物库标识符(IDs)的结果只有58205种相互作用。
对于TWOSIDES的数据,通过将TWOSIDES id映射到DrugBank id,获得了351个化合物之间19,020个DDIs和645个药物之间63,473个不同的两两DDIs。
通过多种来源确定Dhami et al. [14]研究的在DrugBank数据哭中报告的少量DDIs相互作用不明显的药物对,删除了相互矛盾的药物对。添加了Zhang et al. [50]基于临床副作用的标签传播预测的145,068 DDIs,和Sridhar et al. [40] 使用PSL模型对DrugBank中未知的相互作用进行了排名前十的预测。整合了来自DDI语料库的227篇MEDLINE摘要的交互作用,包括1826种药理物质的327种DDIs。
最终获得的交互数目如下表:(该表来自于论文原文中)
基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测
KG构造
从各个门户收集了原始的药物库、KEGG药物、药物基因学知识库和药物残留数据,并使用Bio2RDF脚本的修改版本将它们转换为RDF。然后将每个RDF KG上传到一个名为graph的blazegraph RDF三元组。然后基于“十亿个三元组”基准执行联邦SPARQL查询,以提取所选三元组。在所选数据集中,与药物相关的实体有五种类型,即药物、基因、蛋白质、途径和酶,以及表现型(eg,疾病和副作用)。此外,还考虑了9种类型的生物关系:(药物、hasTarget、蛋白质),(药物、hasTarget、基因),(药物、has hasEnzyme、蛋白质),(药物、has hasEnzyme、基因),(药物、hasTransporter、蛋白质),(药物、hasTransporter、gene6),(蛋白质、isPresentIn、途径),(基因、isPresentIn、途径),和(途径、isPresentIn、途径)。
最终结果如下表: (该表来自论文原文中)
基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测KG嵌入
KG嵌入包括三个步骤:表示实体和关系、定义评分函数、学习实体和关系表示。利用了RDF2Vec[34], SimpleIE [25], TransE [6], KGloVe [11], CrossE [52], and PBG [27]对得到的KG进行嵌入。
网络构建
获得最后的结果的网络为结合CNN和 LSTM层的Conv-LSTM网络。当CNN使用卷积滤波器来捕获药物特征中的局部关系值时,LSTM网络可以从CNN提取的特征中获取整体关系。第一层是嵌入层,它将药物样本作为一个序列映射到一个真实的向量域。然后将形状为100x300的嵌入表示送入一维卷积层,该层有100个过滤器,内核大小为4。每个conv层的输出传递给dropout层,以使学习规范化,避免过度拟合。conv层将输入的特征空间卷积成100x100的表示法,然后通过沿着嵌入维数为4的池大小的1D max pooling layer (MPL)进一步向下采样,产生25x100的形状输出。其中,25个维度中的每一个都可以被视为一个提取的特征。MPL通过在每个时间步长维度上取最大值,从而使输出空间变平,从而生成一个包含药物特征的1x100向量,这些特征非常有意义。而LSTM层将平铺特征向量s维作为时间步长,每步输出100个隐藏单位。然后使用全局MPL,通过另一个dropout层,将最有影响力的特性输入一个全连接层,最后输入softmax层,生成类的概率分布。此外,我们在每个conv、LSTM和稠密层中引入Gaussian noise[49]来改进模型的泛化。
主要框架如下图: (图来自论文原文)
基于知识图谱嵌入和卷积-LSTM网络的药物-药物相互作用预测
网络训练:
超参数的优化是基于随机搜索和crossvalidation模型训练在一个批处理大小为128,每个5分70%的数据用于训练,30%评价网络,10%从训练集随机用于验证。
实验:
训练了LR、KNN、NB、SVM、RF、GBT作为ML基线模型。与conv-LSTM网络相似,通过随机搜索和5倍交叉验证测试对这些分类器进行超参数优化。在实验中,80%的数据用于5倍交叉验证的训练,并对20%的持有数据进行优化模型评估,其中通过随机搜索得到最优超参数。虽然在以往的研究中,AUC评分常被用作绩效指标,但文献强调,对于不平衡的数据,AUC评分可能不够准确[8,24]。因此,使用精确回忆曲线下的面积(AUPR)、Matthias相关系数(MCC)以及AUC和F1-score来衡量分类器的性能。最后,使用前三个模型的平均集成(MAE)来报告最终的预测。
DDIs的预测分析
一般的观察结果是conv-LSTM模型优于所有基线模型,在最佳情况下,AUPR为0.93。
作者还探索了嵌入方法,药物样本数量,负样本的影响,比较了先进的方法。
对于嵌入方法的影响,文中利用了不同的嵌入方法进行处理得到结果,虽然不同的嵌入方法会对结果产生一定的影响,但总体基于conv-LSTM模型都是比较好的,AUPR为0.82到0.93之间。
对于训练样本大小的影响,实验结果证明,随着训练集的增加,SVM并没有从更多的训练样本中获益。然而,RF和GBT是基于树的集成方法,而conv-LSTM网络可以从药物特征中学习更复杂的概念。
总之这个论文构建了一个药物关联的数据集,利用知识图谱和conv-LSTM模型得到了比较好的预测效果。
文章具体的实现方法可见: https://github.com/rezacsedu/DDI-prediction-KG-embeddings-Conv-LSTM