基于大规模结构相似和文本相似的知识图挖掘方法预测药物相互作用

基于大规模结构相似和文本相似的知识图挖掘方法预测药物相互作用
(Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions)
论文来源:[link](http://dx.doi.org/10.1016/j.websem.2017.06.002)
输入: 各类药物相关的数据资源作为输入
输出: drug-drug interaction(DDI)预测作为输出
计算的过程从输入数据的语义集成开始,结果是一个描述药物属性和与各种相关实体(如酶、化学结构和通路)关系的知识图。利用知识图谱来计算可扩展和分布式框架中所有药物之间的几个相似性度量。
特别的,利用了知识图中的两类特性:局部特性和全局特性。局部特征来自于与每种药物直接相关的信息,而全局特征是通过最小化考虑知识图完整结构的全局损失函数来学习的。由此产生的相似性度量被用来为一个大规模的逻辑回归模型建立特征来预测潜在的DDIs。
以往研究的不足:
1、无法预测新开发的药物。
2、忽略相互作用的药物对的偏态分布。
3、丢弃了许多相关的数据源和相似性度量是不完全的。
4、使用不适当的评估指标。
文中数据来源:
对一组全面的结构化和非结构化数据源进行了语义集成。我们利用来自多个关联数据源的信息,如DrugBank、UMLS、DailyMed、Uniprot和CTD 来构建知识图。这个综合知识图描述了药物属性以及与各种相关实体如酶、化学结构和途径的关系。
更广泛的相似性度量:
利用集成的知识图来计算所有药物之间的几个相似性度量。我们根据药物的各种特性,包括代谢和信号通路、药物作用机制和生理效应,开发新的药物相似性度量。通过从基于文本和图表的数据集中学习药物的低维嵌入,我们还定义了一类新的全局药物特性。
处理数据倾斜和不完整:
建立了一个大规模的分布式线性回归学习模型(在Apache Spark中)来预测DDIs的存在。该模型有效地处理了数据的不完全性和数据的偏态分布;
将预测扩展到新开发的药物:
这个框架能够在没有任何已知相互作用药物的情况下处理药物。
综合评估:
从精确度,召回率,F-score和AUPR进行了评估。实现DDI预测,平均FScore为0.74(基线为0.65),PR曲线下面积为0.82(基线为0.78)。

基于大规模结构相似和文本相似的知识图挖掘方法预测药物相互作用
图片来自:Large-scale structural and textual similarity-based mining of knowledge graph to predict drug–drug interactions,为文章工作的主要框架流程。
数据整合:
数据库:将来自各种web源的数据集成在一起,我们形成了自己的知识图。这些资源有不同的格式,包括XML、关系、图和CSV格式。如图2部分所示,我们的数据来源多种多样:(i) DrugBank:提供已知药物和疾病的数据。(ii) DailyMed:提供关于在美国销售的药物的高质量信息。(iii)Comparative Toxicogenomics Database提供有关基因相互作用的信息。(iv) Uniprot提供了关于基因功能和结构的详细信息。(v)BioGRID database:收集遗传和蛋白质相互作用的。(六)Unified Medical Language System:是最大的生物医学词汇库,包括NCBI分类法、基因本体论(GO)。(vii)Medical Subject Headings(MeSH)和(viii)National Drug File — Reference Terminology(NDF-RT)以多类别参考模型(如细胞或分子相互作用和治疗类别)对药物进行分类。
知识图谱的构建:
构建的知识图拥有一个清晰的概念,即实体是什么,以及每个实例存在什么关系,以便捕获数据的互联性。这些可能是与其他实体的关系,或者是实体属性与数据值的关系。例如,在摄入和管理的数据中,有一个药物表,列有名称、目标、对症治疗。知识图有一个标识符现实世界药物Methotrexate和捕捉它的属性,如分子结构或机制的行动,以及关系到其他实体包括基因对应的Methotrexate目标(例如,DHFR),随后,条件等,因为它对骨肉瘤(骨癌)可通过其靶基因。然后以RDF格式对集成图进行编码和存储,并将其作为Apache Spark的输入进行相似度计算和模型构建。构建一个丰富的知识图是构建预测模型的必要步骤。

基于大规模结构相似和文本相似的知识图挖掘方法预测药物相互作用
图片来自论文:知识图谱构建示例
特征工程:
描述用于比较药物的药物相似性度量,以及如何从药物中生成各种机器学习特性。为了衡量两种药物之间的相似性,根据它们产生的方式将它们分为两类;基于局部和全局相似性的特性。局部特征是基于可获得的药物信息而设计的一组特征。这些特征考虑了每种药物的直接相关信息;如化学结构、副作用和药物靶标。另一方面,通过在低维向量空间中嵌入药物来获得全局特征。通过学习每一种药物的向量表示,使得两种药物之间的相似度被定义为对应的向量之间的余弦相似度。为了构造这些向量表示,最小化了一个考虑数据集中所有事实(包括图的结构属性)的全局损失函数。
局部特征:通过不同数据来源,计算药物之间的相似性。
全局特征:利用了单词嵌入word2vec的方法(基于Skip-gram),得到一对药物的嵌入向量,利用余弦相似性计算药物之间的相似性。利用TransH and HolE基于知识图谱,进行图的嵌入计算。