每周一起读 | 知识图谱阅读小组

每周一起读 | 知识图谱阅读小组


阅读小组第三期,我们一起精读的文章是知识图谱方向的Graph-Based Wrong IsA Relation Detection in a Large-Scale Lexical Taxonomy


我们从本期的活动数据中节选了部分读书笔记和优质讨论,让知识得以沉淀并实现共享。


从本周起,PaperWeekly 的知识图谱小组将开始发起每周一起读活动,我们将每周选定一篇优质文章,利用在线协同工具进行精读并发起讨论。如果你也希望和我们一起培养良好的阅读习惯,在积极活跃的讨论氛围中增长姿势,就请留意下方的招募信息吧:)


阅读小组第三期笔记精选


>>>gaohuan_seu<<<


建议大家看之前先了解一下 probase,probase 是按照 pattern 抽取的,由于文档可能有错误,或者是一些描述性错误会导致 probase 抽取的 isa 关系有环。另外作者给出了有环还是正确的例子,word isa software software isa word,这里的 word 是表达了两个意思,第一个 isa 关系是表示微软的 word 工具,第二个是 word 表示词的意思,这种就属于有环还正确的例子。


利用环检测数据的冲突或者不一致也是一个比较好的思路,因为在 probase 下只有 is-a 关系,由于缺乏表达能力更强的公理使用传统的 reasoning 的方法在这个场景下是行不通的,不过数据中肯定也会存在其他的噪声既不形成环的数据噪声,如何检测是个值得研究的问题。


总体来看算法的思路还是利用启发式规则和贪心算法结合来近似处理一个 NP-Hard 问题,我觉得这对不少从图的角度处理问题都可以借鉴,因为很多图的问题都是 NP-hard,所以找到近似方法也是一个比较重要的研究点,当然也可以考虑 nn 的方法。


>>>huangchao<<<


文中在计算一个算法的 relative recall 的时候,通过该算法检测到的 wrong isA 关系个数占检测到最多的 wrong isA 关系个数的比例,我觉得有一点儿不合理,应该是占所有算法检测到的 wrong isA 关系的并集的比例,虽然相对性不受影响。


>>>eastdog<<<


Precision 的计算方法感觉有点儿问题。每种方法取 300 个算法判断为错误的例子然后标注,然后计算 precision,是不是会导致显著性测试出现问题?而且没办法确定这 300 个不同采样带来的影响。能不能一次采样比如 1000 个(这 1000 个可以是几种不同方法判断是 wrong 的样例),然后在相同样本集上看不同方法判断 wrong 的正确性?


阅读小组第三期优质Q & A


wangxiaoming :本文提出了 DAG Decomposition based Model 和 Level Assignment based Model 两个模型,这两个模型的前提假设都是存在环的 isA 关系错误率更高,不知道我的理解对吗?还有在实际应用中这两个模型是怎样结合使用的?


huangchao存在环的 isA 关系错误率更高是什么意思?我的理解是,本文基于一个发现,也就是大部分错误的 isA 关系都会导致一个环的产生,因此文中采用这两种模型,检测出图中的环,然后逐步去除掉一些置信度比较低的环,比如从比较具体的实体或者概念到抽象的概念之间的边。


qilezhu:我觉得应该是在环中的错误率比较高,试验中也看出来,其实 recall 并不高。


chunhualiu:我觉得应该是说在 IsA 关系上面,环会导致 IsA 关系的错误,而不是 IsA 导致环的产生吧?


wangxiaoming:我是这样理解的错误的 isA 关系产生环的概率高,所以消除一些置信度低的环。


huangchao:文中是枚举了所有长度为 2 和为 3 的环,然后采样人工观测发现大部分(96%-97%)的环里面都存在错误的 isA 关系。也就意味着不是所有的环都存在错误的 isA 关系,比如 Figure2 中最左边的图,这种是由于歧义造成的。我的看法是,错误的 isA 关系,一般都是指向错误,即从抽象概念指向具体概念或实体,可能会导致环的产生。但起始错误的 isA 关系也可能不存在一个环里面,本文的方法就没办法检测了。我上面的表述说错误的 isA 关系会导致环的产生确实是不一定的,只能说是很大可能会导致环的产生。实验中计算的召回率是一个相对的 recall,因为无法得出知识库中所有错误的 isA 关系。所以 recall 比较低也只是相对而言的,不具有绝对意义吧?


hanqichen:有环只是错误的一种表现,应该有更多的错误不会导致环的产生吧?


huangchao:我觉得是不是有更多的错误 isA 关系不会导致环的产生是不确定的,因为无法知道有环而且存在错误 isA 关系的个数占知识库中所有错误 isA 关系的比例。但是我觉得怎么检测不存在于环中的错误 isA 关系也是一个有意思的问题。


wutong_SEU:这种检测环的思路是不是也可以应用于其他关系的清洗。


Chunhualiu:有没有 X isA Y 并且 Y isA X,并且都正确的例子呢?我没有想出来。


huangchao:有啊,Figure2 中最左边的例子就是这样,但是是由于词的歧义造成的。比如word(作为“字处理软件”的含义)是一个 software,software 是一个 word(作为“词”的含义)。


gaohuan_seu:另外作者给出了有环还是正确的例子,word isa software software isa word,这里的 word 是表达了两个意思,第一个 isa 关系是表示微软的 word 工具,第二个是 word 表示词的意思,这种就属于有环还正确的例子。


hanqichen:大家认为利用 MFAS 方法和 Agony 方法找到的错误的边会有多大的重合度?


huangchao这个根据 Table4 大概可以看出来,算了一下,采用 MFAS 找到真正错误的 isA 关系平均有 60K,采用 Agony 找到的平均有 69.1K,重合度还比较高吧。


来源:paperweekly


原文链接