将外部知识整合到群体智能中，以获得更具体的知识

Incorporating External Knowledge into Crowd Intelligence for More Specific Knowledge Acquisition

关键知识：众包、加权投票、WordNet

引自：Han T , Sun H , Song Y , et al. Incorporating External Knowledge into Crowd Intelligence for More Specific Knowledge Acquisition[C]// IJCAI2016. AAAI Press, 2016.

摘要：

众包已经成为一种有效的机制，可以利用人类智能为明确的任务获取有用的知识。然而，当基于当前开发的投票算法对群体知识进行聚合时，通常会无法推理出符合预期的统一知识。在本文中，我们考虑通过众包收集尽可能具体的知识的问题。借助WordNet等外部知识库，将备选答案之间的语义关系纳入概率模型，以确定哪个答案更具体。在考虑工人能力和任务难度的基础上，建立了概率模型，并用期望最大化算法求解。实验结果表明，当期望得到更具体的答案时，我们的方法比多数投票法提高了35.88%。

1. Introduction

众包已经成功地用于利用人类智能来执行计算机目前无法完成的任务。它已应用于许多应用，如命名实体分辨率、图像注释、音频识别、视频注释等。然而，当众包技术应用于知识获取时，如信息提取和图像标注，就会产生一个需要获取何种知识的问题。据我们所知，大多数众包结果的聚集算法都基于多数投票或其变体。在投票方法中，最终的聚合答案通常用基本级概念的常识知识表示。对于对象识别，机器可以用基本级概念识别对象，这与人类更为一致。然而，对于知识获取，更具体的概念往往是首选。一方面，更具体的知识意味着对一个实例或一个问题有更多具体的注解或答案。另一方面，当我们有足够的分类学知识库时，我们可以很容易地将特定的概念映射到更普遍的概念中。然而，在计算机在运行中却很难将一般概念实例化为更具体的概念。例如，如果我们想要注释蜂鸟的图片，大多数工作人员将其标记为鸟，投票算法将其注释为鸟，那么就没有机会获得蜂鸟的知识，因为已经做出了决定。

在本文中，我们主要关注如何从众包结果中生成更具体的知识。这个问题有两大挑战。首先，与普通知识相比，更具体的答案往往被贴上更少的工人标签。因此，不太可能直接从投票结果中获得此类信息。尽管如此，如果我们有一些外部知识表明某些概念是更高层次概念的子接受，那么我们可以得出一个模型，将这些知识纳入投票中，以重新加权更具体的概念。一些知识库对这种概念接受关系有广泛的覆盖，而我们在这里使用WordNet作为外部知识。

其次，由于人的行为包含策略、错误和恶意，如何从这些不可靠的多重答案中总结出可信的答案是众包中的一个重要问题。不同的工人可能有不同的回答能力，而不同的任务可能对不同的工人有不同的难度。因此，研究表明，将员工能力和任务难度纳入众包决策可以显著提高结果。对于更具体的知识，工作人员的能力和任务难度是更为关键的问题，因为众包平台通常不针对任何特定领域开发，平台上的工作人员可能不是领域专家。因此，在决策模型中考虑这两个因素更为重要。例如，在我们的案例中，我们需要考虑这些因素如何与外部知识交互。

考虑到上述挑战和考虑，我们提出了一种概率模型，称为具有外部知识的简单性能力估计模型（SEEK），其中我们将任务难度、工作能力和外部知识方面最具体的可信标签的条件概率分解为因子。在这里，我们使用“任务简单性”而不是“困难性”来使这个因素与工人的能力相一致。然后采用期望最大化算法对模型进行求解。在获取二元关系以构建概念分类法方面，已有一些重大研究，并使用分类法根据多标签分类法对项目进行分类。与在分类法中提出任何二进制问题并智能地选择由控制算法提出哪些问题的方法相比，我们的方法要求工作人员输入一个标签，并决定在所有标签中哪一个更具体。

本文的贡献总结如下：

提出了一个众包问题，目标是从工人那里获得更具体的知识。
提出了一种决策算法，可以评估任务的简单性、用户能力，并结合外部知识来解决问题。
进行了一系列实验，以证明与最先进的方法相比，表明工作的有效性和优势。

2. Problem Formulation

在本节中，我们将介绍我们通过众包获取知识的问题。

2.1 Definition of KAC

我们一般将我们的问题称为利用众包的知识获取（Knowledge Acquisition with Crowdsourcing，KAC）问题。

例如，如果有100个任务、10个工作人员和4个候选标签供工作人员选择，那么聚合算法将确定一个以10010标签矩阵为输入，以100维标签向量为输出的函数。标签向量的每个元素都是4个候选标签之一中对应任务的最终答案。。

2.2 Definition of HKAC

当员工的替代答案之间存在概念上的次接受关系时，我们称之为“众包分层知识获取”（Hierarchical Knowledge Acquisition with Crowdsourcing，HKAC）。在这种情况下，标签具有如图1所示的层次树形结构。如果标签是另一个标签的父节点，这意味着第一个标签的概念比第二个标签的概念更通用。相反，如果标签是另一个标签的子节点之一，这意味着第一个标签的概念比第二个标签的概念更具体。HKAC问题是选择一个尽可能具体的标签，即使工人提供的标签比相对具体的标签更常见。由于投票不能帮助我们选择更具体的标签，我们建议使用外部知识库，即WordNet，来识别替代标签之间的语义关系。

2.3 Workflow

为了整合层次知识，我们提出了如图2所示的众包工作流程。

与一般的众包工作流程不同，我们整合了外部知识，以克服标签与共同知识的融合。本工作流程的步骤如下所示。

步骤1：请求者将任务发布到众包平台，例如Crowdflower。
步骤2：平台根据其调度策略和用户指定的约束将任务分配给工人。
步骤3：对于每个接收到的任务，工作人员提供一个标签，她/他认为最好描述对象或回答相应任务中的问题。
步骤4：从工人那里收集所有标签之后，我们使用外部知识库运行模型，以推断每个任务的聚合结果。最后，所有的聚合结果都返回给请求者。

3. SEEK Model

在本节中，我们首先展示了从外部知识库wordnet派生的关系函数。然后，我们提出了一个简单的修改过的多数投票算法，以纳入外部知识。我们进一步引入概率模型，使外部知识与任务难度和工人能力相互作用。最后，我们完成了搜索模型，并用EM算法给出了解决方案。

3.1 External Knowledge

我们使用出一个关系函数覆盖基于外部知识的标签域，以此来描述标签的语义关系：

其中，Dist是WordNet图上两个节点之间的标准化距离。它被计算为**从较浅的节点到根的路径长度上两个节点到它们的共同祖先的最短路径的长度**。

3.2 Majority Voting with External Knowledge

在最初的多数投票中，我们根据标签的频率对其进行评估。

其中，i是一个指标函数。在加权多数投票中，我们称之为能力加权多数投票（MWW）算法，我们用工人i的能力ai （我们可以简单地使用聚合标签置信度）来计算工作能力对每个标签进行加权。

在给定关系函数的情况下，我们可以得到一个简单的基于外部知识的多数投票算法，如算法1所示。给定标签集L和关系矩阵R，它推断出每个任务的答案。

3.3 Probabilistic Modeling

MWK以简单的方式考虑外部知识和工人能力。现在，我们引入了一个更通用、更精细的模型，将工作能力和任务简单性结合起来。从概率论的观点来看，我们把 R(xk,xl) 看作是标签 lij=xk 概率的非负单调递增函数，给定聚合标签，即

其中g(·)是单调函数。

3.4 Inference

根据之前的讨论，我们正式引入了图3所示的Seek模型。我们将作为标签域j中的观察标签，未观察到的变量是“完美”标签、能力参数、简单参数、优势和的条件概率变量。

为了简单起见，我们忽略了a和s的先验，并使用EM算法获得和参数的最大似然估计，EM算法总结在算法2中。

4. Evaluation

在本节中，我们报告了提出的SEEK模型在正确性和有效性方面的评估结果。

4.1 Data Preparation

我们使用了LEVAN (learn everything about anything)项目中使用的图像，该项目提供了不同概念颗粒度的多种图像类别。我们使用的概念选自以下一组靠前的概念{bird, dog, cat, crow, horse, sheep}。我们用不同的概念对图像进行了爬取，并过滤掉无效URL的图像，最终得到631张清晰的实验图像。

我们遵循基于Crowdflower的工作流程，通过雇佣平台中工人的*别的3级工人来确保标签的质量。我们给了工人一个简短的指示，让他们尽可能地提供具体的标签。对于每项任务，都要求工人在文本框中填写他们为图像提供的标签。

最初，我们计划在Crowdflower上用WordNet中的相应概念呈现候选标签集。然而，Crowdflower不支持从WordNet动态提取概念，我们必须要求工人在文本框中输入标签。因此，在检索到这631个任务及其6310个标签（其中每个任务有10个标签）并手动更正拼写错误后，我们使用WordNet检查了这些标签，并保留了WordNet中可以找到的标签。

对于评估而言，“Groundtruth”不是Levan提供的正确类别，而是包含每个图像最具体知识的最佳类别。而且，对最特别的类别的原始LEVAN的注释还不够好。因此，我们手动地从任务的标签域中修正了标签的Groundtruth。每项任务都由我们实验室的两名同事贴上标签，只有他们双方同意的标签被保留为基本事实。然后还有344个任务，其中有142个任务的标签域只包含一个标签，这意味着不需要聚合。因此，我们进一步筛选了344个任务中的142个任务，最终有202个任务需要评估。在我们的标签过程中，我们发现确定“Groundtruth”的挑战在于难以区分概念上非常相似的标签。例如，ecrow and raven,eagle and hawk等冲突案例。
在选定的202个任务中，有1789个标签由154名工人标注，唯一标签的数量为92个，这与其他众包标记任务相比相当大。这些标签的部分分布如图4所示。我们按照原始工人标签的频率的降序对唯一标签进行分类，图中显示为“Total”。我们还将在同一个图中显示由我们固定的“Groundtruth”标签。通过对标签分布的比较，我们可以看出，在原工人的标签结果中，高频标签是最平常的知识。相反，“Groundtruth”集合中的标签是更具体的标签。

【注：即工人所标记的大多为一般性知识标签；而groundtruth标记的大多是更具体的知识标签】

4.2 Comparison Results

我们实施了六种比较算法：我们的SEEK算法、多数投票（MV）、能力权重多数投票（MWW）、外部知识多数投票（MWK）、Zhou的极大极小熵法和基于DAWID和SKENE方法（DS）。在这些算法中，SEEK和MWK结合了外部知识。MWK以一种本地的方式使用知识，同时SEEK通过“学习”ai和sj的参数。

所有算法的精度如表1所示。由于在我们的整体问题中，我们有一组更大的独特标签，因此问题比之前工作中评估过的问题更为困难。从表1可以看出，Zhou和DS的精度与MV和MWW的精度相当，因为它们本质上是同一类算法它们之间的区别在于如何结合工人的能力和任务的简单性。然而，对于我们的问题，如何评价这些参数的差异并不会对最终结果产生太大的影响。由于他们不考虑标签的特殊性，当模型过于复杂时，单纯地估计工人的能力和任务的简单性甚至可能损害结果。MWW还考虑了通过工人“能力”来增强大多数标签影响的权重。由于数据的稀缺性，因此，MWW估计能力的方式根本不影响结果，而MWW和MV结果的准确性完全相同。最后我们可以看到，Seek的精度为61.88%，与多数投票相比提高了35.88%。有趣的是，MWK也明显优于多数投票。这意味着对于我们的问题，整合外部知识可能比整合工人能力和任务简单性更有用。尽管如此，评估工人能力和任务简单性的方法以及与知识的交互方式也有帮助，这导致寻求优于MWK。

我们最后在图5和图6中报告了结果标签分布。在图5中，我们分别比较不同算法的分布，其中水平轴表示图4中所示的相同标签。由于空间限制，我们只显示标签的ID，而不显示标签本身。我们可以看到MV/MWW、Zhou和DS的分布主要集中在高频标签上，这表明它们倾向于在所有数据中选择通用标签。对于SEEK和MWK，它们的尾分布比MV/MWW长。然而，由于数据的稀缺性，对标签总分布的估计似乎还不够完善。我们也在图6中显示了更详细的部分分布，在这里我们只比较MV、MWW和“Groundtruth”标签。我们可以看到，对于像“鹰”、“蓝鸟”和“海鸥”这样的低频标签，SEEK的结果更接近于“基本事实”。

5. Comparison Results

本文提出了一个基于众包的知识获取新问题，并提出了一种新的概率模型，可以利用外部知识库中的知识，如wordnet。在概率模型中，我们自动学习工人的能力和任务的简单性来定制算法以适应数据。研究结果表明，利用外部知识可以大大提高员工的投票能力，学习员工的能力和任务简单性也有助于提高员工的绩效，而不是对员工能力进行简单的加权。因此，我们可以得出结论，对于使用众包获取更具体的知识的问题，外部知识和众包具体参数（如工人能力和任务简单性）都很重要。

还有一个问题是，当我们设计众包任务时，工人们看不到外部知识库。我们假设，如果我们能够向工人展示知识库，或者工人能够与知识库交互，最终的结果可能会比当前的结果更好。另一个问题是，多数投票仍然受到数据稀缺的困扰。在我们的问题中，与以前的众包任务相比，我们有许多独特的标签，并且每项任务可能比传统的众包问题更困难（如果我们将共同概念与更具体的概念进行比较）。因此，每项任务可能需要更多的工人来投票以获得良好的结果。因此，如果我们允许更多的工人在同一个任务上贴上标签，多数人的投票结果也会得到改善。然而，在这种情况下，众包成本也会增加。以前的众包被证明对更简单的任务更有用。通过将众包和传统知识库结合起来，这项工作可以被视为第一次尝试解决更困难问题的尝试之一。