Merging Weak and Active Supervision for Semantic Parsing论文笔记

AAAI 2020

论文地址 https://arxiv.org/pdf/1911.12986.pdf
源码地址 https://github.com/niansong1996/wassp (现在为空,待作者更新)

要点:整体弱监督 + 少量数据标注(主动学习active learning)

符号含义:
MR:meaning representation

Motivation

强监督:需要大量标注数据,标注困难
弱监督:搜索空间大,reward稀疏(且只有0和1两种reward),且存在 最终答案正确但是逻辑表示不正确 的问题

因此,为了弥合这一差距,文章研究了弱监督与主动学习之间的交集,这使learner可以主动选择示例并查询手动注释作为额外的监督,以改进在弱监督下训练的模型。文章研究了用于选择示例进行查询的不同的主动学习启发式方法,以及针对此类查询的各种形式的额外监督。

算法overview

名称:Weak and Active Supervision for Semantic Parsing (WASSP)
Merging Weak and Active Supervision for Semantic Parsing论文笔记

首先弱监督方法训练一个semantic parser直到收敛。然后选取一部分训练数据,主动寻求额外的标注(监督),来refine当前数据的MR候选列表。

那么,WASSP这个算法存在以下三个问题:

  1. WASSP相比弱监督的semantic parser,有多少提升?
  2. 如何挑选active learning的训练数据,来最大化提升模型准确率?
  3. 对于每个挑选出来的utterance,WASSP可以用什么样的extra supervision来提升模型?

文章分为了以下几个部分介绍:弱监督semantic parsing、合并weak和active的semantic parsing、数据挑选的启发式方法、额外监督的形式,以及最后的实验与实验结果。

Weakly Supervised Semantic Parsing

supervised semantic parsing:训练数据二元组(语句q,逻辑表示z)
weakly supervised:三元组(语句q,执行器k,最终结果a)

弱监督学习的两个难点:

  1. 搜索空间巨大
  2. spurious逻辑表示(逻辑表示是错误的,但是最终的结果是对的)

搜索空间巨大的解决方法

  • 采用采样或k最佳搜索来近似此空间:Guu, K.; Pasupat, P.; Liu, E. Z.; and Liang, P. 2017. From language to programs: Bridging reinforcement learning and maximum marginal likelihood. arXiv preprint arXiv:1704.07926.
  • 与复杂的方法结合使用,以减少类型约束引起的合理MR的空间:Krishnamurthy, J.; Dasigi, P.; and Gardner, M. 2017. Neural semantic parsing with type constraints for semi-structured tables. In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 1516– 1526
  • 使用内存缓冲区来缓存探索到的reward高的MR:Liang, C.; Norouzi, M.; Berant, J.; Le, Q.; and Lao, N. 2018. Memory augmented policy optimization for program synthesis with generalization. arXiv preprint arXiv:1807.02322.

Spurious MRs的解决方法

  • 用额外的语义或词典信息训练过的排名工具ranker:Cheng, J., and Lapata, M. 2018. Weakly-supervised neural semantic parsing with a generative ranker. In Proceed- ings of the 22nd Conference on Computational Natural Language Learning, 356–367.
  • 引入先验知识来bias策略:Misra, D.; Chang, M.-W.; He, X.; and Yih, W.-t. 2018. Policy shaping and generalized update equations for semantic parsing from denotations. In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, 2442–2452.

Merging Weak and Active Supervision

如前面图所示,WASSP分为三个步骤:

  • step1: 用弱监督的方法,基于数据集D,训练收敛得到一个semantic parser,每条语句都有一个MR候选列表。
  • step2: 用启发式的选择方法,从D中选取一个子集D’, 对D’中的数据进行标注,作为额外监督。(启发式的选择方法和额外标注方法在下文详细介绍)
  • step3: 经过对D’额外标注后,更新MR候选列表中的MR(筛去不正确的)。

相当于:每当弱监督的训练停止时(收敛),WASSP允许解析器选择训练集的一小部分并查询额外的监督,并使用收到的额外监督来帮助继续训练过程。

启发式的数据选取方法 Query Sample Selection Heuristics

三种:correctness-based、uncertainty-based、coverage-based

correctness-based
虽然,执行结果正确但MR不一定正确,但是执行结果不正确的话MR一定不正确。
因此,correctness-based启发式方法就是选择:parser没有生成与预期执行结果匹配的MR的示例q。就是说选择一个语句q,得到的MR执行后的结果都是错误的,reward始终为0。这样才能为其提供额外监督,与那些reward不为0的相比获益更大。

uncertainty-based
选取parser对预测的不确定性最大的example。用一个最少置信分数公式来衡量一个example的不确定性。
Merging Weak and Active Supervision for Semantic Parsing论文笔记

coverage-based
选择最具代表性的例子,即涵盖尽可能多的其他未选择示例。最具代表性的选法又分两种

  1. Failed Word Coverage:选择单词数量最多,更容易导致失败的示例。
    首先,将候选MR都无法得到正确结果的示例组成D~(与correctness-based一样),然后统计每个word导致Fail的可能性:(单词q出现在D~中的次数)/(单词q在所有数据D中的次数),基于下面公式,选择涵盖了更多可能导致失败的单词的示例。
    Merging Weak and Active Supervision for Semantic Parsing论文笔记
  2. Clustering:
    聚类的方法,用Glove作为词向量,然后计算句向量(词向量的平均),基于句向量进行K-means聚类。
    给定训练示例的聚类,首先按聚类的大小对聚类进行排名,并省略聚类的最后20%,以降低选择不具代表性的示例(即离群值)的风险。
    然后,从其余的每个聚类中,随机抽样相等数量的示例,以鼓励多样性。

额外监督的形式 Forms of Extra Supervision

就是说,给予数据额外的标注,那么标注形式是什么

  1. Fully-specified MRs:完整的可执行的MR,可以得到高reward,直接用于训练。当然是首选。
  2. MR Sketches:MR框架(草图),包括运算符或函数名称,但是未填充变量或参数。
    通过标注了MR框架后,就可以:
    1)删去获得高Reward的spurious MR
    2)使用此框架作为之后探索的指导(例如,受约束的解码),只有在其MR框架与标注的MR框架匹配时,高奖励的MR才会保存在Zˆ中。
    这样的MR框架可以减少搜索空间、增强MR的通用性:加快标注

实验部分:

数据集

WikiSQL 、 WikiTableQuestions

模型:

neural symbolic machines (NSM[1]) + MAPO[2]

[1] Liang, C.; Berant, J.; Le, Q.; Forbus, K. D.; and Lao, N. 2016. Neural symbolic machines: Learning semantic parsers on freebase with weak supervision. arXiv preprint arXiv:1611.00020.
[2] Liang, C.; Norouzi, M.; Berant, J.; Le, Q.; and Lao, N. 2018. Memory augmented policy optimization for program synthesis with generalization. arXiv preprint arXiv:1807.02322.

训练过程:

根据上两篇论文[1] [2],在WikiSQL 、WikiTableQuestions两个数据上训练,参数与原论文中相同。

对于WikiSQL,进行三次迭代,每次迭代中先标注额外监督,然后训练5k步。

对于WikiTableQuestions,只运行一次迭代,但是使用人工注释的MR训练了50K步

评估标准:

accuracy,得到正确执行结果的比例

实验结果:

WikiSQL:

Merging Weak and Active Supervision for Semantic Parsing论文笔记

WikiTableQuestions:
Merging Weak and Active Supervision for Semantic Parsing论文笔记

不同的选择数据的启发式方法
Merging Weak and Active Supervision for Semantic Parsing论文笔记

不同的额外监督的形式,完整MR或MR框架:
Merging Weak and Active Supervision for Semantic Parsing论文笔记

总结:

将弱监督和主动学习结合在一起进行语义解析的框架。
研究了不同的选择样本的方法,以及额外标注的两种形式
在两个数据集上进行的实验表明,WASSP可以通过标注少量示例来极大地提高弱监督语义解析器的性能。