《Interactive Classification by Asking Informative Questions》读后感
《Interactive Classification by Asking Informative Questions》读后感
目录
一、文章阅读
【更多论文阅读新进展欢迎关注统计人贞子微信公众号】
1 摘要和总结
摘要部分
- where users provide an initial query using natural language, and the system asks for additional information using binary or multi-choice questions.本文的交互方式采用的是自然语言问答的形式,机器对用户的提问方式是二选一或者多选一的模式。主要针对的是“分类问题”。
- 提出了“继续发问”和“返回结果”两种问题之间权衡的一种决策系统(使用众包任务代替实时交互?)
- 评估方法,评测上面的停止发问系统的好处
总结部分
- 专家指导的问题和答案增量设计——可扩展性差
- We demonstrate that the system can be bootstrapped without any interaction data and show effectiveness on two tasks.用非实时交互数据进行训练
2 Introduction介绍
- 简单介绍了单轮问答的进展阻碍——(用户对领域本身不理解&系统对用户的问题理解不正确)
- 本文研究目的(评估interaction的好处&交互数据获得的成本和复杂性控制)——交互系统提出一系列二项和多项选择题
- 设计的方法不依赖于学习过程中的用户交互(不依赖于垃圾的交互系统和被导向的行为(引导回答))
- 后验分布的贝叶斯分解(对意图标签和用户响应),使用后验来计算问题的预期信息增益平衡准确性和新一轮交互成本
- 非交互式注释任务
- We evaluate with both a simulator and human users.
3 Technical Overview
- Goal:to classify a natural language query to a label through an interaction.
-
- 模型选择具有最大信息增益的问题。给定用户响应,模型将更新对分类标签的置信度。
- 根据yi初始化x,用户给yi加标签,根据用户加的标签生成{q,r}
4 Related Work
放在参考文献那里
-
使用分类目标,问题和答案的自然语言描述来计算我们的分布,而不是将它们视为分类数据或结构数据。
-
使用联合分布的贝叶斯分解,可以将其轻松扩展到其他模型驱动的选择方法。
-
(某文)用户将其与真实图像进行比较,并使用相关性得分或描述它们之间差异的自然语言*提供反馈
5 Method(重要***)
-
两个假定【(1)r只取决于q和y,与过去的互动无关。】【qt很大程度取决于xt-1】X是交互
-
-
-
这种分解使得能够利用单独的注释来直接学习这两个组件,从而减少了收集昂贵的用户交互记录的需求。
-
我们不只是将标签,问题和答案视为分类变量。利用它们的自然语言内容来估计它们的相关性。这减少了对大量注释的需求,并改善了资源匮乏情况下的模型。Similarity:
-
average across annotators to estimate:
Loss:
用户模拟器:
策略选择器:(策略梯度反向传播确定参数)
- 奖励功能为在交互结束时预测正确的目标提供了正向奖励,为预测错误的目标提供了负向奖励,并为每个提出的问题提供了少量的负向奖励。
6 Data Collection
- Amazon Mechanical Turk发布众包任务
- 收集每个FAQ文档的初始查询和标签。附录A.1描述了工人培训过程。
- Initial query的收集(X):给定目标FAQ(yi),我们要求他们提供给这样的系统的初始查询
- FAQ tag生成:标签不限于预定义的本体,可以是描述文档主题的短语或单个单词————convert tags into questions(q)
- 将q和y关联起来(通过回答r)————人工、加上S(·)提供初步筛选
7 Experimental Setup
- 无交互:仅使用初始查询来预测分类标签。我们考虑以下四个实现
- BM25:一种基于关键字的通用检索方法评分模型
- RoBERTaBASE:微调的该模型编码文本
- 简单的RNN+fastText单词嵌入层
- RNN + self-attention
- Random Interaction:随机选择某个T的问题进行交互。
- No Initial Query Interaction:不会使用最大信息标准来限制初始用户查询。
- we use one encoder for user initial queries and question-answer pairs and a second encoder for bird names.
8 Results
用户评分:
accuracy:
Figure 3: [email protected] (y-axis) against turns of interactions (x-axis) for FAQ (left) and Birds (right) tasks
where x-axis is the number of episodes (400 trials per episode). The results are compared on different turn penalty ra.