论文阅读笔记 ---《Explainable Framework for TextClassification 》

论文地址:https://arxiv.org/abs/1811.00196v2
论文名称:Towards Explainable NLP:A Generative Explanation Framework for TextClassification

摘要

现有机器学习可解释性研究倾向于分析输入和输出之间的联系,而会忽略通过提炼后的信息。本文提出了一个能够同时进行分类生成解释的框架,并且提出了可解释性因子风险最小化训练方法使得生成的解释更加合理。

通用可解释性框架(GEF)

论文阅读笔记 ---《Explainable Framework for TextClassification 》

可解释性因子(EF)定义为:
论文阅读笔记 ---《Explainable Framework for TextClassification 》
其中三个概率p都是各个分类器在groud-truth上的分量。公式说明,可解释性因子的目的是1.减小Golden Explaination和生成的Explaination之间的差距 2.减小解释生成器原始模型分类器的差距。

模型基本Loss定义为:
论文阅读笔记 ---《Explainable Framework for TextClassification 》
其中L(eg,S,Θ)L(e_g,S,\Theta)定义如下
论文阅读笔记 ---《Explainable Framework for TextClassification 》
其中LpL_p是解释生成器的损失,本文中用的是BLUE,LeL_e是分类器损失(这里的分类器应该指的只有图中的Predictor P,因为文中假设解释生成一侧的分类器是完美分类器)。为了防止梯度消失的问题,最终使用的Loss定义如下:
论文阅读笔记 ---《Explainable Framework for TextClassification 》
其中LLLpL_p即生成器损失。

其他问题和解释

  1. 因为生成损失往往比分类损失大很多,在训练时当分类损失达到一定时候时(根据验证集效果确定),就停止更新分类器参数更新来避免过拟合。
  2. 使用GEF后,生成器生成的解释比直接用Basic-model生成解释效果更好(BLUE分更高),但当Golden Expaination很长的时候由于可能含有更多domain-specific词汇(词频低),所以更可能生成。后续可能考虑使用copy-mechanism (Gu et al., 2016) 来生成这些domain-specific词汇。
  3. 生成器生成的解释通常会比Golden Explanation更短,因为生成的解释越长,loss可能越大,所以GEF倾向于丢弃低语义信息的词,比如虚词,连接词等。后续可以考虑加入长度惩罚来解决。