DPCNN做文本分类《Deep Pyramid Convolutional Neural Networks for Text Categorization》

原文链接
本文发表于自然语言处理领域*会议 ACL 2017
代码链接

摘要

本文提出了一种新型的CNN结构,可以有效提取文本中的远程关系特征,并且复杂度不高。实验证明,效果比以往的CNN结构要好。

模型

本文提出的模型为Word-level deep pyramid CNN (DPCNN) ,其结构如下图所示:
DPCNN做文本分类《Deep Pyramid Convolutional Neural Networks for Text Categorization》
1.Region embedding
这个步骤可以理解为,将onehot lookup (或n-gram,bow)得到embedding之后随着CNN一起被优化
2.Unsupervised embeddings
没看懂


前人提出的一些模型在做下采样(pooling)时增加feature map(卷积核)的数量,使算法时间复杂度变成了与模型深度有关的函数,本文研究发现这样做除了白白增加了工作量以外,对提升准确率没有任何帮助,故本文固定了feature map(卷积核)的数量。
这样一来,每做一次下采样,下一个卷积层的size就会减半,如图所示:
DPCNN做文本分类《Deep Pyramid Convolutional Neural Networks for Text Categorization》
因此本文提出的模型的计算时间复杂为最长块的计算时间的两倍,是常数级别的,故本文的模型计算要快得多。并且这样不断的下采样,可以增加卷积核对原文的覆盖度,在L次下采样之后,卷积核相当于覆盖了 2L 长度的原文。(但这样不会丢失信息吗?),因此模型对全局特征的提取能力得到了大幅增强。