Content Tree Word Embedding for document representation

一 简介

该篇论文是对文本向量进行建模,不过采取的是比较简单的方法,就是将文本中所有词的向量求平均作为该文本的向量表示。不过词向量并不是简单的用word2vec或其他词向量模型生成,而是借助了content tree,在预训练好的词向量的基础上对词向量进行进一步的更新,在更新后的词向量的基础上求平均以表示文本。

二 content tree的创建

content tree就是以树形结构去表示一个文本。其假设文本的第一个词作文树的root,第二个词作为root的子节点。随后将计算文本中出现的词与树中的词的皮尔逊系数,将系数最大的词作为新词的parent节点。算法如下图所示。
Content Tree Word Embedding for document representation
通过上述算法得到content tree后,下一步要做的就是对词向量的更新。

词向量更新

其初始词向量是由其他词向量模型,如word2vec和Glove等训练而成。不过为了得到高质量的文本向量,虽然只是平均运算,但是对词向量进行了基于content tree的更新。词向量的更新利用的是当前词向量与parent向量的加权平均值,计算方式如下
Content Tree Word Embedding for document representation
由上式可知,词向量的更新是一个迭代的过程,如下所示
Content Tree Word Embedding for document representation
在得到新的词向量后,去平均值作为文本向量。如下所示
Content Tree Word Embedding for document representation
整个的算法流程如下图所示
Content Tree Word Embedding for document representation