Efficient Estimation of Word Representations in vector space 论文阅读

Efficient Estimation of Word Representations in vector space

              Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean

一、研究对象:词向量表示的质量。

二、现有模型:NNLM、N-gram model、LSA、LDA

三、现有模型不足:将单词做为一个独立的单元对待,与词之间没有联系。这有一定的好处:简洁,鲁棒性好。现有模型认为简单模型在大的数据集训练结果比复杂模型在小的数据集上训练的结果更好。

四、限制条件:一些问题的数据集是有限的,没有大规模的数据。如自动音频识别相关的域内数据是有限的,机器翻译现有的语料库也只有寄一个单词。因此需要更先进的技术。

六、本文模型及工作:

提出了两种新的模型,能够从大规模的数据集里高质量的学习词向量。目前还没有一个模型能够成功的用适度的维度(50-100)训练几亿单词

       为了比较不同模型的结构,首先定义了计算复杂度。然后尝试减小计算复杂度的同时提高精度。本文模型计算复杂度O = E × T × Q;

         讨论了NNLMRNNLM的模型结构和计算复杂度。

提出了两种新的结构:

1.Continuous Bag-of-Words Model CBOW)和Continuous Skip-gram Model

NNLM 包含inputprojectionhidden、和output

         RNNLM 包含 input hidden output

Bag-of-Words Model 相比NNLM去除了非线性隐藏层(hidden),并所有的词共用映射层。词的先后顺序对映射没有影响。

         1.Continuous Bag-of-Words ModelBag-of-Words Model的基础上使用将来的词,就是用本词的上下文的词来表示该词。

       2.后者Continuous Skip-gram Model模型,用当前的词作为输入,预测上下文的词

模型图

Efficient Estimation of Word Representations in vector space 论文阅读

本文工作:1.视图通过开发保持词间线性规律性的新模型,来最大化矢量操作的准确性(maximize accuracy of these vector operations)。 2.设计了一套新的测试集,用于测试语法和语义规律。3.讨论了训练时间和精度取决于单词向量的位数和训练数据的数量

本文用最近提出的测量向量表示结果的质量,惊奇发现:词语表达(word representations)的相似性超出了简单的句法规律。如vector(King)+vector(man)+vector(woman) is closet to vector(queen)。即词向量能够通过几何运算很方便的表示语义相似或者句法相似的词

# 还可以通过提供更多的关系对去预测,以提高预测精确度。

# 或者结合多种技术,以提高训练结果 如RNN+LSA等

七、实验

       1.先建立question,首先,人工创建相似单词对。然后,随机匹配任意两个单词对,创建一大堆问题。如what is closet to vector(King)+vector(man)+vector(woman) ?

       1.用不同size的数据和字向量维度训练词向量,比较他们的精度和召回率

       2.在不同模型上用相同的数据训练相同维度的词向量,比较语义和句法精确性

       3.对不同的模型,在几组向量维度和训练数据的组合下,比较精度

       4.对于本文提出的两个模型,在不同的训练epoch、向量维度、训练数据上比较精度和训练时间。发现达到相同的训练时间,一般增加向量维度或是训练数据比单纯增加epoch时间短。