Stanford 深度自然语言处理学习笔记（二）

1、one-hot缺点：无法表示词之间的近似含义（相似性）。

究其根本你会发现，是你开了一个极高维度的空间，然后每个词语都会占据一个维度，因此没有办法在空间中关联起来。因此我们可能可以把词向量的维度降低一些，在这样一个子空间中，可能原本没有关联的词就关联起来了。(寒小阳的博客)

2、distributional similarity

represent a word by means of its neighbors

3、distributed representations

dense vectors to represent the meaning of the words

contrasts with one-hot

4、word2vec

Stanford 深度自然语言处理学习笔记（二）

我对Skip-gram的理解：一个词的one-hot representation wt 与W矩阵（词向量构成的矩阵）相乘的结果vc（=W·wt）是对W矩阵取一列（第t列），vc即为这个词的词向量。该词为中心词。然后对窗口内的每一个位置，都预测该位置出现某个词的概率。V是词表长度，对每个位置，预测词表内每个词出现的概率（通过softmax转换为概率）。

Stanford 深度自然语言处理学习笔记（二）