Stanford 深度自然语言处理 学习笔记(二)

1、one-hot缺点:无法表示词之间的近似含义(相似性)。

究其根本你会发现,是你开了一个极高维度的空间,然后每个词语都会占据一个维度,因此没有办法在空间中关联起来。因此我们可能可以把词向量的维度降低一些,在这样一个子空间中,可能原本没有关联的词就关联起来了。(寒小阳的博客)

2、distributional similarity

represent a word by means of its neighbors

3、distributed representations

dense vectors to represent the meaning of the words

contrasts with one-hot

4、word2vec

Stanford 深度自然语言处理 学习笔记(二)

 

我对Skip-gram的理解:一个词的one-hot representation wt 与W矩阵(词向量构成的矩阵)相乘的结果vc(=W·wt)是对W矩阵取一列(第t列),vc即为这个词的词向量。该词为中心词。然后对窗口内的每一个位置,都预测该位置出现某个词的概率。V是词表长度,对每个位置,预测词表内每个词出现的概率(通过softmax转换为概率)。

Stanford 深度自然语言处理 学习笔记(二)

 

CBOW (来自寒小阳的博客) //注意第三步 取平均

Stanford 深度自然语言处理 学习笔记(二)

通常来说,当我们试图从已知概率学习一个新的概率时,最常见的是从信息论的角度寻找方法来评估两个概率分布的差距。其中广受好评又广泛应用的一个评估差异/损失的函数是交叉熵:

Stanford 深度自然语言处理 学习笔记(二)    y只是一个one-hot向量,可简化为   Stanford 深度自然语言处理 学习笔记(二)

 

构造句向量

Stanford 深度自然语言处理 学习笔记(二)

step1 词向量加权求和

step2 PCA

Stanford 深度自然语言处理 学习笔记(二)