Stanford 深度自然语言处理 学习笔记(二)
1、one-hot缺点:无法表示词之间的近似含义(相似性)。
究其根本你会发现,是你开了一个极高维度的空间,然后每个词语都会占据一个维度,因此没有办法在空间中关联起来。因此我们可能可以把词向量的维度降低一些,在这样一个子空间中,可能原本没有关联的词就关联起来了。(寒小阳的博客)
2、distributional similarity
represent a word by means of its neighbors
3、distributed representations
dense vectors to represent the meaning of the words
contrasts with one-hot
4、word2vec
我对Skip-gram的理解:一个词的one-hot representation wt 与W矩阵(词向量构成的矩阵)相乘的结果vc(=W·wt)是对W矩阵取一列(第t列),vc即为这个词的词向量。该词为中心词。然后对窗口内的每一个位置,都预测该位置出现某个词的概率。V是词表长度,对每个位置,预测词表内每个词出现的概率(通过softmax转换为概率)。
CBOW (来自寒小阳的博客) //注意第三步 取平均
通常来说,当我们试图从已知概率学习一个新的概率时,最常见的是从信息论的角度寻找方法来评估两个概率分布的差距。其中广受好评又广泛应用的一个评估差异/损失的函数是交叉熵:
y只是一个one-hot向量,可简化为
构造句向量
step1 词向量加权求和
step2 PCA