Word2vec

Word2vec是一种从原始语料学习获得低维、实值、稠密的词向量表示的方法，核心思想是使得具有相似上下文的字/词能够在向量空间具有相近的距离。word2vec比较好的解决了one-hot词向量的词汇鸿沟问题，最经典的例子就是“国王-王后=男人-女人”。

基本思想和直观理解

word2vec的基本框架可以描述为：

我们有一个大规模的语料库以及词库

词库中的每个词都有一个向量表达

遍历文档中的每个位置 $t$ ，我们有一个center word $\vec{c}$ 和context/outside words $\vec{o}$
所谓context word是指在给定window size下center word的邻近词

通过词向量 $\vec{c}$ 和 $\vec{o}$ 之间的相似度来计算 $p (\vec{c} | \vec{o})$ 或者 $p (\vec{o} | \vec{c})$

不断调整词向量来最大化这个概率