《word2vec Parameter Learning Explained》论文学习笔记

目录:


由于word2vec模型学习生成的词向量表示方法能够携带句子的语义信息(semantic meanings),因此非常适用于多种NLP任务。
这篇论文详细地推导和解释了word2vec模型的参数更新公式,包括:CBOW(continuous bag-of-word)模型和SG(skip-gram)模型,以及两种参数优化技术:hierarchical softmaxnegative sampling.


1 Continuous Bag-of-Word Model


1.1 One-word context


我们从CBOW模型的最简单版本开始介绍——One-word context。即我们假定context(预测目标单词的上下文信息)只有一个单词,也就是说One-word context 模型是在只要一个上下文单词(one context word)的情况下来预测一个目标单词(one target word)的。(注:对于初学神经网络的读者,建议先看完附录A之后,在回到此处阅读下文)。
《word2vec Parameter Learning Explained》论文学习笔记

如图1描述的就是One-word context定义之下的神经网络模型。这里我们假设文本词汇量的大小为V,隐藏层的大小为N,相邻层的神经元是全连接的。输入层是一个用one-hot方式编码的单词向量x=(x1,...,xV),其中只有一个xi为1,其余均为0。
从输入层到 隐藏层的权重值可以用一个V×N维的矩阵W来表示,即

W=(ω11ω12...ω1Nω21ω22...ω2N............ωV1ωV2...ωVN)

其中W矩阵的每一行代表的是一个与输入层相关的单词的N维向量表示形式vω。那么假设我们给定了一个输入单词(a context),其单词向量的第k个元素xk=1,其余均为0,则有

(1)h=WTx=W(k,)Txk=vωIT

(1)式我们可以看出,h向量完全是从W矩阵第k行复制过来的(同vωI均为N维向量)。vωI即为输入单词ωI的一种向量表示(其实就是输入向量,我们后面会提到)。

分析完输入层到隐藏层之后,我们再看隐藏层到输出层,同样连接权重用一个新的N × V矩阵W={ωij}来表示如下:

W=(ω11ω12...ω1Vω21ω22...ω2V............ωN1ωN2...ωNV)

通过这些权重,我们可以为词表中的每一个单词都计算出一个得分μj

(2)μj=vωjTh

其中,vωj即为矩阵W的第j列向量(也是N维向量,其实就是单词w的输出向量,我们后面会提到)。

经过以上讨论之后,我们可以使用一种对数-线性分类模型softmax函数来计算单词的后验分布(是多项式分布)

(3)p(ωj|ωI)=yj=exp(μj)j=1Vexp(μj)

其中, yj表示输出层第j个神经单元的输出值。将(1)式和(2)式代入(3)式我们可以得到:

(4)p(ωj|ωI)=exp(vωjTvωI)j=1Vexp(vωjTvωI)

注意:正如前文所述,vωvω是单词的两种向量表示形式。其中vω实际上是权重矩阵W(input->hidden)的某一行向量,vω则是权重矩阵W(hidden->output)的某一列向量。我们将vωvω分别称为“输入向量(input vector)”和“输出向量(output vector)”(二者均为N维向量)。


Update equation for hidden→output weights


接下来让我们推到权重矩阵的更新公式,尽管在实际的计算过程中这样做是不切实际的(我们在之后再谈)。
在我们推导hidden→output权重的更新公式的过程中,需要用到神经网络的反向传播算法,对这部分内容不熟悉的读者可以参考附录A的内容。
由以上描述可知,该模型训练的目标就是求公式(4)的最大值。公式(4)代表的就是给定上下文信息(这里为一个单词ωI)以及其权重矩阵的情况下,预测其实际输出单词(即上下文信息的中心词ωO)的条件概率。

(5)maxp(ωO|ωI)=maxyj(6)=maxlogyj(7)=μjlogj=1Vexp(μj):=E

其中,E=logp(ωO|ωI) 为该模型的损失函数(我们需要找出它的最小值),μj的表示方式由公式(2)而来,j则为实际输出单词的索引下标。我们注意到该损失函数可以理解为一种特殊情形下的交叉熵计算。

现在我们开始推导从隐藏层到输出层的权重矩阵在模型训练过程中的参数更新公式。首先我们对损失函数E=logp(ωO|ωI) 求关于得分μj的偏导数,得结果为:

(8)Eμj=yjtj:=ej

其中,tj=1(j=j) ,即当且仅当输出层的第j个神经单元为真实的输出单词时 tj的取值为1。接下来我们根据链式法则求出损失函数E关于矩阵W元素 ωij的偏导数为:

(9)Eωij=Eμjμjωij=ejhi

因此,采用随机梯度下降算法(SGD),我们最终得到了隐藏层到输出层(hiddenoutput)权重的更新公式如下:

(10)ωij(new)=ωij(old)ηejhi

or
(11)vωj(new)=vωj(old)ηejh  for j=1,2,...V.

其中, η>0为参数更新的学习速率;ej=yjtjhi 为隐藏层的第i个神经单元;vωjωj的输出向量。

由公式(11)我们可以看出:在更新权重参数的过程中,我们需要检查词汇表中的每一个单词,计算出它的输出概率yj,并与期望输出tj(取值只能为0或者1)进行比较。比较过程如下:

1)如果yj>tj(“overestimating”),那么就从向量vωj中减去隐藏向量h的一部分(例如vωI),这样向量vωj就会与向量vωI相差更远。
2)如果yj<tj(“underestimating”,这种情况只有在tj=1时,才会发生,此时ωj=ωO),则将隐藏向量h的一部分加入vωO,使得vωOvωI更接近。
3)如果yjtj非常接近,则此时ej=yjtj由于(公式(8))非常接近于0,故更新参数基本上没什么变化。

这里需要再次提醒的是:vωvω是单词ω的两种不同的向量表示形式。


Update equation for input→hidden weights


在介绍完hiddenoutput的权重矩阵更新公式之后,我们接着介绍inputhidden的权重矩阵W的更新过程。我们继续对损失函数E求关于隐藏层hi 的偏导数,得:

(12)Ehi=j=1VEμjμjhi=j=1Vejωij:=EHi

其中hi为隐藏层第i个神经单元的输出;μj在公式(2)中已经定义,表示输出层第j个神经单元的输入;ej=yjtj为输出层第j个单词的预测误差。因此EH应该是一个N维向量,它的每一个元素代表的是词汇表中的每个单词的预测误差ejωij在j=1到V上的乘积之和。

接下来,我们需要求出损失函数E关于权重矩阵W的偏导数。首先,分解公式(1),我们知道隐藏层**单元的输出hi是输入层x与权重的线性组合,即

(13)hi=k=1Vxkωki

因此对于权重矩阵W的每一个元素,我们求关于E的偏导数,得到:

(14)Eωki=Ehihiωki=EHixk

因此我们利用张量乘积的方式,便可得到:

(15)EW=xEH=xEHT

我们再次得到了一个N×V的矩阵。由于x向量只有一个非0元素,因此EW 只有一行是N维非0向量EHT,因此矩阵W的更新公式为:

(16)vωI(new)=vωI(old)ηEHT

其中vωI是矩阵W的其中一行,是唯一的上下文单词(context word)的“输入向量”,也是矩阵W唯一的导数非0的行向量。 除了vωI以外,矩阵W的其他行向量在参数更新迭代过程中都会保持不变(因为其导数为0)。

与矩阵W的更新过程相似,对于公式(16),我们分析如下:

1)如果过高地估计了某个单词ωj作为最终输出单词的概率(即:yj>tj),则上下文单词ωI(context word )的输入向量与单词ωj的输出向量在更新的过程中会相差越来越大。

2)如果相反,某个单词ωj作为最终输出单词的概率被低估(即:yj<tj),则单词ωI的输入向量与单词ωj的输出向量在更新过程中会越来越接近。

3)如果对于单词ωI的概率预测是准确的,则对于单词的输入向量在更新过程中几乎保持不变。

因此,上下文单词ωI(context word )的输入向量的更新取决于词汇表中所有单词的预测误差。预测误差越大,则该单词对于上下文单词的输入向量的更新过程影响越大。

在介绍完One-word context的CBOW模型之后,我们接着介绍multi-word context下的CBOW模型。


1.2 Multi-word context


根据字面意思我们就可以看出,基于multi-word context的CBOW模型就是利用多个上下文单词来推测中心单词target word的一种模型。其结构如图2所示:
《word2vec Parameter Learning Explained》论文学习笔记

其隐藏层的输出值的计算过程为:首先将输入的上下文单词(context words)的向量叠加起来并取其平均值,接着与inputhidden的权重矩阵相乘,作为最终的结果,公式如下:

(17)h=1CWT(x1+x2++xC)(18)=1C(vω1+vω2++vωC)T

其中C为上下文单词的个数,ω1,...,ωC为上下文单词,vω为单词ω输入向量。损失函数为:

(19)E=logp(ωO|ωI,1,...,ωI,C)(20)=μj+logj=1Vexp(μj)(21)=vωOTh+logj=1Vexp(vωjTh)

同样,由hiddenoutput的权重更新公式与one-word-context模型下的一模一样,即类似于公式(11),我们直接写在下面:

(22)vωj(new)=vωj(old)ηejh   for  j=1,2,...,V

由inputhidden 的权重矩阵更新公式与公式(16)类似,只不过现在我们需要对每一个上下文单词ωI,c都执行如下更新公式:

(23)vωI,c(new)=vωI,c(old)1CηEHT  for  c=1,2,...,C.

其中vωI,c为上下文context中第c 个单词的输入向量;η为正学习速率;EH=Ehi由公式(12)给出。


2 Skip-Gram Model


与CBOW模型正好相反,Skip-Gram模型是根据中心单词(target word)来预测其上上下文信息(context words)。如图3所示,为Skip-Gram模型的结构示意图。
《word2vec Parameter Learning Explained》论文学习笔记

我们仍然使用vωI来表示输入层上唯一的那个单词的输入向量,因此,我们对于隐藏层的输出值h的计算公式与第一节公式(1)相同,表示如下:

(24)h=W(k,)T:=vωI
公式(24)显示:h向量其实就是input->hidden权重矩阵W的某一行结合输入单词ωI的向量拷贝。在输出层,与CBOW模型的输出为单个多项式分布不同的是,SG模型在输出层输出了C个多项式分布。每个输出都使用相同的hidden->output矩阵计算:

(25)p(ωc,j=ωO,c|ωI)=yc,j=exp(μc,j)j=1Vexp(μj)

其中,ωc,j表示输出层的第c个panel的第j个单词(何为panel?就是输出层的表示每个上下文单词的神经元的组合,图中一种有C个context words,所以总共有C个panel);ωO,c实际上表示的是输出上下文单词(output context words)的第c个单词;ωI是唯一的输入单词;yc,j为输出层的第c个panel上的第j个神经单元的概率输出值;μc,j表示的是输出层第c个panel的第j个神经元的输入值;由于输出层的所有panels共享同一权重矩阵W,因此:

(26)μc,j=μj=vωjTh, for c=1,2,...,C
其中,vωj为词汇表第j个单词ωj的输出向量;同样,它也是取自于hiddenoutput权重矩阵W的一列。


SG模型参数更新公式的推导过程与one-word-context 模型的推导过程大体上一样。这里我们将损失函数变为:

(27)E=logp(ωO,1,ωO,2,...,ωO,C|ωI)(28)=logc=1Cexp(μc,jc)j=1Vexp(μj)(29)=c=1Cμjc+Clogj=1Vexp(μj)

其中,jc为第c个输出层输出的上下文单词在词汇表中的真实索引。
在得到损失函数E之后,我们对输出层的每一个panel上的所有**单元的输入值μc,j,均求其关于E的偏导数,得:

(30)Eμc,j=yc,jtc,j:=ec,j
其中ec,j为输出层神经元的预测误差,与公式(8)类似。为了简化符号,我们定义一个V维的向量EI={EI1,...,EIV}作为所有上下文单词的预测误差之和,EIj用公式定义如下:

(31)EIj=c=1Cec,j

接下来,我们计算hidden->output权重矩阵W关于E的偏导数为:

(32)Eωij=c=1CEμc,jμc,jωij=EIjhi

这样,我们就得到了hiddenoutput权重矩阵W的参数更新公式为:

(33)ωij(new)=ωij(old)ηEIjhi
或者

(34)vωj(new)=vωj(old)ηEIjh   for j=1,2,...,V.

上述参数更新公式的直观概念理解与上文公式(11)无二,除了一点就是:输出层的预测误差的计算是基于多个上下文单词context words,而不是单个目标单词 target word;需注意的是对于每一个训练样本,我们都要利用该参数更新公式来更新hiddenoutput权重矩阵W的每个元素。

同样,对于inputhidden权重矩阵W的参数更新公式的推导过程,除了考虑要将预测误差ej替换为EIj外,其他也与上文公式(12)到公式(16)类似。这里我们直接给出更新公式:

(35)vωI(new)=vωI(old)ηEHT

其中,EH是一个N维向量,组成该向量的每一个元素可以用如下公式表示:
(36)EHi=j=1VEIjωij
公式(36)的直观理解与公式(16)类似,这里不作描述。


3 Optimizing Computational Efficiency


总结以上的模型介绍,我们发现所有模型的词汇表中的每个单词都存在两个向量表示形式:输入向量vω与输出向量vω.对于输入向量的参数学习成本并不高,但对于输出向量的学习成本代价是非常昂贵的。根据更新公式(22)和(23),我们可以发现,为了更新输出向量vω,对于每一个训练样例,我们必须迭代遍历词汇表中所有的单词ωj,计算出它们的输入值μj、概率预测值yj(或者SG模型中的yc,j),预测误差ej(或者SG模型的EIj)。最终使用预测误差更新它们的输出向量vj.
显然,对于每一个训练样例都要对所有单词计算上述各值,其成本是昂贵的。特别是对于大型的词汇表,这种计算方式是不切实际的。因此为了解决这个问题,直观的方式是限制必须要更新的训练样例的输出向量的数目。一种有效的实现方式就是:hierarchical softmax(分层softmax),另一种实现通过采样的方式解决,我们在下个章节来讨论。
这两种方法都是通过只优化输出向量更新的计算过程来实现的。在我们的公式推导过程中,我们关心的有三个值:(1)E,新的目标函数;(2)Evω,新的关于输出向量的更新公式;(3)Eh,为了更新输入向量反向传播的预测误差的加权和。


3.1 Hierarchical Softmax


Hierarchical softmax 是一种有效的计算 softmax 的方式。该模型使用一棵二叉树来表示词汇表中的所有单词。所有的V个单词都在二叉树的叶节点上。非叶子节点一共有V1个。对于每个叶子节点,从根节点root到该叶子节点只有一条路径;这条路径用来评估用该叶子节点代表该叶子节点上单词的概率值。二叉树的结构如图4所示:
《word2vec Parameter Learning Explained》论文学习笔记
Figure 4: An example binary tree for the hierarchical softmax model.
其中白色的树节点代表的是词汇表中的单词,灰色节点为内部节点。图中高亮显示的是一条从根节点到ω2的路径。该条路径的长度为L(ω2)=4n(ω,j)表示从根节点到单词ω 的路径上的第j个节点。

在hierarchical softmax模型中,所有的词汇单词没有输出向量表示形式。不同的是,二叉树的每一个内部节点都有一个输出向量vn(ω,j)。因此一个单词作为输出单词的概率计算公式定义如下:

(37)p(ω=ωO)=j=1L(ω)1σ([[n(ω,j+1)=ch(n(ω,j))]]vn(w,j)Th)

其中,ch(n)为节点n的左孩子节点;vn(ω,j)是内部节点n(ω,j)的向量表示(输出向量);h是隐藏层的输出值(在SG模型中,h=vωI;而在CBOW模型中,h=1Cc=1Cvωc);[[x]]是一种特殊的函数定义如下:

(38)[[x]]={1if x is true1,otherwise

接下来,我们通过一个直观地例子来理解公式(37)。如图4所示,假定我们需要计算单词ω2作为输出单词的概率。我们将这个概率定义为从根节点开始随机游走到叶节点ω2的概率。则在每一个内部节点(包括根节点),我们都需要确定其路径指向左孩子节点还是右孩子节点的概率。我们将经过内部节点的路径指向左孩子的概率定义为:

(39)p(n,left)=σ(vnTh)

我们可以看出,公式(39)的值取决于内部节点的向量表示vn和隐藏层的输出值h(h的值取决于输入单词的向量表示)。显然,内部节点的路径指向右孩子的概率则可以表示为:

(40)p(n,right)=1σ(vnTh)=σ(vnTh)

顺着图4中从根节点到单词ω2节点的路径,我们可以计算出ω2作为输出单词的概率为:

(41)p(ω2=ωO)=p(n(ω2,1),left)p(n(ω2,2),left)p(n(ω2,3),right)(42)=σ(vn(ω2,1)Th)σ(vn(ω2,2)Th)σ(vn(ω2,3)Th)

不难证明
(43)i=1Vp(ωi=ωO)=1

现在我们开始推导内部节点的向量表示形式的参数更新公式。为了简化步骤,我们首先考虑单个上下文单词(one-word context)的模型。
为了简化公式,我们定义子公式的简化符号如下:

(44)[[]]:=[[n(ω,j+1)=ch(n(ω,j))]]
(45)vj:=vnω,j

则,给定一个训练样例,其误差函数我们可以定义如下:

(46)E=logp(ω=ωO|ωI)=j=1L(ω)1logσ([[]]vjTh)

对于误差函数E,我们取其关于vjh的偏导数,得:

(47)Evjh=(σ([[]]vjTh)1)[[]](48)={σ(vjTh)1,[[.]]=1σ(vjTh),[[.]]=-1(49)=σ(vjTh)tj

其中tj=1(如果[[]]=1)或者tj=0(如果[[]]=1)。

紧接着我们计算内部节点n(ω,j)的向量表示vj关于函数E的偏导数,得:

(50)Evj=Evjhvjhvj=(σ(vjTh)tj)h

因此,更新公式为:

(51)vj(new)=vj(old)η(σ(vjTh)tj)h , for j=1,2,...,L(ω)1

我们可以将σ(vjTh)tj理解为内部节点n(ω,j)的预测误差。每一个内部节点的“任务”就是预测其随机游走路径是指向左孩子节点还是指向右孩子节点。tj=1意味着节点n(ω,j)的路径指向左孩子节点;tj=0则表示指向右孩子节点。σ(vjTh)是预测结果。对于一个训练实例,如果内部节点的预测值非常接近于真实值,则它的向量表示vj的更新变化很小;否则vj向量指向一个适当的方向是的该实例的预测误差逐渐减小。以上更新公式既能应用于CBOW模型,又能应用于SG模型。当在SG模型中使用该更新公式时,我们需要对C个output context words的每一个单词都重复此更新过程。

为了使用反向传播该预测误差来学习训练inputhidden的权重,我们对误差函数E求关于隐藏层输出值的偏导数,如下:

(52)Eh=j=1L(ω)1Evjhvjhh(53)=j=1L(ω)1(σ(vjTh)tj)vj(54):=EH

接下来我们根据公式(23)便可以获得CBOW模型输入向量的更新公式。对于SG模型,我们需要计算上下文信息中的每个单词的EH值,并将EH值的和带入公式(35),就能够得到输入向量的更新公式。

从以上更新公式我们可以看出:经过改进的模型Hierarchical softmax的每个训练样例的每个上下文单词的计算复杂度从O(V)降为O(log(V))级别。但是模型的参数几乎没有什么改变(内部节点对应V-1维向量,而原始模型的单词的输出向量维数为V)。


3.2 Negative Sampling


Negative Sampling模型的思想比hierarchical softmax模型更直接了当,即:在每次迭代的过程中,有大量的输出向量需要更新,为了解决这一困难,negative sampling提出了只更新其中一部分输出向量的解决方案。
显然,最终需要输出的上下文单词(正样本)在采样的过程中应该保留下来并更新,同时我们需要采集一些单词作为负样本(因此称为“negative sampling”)。在采样的过程中,我们可以任意选择一种概率分布。我们将这种概率分布称为“噪声分布”(the noise distribution),用Pn(ω)来表示。我们可以根据经验选择一种较好的分布。

在 word2vec中,我们无需使用一种能够产生良好定义的后验多项式分布的负采样形式,本文作者证明了使用下面简单的训练目标函数能够产生可靠的、高质量的 word embeddings:

(55)E=logσ(vωOTh)ωjWneglogσ(vωjTh)

其中ωO是输出单词(the positive sample),vωO是输出向量;h是隐藏层的输出值:在CBOW模型中h=1Cc=1Cvωc,在SG模型中h=vωIWneg={ωj|j=1,...,K}是基于分布Pn(ω)采样的一系列单词。
为了获得negative sampling模型的词向量更新公式,我们首先计算E关于输出单元ωj的输入vωjTh的偏导数:

(56)EvωjTh={σ(vωjTh)1,if  ωj=ωOσ(vωjTh),if ωjWneg(57)              =σ(vωjTh)tj

其中,当ωj是一个正样本时,tj=1;否则tj=0。接下来我们计算E关于单词ωj的输出向量的偏导数:

(58)Evωj=EvωjThvωjThvωj=(σ(vωjTh)tj)h

因此输出向量的更新公式为:

(59)vωj(new)=vωj(old)η(σ(vωjTh)tj)h

negative sampling的关键就是公式(59)的更新过程只应用于词汇表的子集{ωj|ωj{ωO}Wneg},而并非应用于整个词汇表。
以上更新公式(59)的直观理解与公式(11)类似。公式(59)对两种应用模型CBOW和SG都适用。对于SG模型,我们每次更新一个上下文单词。

接着利用反向传播机制,计算E关于隐藏层输出h的偏导数:

(60)Eh=ωj{ωO}WnegEvωjThvωjThh(61)=ωj{ωO}Wneg(σ(vωjTh)tj)vωj:=EH

将EH代入公式(23),我们就可以得到CBOW模型关于输入向量的更新公式;对于SG模型,我们需要计算出每个上下文单词的EH值,将EH值的和代入公式(35)就能够得到其输入向量的更新公式。



PS:明人不说暗话,阁下留下一赞可好?