词LSTM部分(整体图中红色阴影部分)结构如下图及式(12)(13):
xb,ew=ew(wb,ed)(12)
⎣⎡ib,ewfb,ewcb,ew⎦⎤=⎣⎡σσtanh⎦⎤(WwT[xb,ewhbc]+bw)cb,ew=fb,ew⊙cbc+ib,ew⊙cb,ew(13)
其中:
wb,ed表示从b开始到e结束的词的子序列,如w1,2d=南京、w6,7d=大桥;
hbc表示第b个字的LSTM cell的输出;
其他变量解释同上。
可以发现词LSTM细胞中没有o(output gate),这是因为词LSTM之间没有联系,每个词LSTM的细胞状态都传给该词最后一个字的字LSTM细胞。
词与字的关联
整体图中每个字细胞都有两种类型的输入,黑色线表示从前一个字传过来的细胞状态,绿色线表示从以该字结尾的所有词传过来的细胞状态,不同的输入采用加权平均的方法传入,所以cjc不仅包含与第j个字符有关的信息,还包含以第j个字符结尾的词的信息,具体如式(15)(16):
cjc=b∈{b′∣wb′,jd∈D}∑αb,jc⊙cb,jw+αjc⊙cjc(15)
其中:
αb,jc=exp(ijc)+∑b∈{b′∣wb′,jd∈D}exp(ib′,jc)exp(ib,jc)αjc=exp(ijc)+∑b∈{b′∣wb′,jd∈D}exp(ib′,jc)exp(ijc)(16)
举个例子,对于c7c,包含了x7c(桥)、c6,7w(大桥)、c4,7w(长江大桥)的信息,所以:
c7c=α6,7c⊙c6,7c+α4,7c⊙c4,7c+α7c⊙c7c
其中:
α6,7c=exp(i7c)+exp(i6,7c)+exp(i4,7c)exp(i6,7c)α4,7c=exp(i7c)+exp(i6,7c)+exp(i4,7c)exp(i4,7c)α7c=exp(i7c)+exp(i6,7c)+exp(i4,7c)exp(i7c)