论文解读—Head-Lexicalized Bidirectional Tree LSTMs

从题目就可以明确看出，在Tree LSTMs的基础上，贡献有两点：

Head Word

（a）图是一般的Tree LSTM，（b）图是增加了中心词信息的Tree LSTM，每一个非叶子节点都附有一个中心词（用一个向量 $x_{t}$ 表示），然后，这个向量就可以被加入进去啦：

那每个 $x_{t}$ 怎么来？

这里的 $\otimes$ 符号代表逐元素相乘。 $z_{t}$ 经过**函数函数得到，所以这是一个每个元素取值范围为[0,1]的向量。等于0时， $x_{t - 1}$ 被遗忘，等于1时，被记住。从公式里可以看出，要么记住左节点，要么记住右节点，也就是相当于选择了中心词。然后一直向上传递。

我们知道，自底向上构建树时，每个叶子节点都附带了词向量，所以是可以从词向量出发一直向上计算根的Hidden Vector的，两个子节点Combine一下就得到父节点。

自顶向下时，可以看下图，根到每个叶子节点都有一条明确的路径，这条路径，可以看做是一条传统的时间序列LSTM。

那么问题来了，这里的时间序列LSTM输入是啥呢？输入就是上一步得到的非叶子节点的中心词向量以及一个叶子节点的词向量。

自底向上构建树时，会得到一个根节点的隐向量 ${\tilde{h}}_{R O O T ↑}$ 。

自顶向下时，会得到一个根节点的隐向量 ${\tilde{h}}_{R O O T ↓}$ 和多个叶子节点的隐向量 ${\tilde{h}}_{1}^{^{'}}, {\tilde{h}}_{2}^{^{'}}, \dots, {\tilde{h}}_{n}^{^{'}}$ 。

将这些向量汇总：

这里 $\oplus$ 符号表示向量拼接。

然后再来个仿射并Softmax概率化：

最后的结果就可以用来做分类任务了。