CS224d-Lecture8

Language Model

probability of a sequence of words

P(w1, w2, …, wT)

Useful for machine learning:

word - ordering

p(the cat is small) > p(small the is cat)

word - choice

p(walking home after school) > p(walking house after school)

Traditional Language Model

条件概率，其中 window size = n

assumption

P (w 1, w 2, . . ., w T) = \prod i = 1 m P (w i | w 1, w i - 1) \approx \prod i = 1 m P (w i | w 1, w i - 1)

n-gram

unigram p(w2|w1)=count(w1,w2)count(w1)
bigram p(w3|w1,w2)=count(w1,w2,w3)count(w1,w2)
n-gram 耗费大量内存

RNN

每步权重互联
条件依赖于之前所有单词
RAM 耗费只同单词量相关

ht=σ(Whhht−1+Whxxt)
y^t=softmax(Wsht)

训练 RNN is hard

vanishing / exploding gradient problem

total error

\partial E \partial W = \sum t = 1 T \partial E t \partial W

\partial E t \partial W = \sum k = 1 T \partial E t \partial y t \cdot \partial y t \partial h t \cdot \partial h t \partial h k \cdot \partial h k \partial W

其中

\partial h t \partial h k = \prod j = k + 1 t \partial h j \partial h j - 1

故

由于取

h t = W f (h t - 1) + W (h x) x [t]

则

\partial h t \partial h k = \prod j = k + 1 t \partial h j \partial h j - 1 = \prod j = k + 1 t W T d i a g (f' (h j - 1))

| | \partial h j \partial h j - 1 | | < = | | W T | | \cdot | | d i a g (f' (h j - 1) | | < = β W β h

| | \partial h t \partial h k | | = | | \prod j = k + 1 t \partial h j \partial h j - 1 | | < = (β W β h) t - k

可能非常快的就变得很大或者很小。

vanishing gradient problem 使得许多步之前的对当前训练的影响微乎其微

exploding gradient clip gradient

vanishing gradient -> Initialization + ReLus

softmax is huge and slow

class based trick

双向 RNN

之前和之后的训练词对当前训练都有影响

深度双向 RNN

F1 度量

precision = tp/(tp+fp)
recall = tp/(tp+fn)
F1 = 2(precision recall)/(precsion + recall)

Language Model

probability of a sequence of words

Useful for machine learning:

word - ordering

word - choice

Traditional Language Model

assumption

n-gram

RNN

训练 RNN is hard

vanishing / exploding gradient problem

vanishing gradient problem 使得许多步之前的对当前训练的影响微乎其微

exploding gradient clip gradient

vanishing gradient -> Initialization + ReLus

softmax is huge and slow

双向 RNN

深度双向 RNN

F1 度量

相关推荐