李宏毅机器学习——学习笔记（13） Unsupervised Learning-Word Embedding

Word Embedding

word表示方法：
（1）如果对word embedding用one hot编码方式来表示，难以表示word之间的关系；
（2）但是如果用word class的话，太过粗糙；
（3）所以用word embedding来表示，机器阅读大量无监督的文章来学习单词的含义；word的含义可以由上下文所学习理解；
如何从上下文中探索word的含义？
（1）如果两个word之间同时出现的次数越多，两者之间就越相近。

（2）Prediction based 方法：收集一大堆数据，根据上下文来预测下一个将要出现的word。

word的embedding结果，可以将word的one hot向量输入神经网络之前进行embedding，通过训练得到每个word的embedding结果。

（3）在预测时，可以观察前n个单词，但是在输入到embedding层时，共享weight，保证网络的课拓展性。
基于预测的word embedding的不同架构：
（1）CBOW（Continuous bag of word model）：预测中间的词汇
（2）Skip-gram：通过中间的词汇，预测两边的词汇
Document Embedding：将文章embedding，因为文章的长度不同，可以用Bag-of-word（每一项表示对应词汇出现的数目）来表示一篇文章；但是这种方式是不够的，文章中词的顺序对文章所表示的含义有着重要的作用。