李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding

Word Embedding

  1. word表示方法:
    (1)如果对word embedding用one hot编码方式来表示,难以表示word之间的关系;
    (2)但是如果用word class的话,太过粗糙;
    (3)所以用word embedding来表示,机器阅读大量无监督的文章来学习单词的含义;word的含义可以由上下文所学习理解;
  2. 如何从上下文中探索word的含义?
    (1)如果两个word之间同时出现的次数越多,两者之间就越相近。
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding
    (2)Prediction based 方法:收集一大堆数据,根据上下文来预测下一个将要出现的word。
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding
    word的embedding结果,可以将word的one hot向量输入神经网络之前进行embedding,通过训练得到每个word的embedding结果。
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding
    (3)在预测时,可以观察前n个单词,但是在输入到embedding层时,共享weight,保证网络的课拓展性。
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding
  3. 基于预测的word embedding的不同架构:
    (1)CBOW(Continuous bag of word model):预测中间的词汇
    (2)Skip-gram:通过中间的词汇,预测两边的词汇
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding
  4. Document Embedding:将文章embedding,因为文章的长度不同,可以用Bag-of-word(每一项表示对应词汇出现的数目)来表示一篇文章;但是这种方式是不够的,文章中词的顺序对文章所表示的含义有着重要的作用。
    李宏毅机器学习——学习笔记(13) Unsupervised Learning-Word Embedding