CS224n学习笔记 12_Word Vectors and Word Senses

CS224n学习笔记 12

Human language sounds: Phonetics and phonology

Character-Level Models
Below the word: Writing systems

Purely character-level models

Purely character-level NMT models
Fully Character-Level Neural Machine Translation without Explicit Segmentation

Sub-word models: two trends

Byte Pair Encoding
Character-Aware Neural Language Models
Hybrid NMT

Human language sounds: Phonetics and phonology

Phonetics 语音学是一种音流——物理学或生物学。 Phonology 语音体系假定了一组或多组独特的、分类的单元：phoneme音素或者是独特的特征;这也许是一种普遍的类型学，但却是一种特殊的语言实现。
CS224n学习笔记 12_Word Vectors and Word Senses

Character-Level Models

词嵌入可以由字符嵌入组成

为未知单词生成嵌入
相似的拼写共享相似的嵌入
解决OOV问题

连续语言可以作为字符处理：即所有的语言处理均建立在字符序列上，不考虑 word-level

Below the word: Writing systems

大多数深度学习NLP的工作都是从语言的书面形式开始的——这是一种容易处理的、现成的数据

但是人类语言书写系统不是一回事！各种语言的字符是不同的！

CS224n学习笔记 12_Word Vectors and Word Senses

Purely character-level models

Purely character-level NMT models

以字符作为输入和输出的机器翻译系统
最初，效果不令人满意 (Vilaret al., 2007; Neubiget al., 2013)
只有decoder（成功的）(JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016)
然后有前景的结果
- (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
- (Thang Luong, Christopher Manning, ACL 2016)
- (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)

Fully Character-Level Neural Machine Translation without Explicit Segmentation

Jason Lee, KyunghyunCho, Thomas Hoffmann. 2017.

编码器结构如下图所示，而解码器是一个字符级的GRU：
CS224n学习笔记 12_Word Vectors and Word Senses

Sub-word models: two trends

Character-Level model大体可以分为两个趋势：一种是与word-level model相同的架构
但是使用更小的单元——word pieces，只不过是输入不同，另一种是hybrid模型，主模型使用word-level model，其他模型使用character-level model。