CS224n学习笔记 12_Word Vectors and Word Senses
CS224n学习笔记 12
Human language sounds: Phonetics and phonology
Phonetics 语音学是一种音流——物理学或生物学。 Phonology 语音体系假定了一组或多组独特的、分类的单元:phoneme音素或者是独特的特征;这也许是一种普遍的类型学,但却是一种特殊的语言实现。
Character-Level Models
词嵌入可以由字符嵌入组成
- 为未知单词生成嵌入
- 相似的拼写共享相似的嵌入
- 解决OOV问题
连续语言可以作为字符处理:即所有的语言处理均建立在字符序列上,不考虑 word-level
Below the word: Writing systems
大多数深度学习NLP的工作都是从语言的书面形式开始的——这是一种容易处理的、现成的数据
但是人类语言书写系统不是一回事!各种语言的字符是不同的!
Purely character-level models
Purely character-level NMT models
- 以字符作为输入和输出的机器翻译系统
- 最初,效果不令人满意 (Vilaret al., 2007; Neubiget al., 2013)
- 只有decoder(成功的)(JunyoungChung, KyunghyunCho, YoshuaBengio. arXiv 2016)
- 然后有前景的结果
- (Wang Ling, Isabel Trancoso, Chris Dyer, Alan Black, arXiv 2015)
- (Thang Luong, Christopher Manning, ACL 2016)
- (Marta R. Costa-Jussà, José A. R. Fonollosa, ACL 2016)
Fully Character-Level Neural Machine Translation without Explicit Segmentation
Jason Lee, KyunghyunCho, Thomas Hoffmann. 2017.
编码器结构如下图所示,而解码器是一个字符级的GRU:
Sub-word models: two trends
Character-Level model大体可以分为两个趋势:一种是与word-level model相同的架构
但是使用更小的单元——word pieces,只不过是输入不同,另一种是hybrid模型,主模型使用word-level model,其他模型使用character-level model。
Byte Pair Encoding
- 有一个目标词汇量,当你达到它的时候就停止
- 做确定性的最长分词分割 分割只在某些先前标记器(通常MT使用的 Moses tokenizer)标识的单词中进行
- 自动为系统添加词汇 不再是基于传统方式的 strongly “word”
- 2016年WMT排名第第一,仍然广泛应用于2018年WMT
Character-Aware Neural Language Models
Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. 2015
- 一个更复杂/精密的方法
- 动机
- 派生一个强大的、健壮的语言模型,该模型在多种语言中都有效
- 编码子单词关联性:eventful, eventfully, uneventful…
- 解决现有模型的罕见字问题
- 用更少的参数获得可比较的表达性
模型结构如下:
Hybrid NMT
- Abest-of-both-worlds architecture
- 翻译大部分是单词级别的
- 只在需要的时候进入字符级别
- 使用一个复制机制,试图填充罕见的单词,产生了超过 2 BLEU的改进
结构如下图所示: