【笔记】蚂蚁金服公开基于笔画的中文词向量算法
案例来源:@安和林
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 背景:word2vec技术考虑的是英文文本,单个英文字母不包含语义,而中文由笔画组成,笔画顺序已经包含了语义信息,如“笔”字由“竹字头”和“毛”两个部分组成
2. 目标:将中文笔画包含的信息也纳入word2vec中,得到更好的中文词向量表示
3. 过程:
1)将中文词语分解为笔画,然后用滑动窗口的方式将笔画映射到数字编号(图中窗口为3、4、5)
2)定义相似性函数,q为n元笔画向量,c为上下文词语的词向量(注意这里上下文不拆解笔画)
3)定义基于n元笔画的损失函数
4. 示例:如图,以“治理雾霾刻不容缓”为例,将“雾霾”分解为黄色部分的n元笔画,上下文为“治理
”与“刻不容缓”的词向量。计算每一个n元笔画和上下文词语的相似度,然后根据定义的损失函数更新上下文的词向量和n元笔画向量
5. 结果:在中文语料数据集中,在命名实体识别、文本分类等任务中较业界几个优秀的词向量算法效果更好