汉字字符特征提取器，提取发音特征、字形特征用做深度学习的特征

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程公众号：datayx

在深度学习中，很多场合需要提取汉字的特征（发音特征、字形特征）。本项目提供了一个通用的字符特征提取框架，并内建了 拼音、字形（四角编码）和 部首拆解 的特征。

特征提取器

拼音特征提取器：提取汉字的拼音作为特征，发音相似的字在编码上应该相似。示例：胡 -> hú，福 -> fú
字形（四角编码）提取器：提取中文的外形作为特征，相似的汉字在编码上应该相近。示例：门 -> 37001，闩 -> 37101
部首拆解提取器：提取汉字的偏旁部首拆解作为特征，相似的汉字在编码上应该相近。示例：闩 -> ['门', '一']，闫 -> ['门', '三']

项目下载地址

关注微信公众号 datayx 然后回复汉字即可获取。

AI项目体验地址 https://loveai.tech

from hanzi_char_featurizer import Featurizor
featurizor = Featurizor()
result = featurizor.featurize('明天')

print(result)

输出

([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],

('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),

('0', '4'))

汉字字符特征提取器，提取发音特征、字形特征用做深度学习的特征

汉字字符特征提取器，提取发音特征、字形特征用做深度学习的特征

阅读过本文的人还看了以下：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

汉字字符特征提取器，提取发音特征、字形特征用做深度学习的特征

长按图片，识别二维码，点关注

AI项目体验

https://loveai.tech

汉字字符特征提取器，提取发音特征、字形特征用做深度学习的特征