汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征

汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程  公众号:datayx



在深度学习中,很多场合需要提取汉字的特征(发音特征、字形特征)。本项目提供了一个通用的字符特征提取框架,并内建了 拼音字形(四角编码) 和 部首拆解 的特征。

特征提取器

  • 拼音特征提取器:提取汉字的拼音作为特征,发音相似的字在编码上应该相似。示例: -> ->

  • 字形(四角编码)提取器:提取中文的外形作为特征,相似的汉字在编码上应该相近。示例: -> 37001 -> 37101

  • 部首拆解提取器:提取汉字的偏旁部首拆解作为特征,相似的汉字在编码上应该相近。示例: -> ['门', '一'] -> ['门', '三']






项目下载地址

关注微信公众号 datayx  然后回复 汉字  即可获取。

AI项目体验地址 https://loveai.tech



使用


from hanzi_char_featurizer import Featurizor
featurizor = Featurizor()
result = featurizor.featurize('明天')

print(result)




输出


([['m'], ['t']], [['ing'], ['ian']], [['2'], ['1']],

('6', '1'), ('7', '0'), ('0', '8'), ('2', '0'),

('0', '4'))



结构解析


汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征


输出到 TensorFlow 作为 Tensor


汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征


汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征






阅读过本文的人还看了以下:






























不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征

长按图片,识别二维码,点关注


AI项目体验

https://loveai.tech


汉字字符特征提取器 ,提取发音特征、字形特征用做深度学习的特征