基于BERT 的中文数据集下的命名实体识别(NER)

向AI转型的程序员都关注了这个号????????????

机器学习AI算法工程公众号：datayx

网上也有很多使用BERT的例子和教程，但是我觉得都不是很完整，有些缺乏注释对新手不太友好，有些则是问题不同修改的代码也不同，自己也在路上遇到了不少的坑。所以记录一下。

项目代码获取方式：

关注微信公众号 datayx 然后回复 命名实体 即可获取。

AI项目体验地址 https://loveai.tech

数据集

tmp 文件夹下

基于BERT 的中文数据集下的命名实体识别(NER)

如上图，对数据集进行了分割，其中source是训练集中文，target是训练集的label。

test1 测试集，test_tgt 测试集label。dev 验证集 dev-lable 验证集label。

数据格式

基于BERT 的中文数据集下的命名实体识别(NER)

注意

BERT分词器在对字符分词会遇到一些问题。

比如输入叩问澳门 =- =- =- 贺澳门回归进入倒计时，label :O O B-LOC I-LOC O O O O B-LOC I-LOC O O O O O O O

会把输入的=- 处理成两个字符，所以会导致label对应不上，需要手动处理一下。比如如下每次取第一个字符的label。其实这个问题在处理英文会遇到，WordPiece会将一个词分成若干token,所以需要手动处理（这只是一个简单处理方式）。

基于BERT 的中文数据集下的命名实体识别(NER)

其中共设置了10个类别，PAD是当句子长度未达到max_seq_length时，补充0的类别。

CLS是每个句首前加一个标志[CLS]的类别，SEP是句尾同理。（因为BERT处理句子是会在句首句尾加上这两个符号。）

代码

其实BERT需要根据具体的问题来修改相对应的代码，NER算是序列标注一类的问题，可以算分类问题吧。

然后修改的主要是run_classifier.py部分即可，我把修改下游任务后的代码放到了run_NER.py里。

代码中除了数据部分的预处理之外，还需要自己修改一下评估函数、损失函数。

训练

首先下载BERT基于中文预训练的模型（BERT官方github页面可下载），存放到BERT_BASE_DIR文件夹下，之后将数据放到NER_DIR文件夹下。即可开始训练。sh run.sh

基于BERT 的中文数据集下的命名实体识别(NER)

实验结果

基于BERT 的中文数据集下的命名实体识别(NER)

总结

其实在读了BERT的论文后，结合代码进行下游任务的微调能够理解的更深刻。

其实改造下游任务主要是把自己数据改造成它们需要的格式，然后将输出类别根据需要改一下，然后修改一下评估函数和损失函数。

如下图根据具体的下游任务修改label即可。如下图的第四个就是在NER上进行修改，

基于BERT 的中文数据集下的命名实体识别(NER)

之后会写一篇Attention is all you need 和 bert论文的详解，会结合代码来解释一下细节，比如Add & Norm是如何实现的，为什么要Add & Norm。== 感觉不用写了 bert已经火遍大街了不重复造轮子了。建议大家直接莽源代码和论文。

阅读过本文的人还看了以下文章：

不断更新资源

深度学习、机器学习、数据分析、python

搜索公众号添加： datayx

基于BERT 的中文数据集下的命名实体识别(NER)

长按图片，识别二维码，点关注

机器学习算法资源社群

不断上传电子版PDF资料

技术问题求解

QQ群号： 333972581

基于BERT 的中文数据集下的命名实体识别(NER)

长按图片，识别二维码

海淘美妆

基于BERT 的中文数据集下的命名实体识别(NER)

基于BERT 的中文数据集下的命名实体识别(NER)

数据集

注意

实验结果

总结

相关推荐