深入了解中文标点预测算法(二)

一些研究成果介绍
1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector
这篇为每一个词打标签,这个标签代表这个词后的标点符号类型。如下图所示,输入用5个词来预测5个词中间那个词的标点符号类型,使用了GloVe词向量进行词嵌入。

深入了解中文标点预测算法(二)

作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积,一个二维卷积。
深入了解中文标点预测算法(二)
2、Distilling Knowledge from an Ensemble of Models for Punctuation Prediction
这篇用DNN,T-BRNN,BLSTM+CRF 的集成作为Teacher model,普通的DNN作为Student model 来进行知识蒸馏。模型结构如下:
深入了解中文标点预测算法(二)
3、Self-Attention Based Network for Punctuation Restoration

这篇使用了生成式的方法,基于Transformer进行预测。结构与Transformer非常相似,仅在decoder输出层部分有改动。decoder的时候 先判断Label softmax的结果。如果Label softmax的结果是’O’,则将输入的词复制到输出序列。如果不是’O’,就将当前预测出的label填入输出序列。
深入了解中文标点预测算法(二)
在IWSLT的ref测试集上结果如下,asr测试集结果作者没有给出。作者在 AI challenger 数据集上尝试了多标点预测,有兴趣的可以看论文。
深入了解中文标点预测算法(二)

参考链接:https://www.zhihu.com/question/263726115/answer/455680235