深入了解中文标点预测算法（二）

一些研究成果介绍
1、Punctuation Prediction for Unsegmented Transcript Based on Word Vector
这篇为每一个词打标签，这个标签代表这个词后的标点符号类型。如下图所示，输入用5个词来预测5个词中间那个词的标点符号类型，使用了GloVe词向量进行词嵌入。

深入了解中文标点预测算法（二）

作者运用了两个CNN模型分别是CNN-1和CNN-2。一个是一维卷积，一个二维卷积。
深入了解中文标点预测算法（二）
2、Distilling Knowledge from an Ensemble of Models for Punctuation Prediction
这篇用DNN,T-BRNN,BLSTM+CRF 的集成作为Teacher model，普通的DNN作为Student model 来进行知识蒸馏。模型结构如下：

3、Self-Attention Based Network for Punctuation Restoration

这篇使用了生成式的方法，基于Transformer进行预测。结构与Transformer非常相似，仅在decoder输出层部分有改动。decoder的时候先判断Label softmax的结果。如果Label softmax的结果是’O’，则将输入的词复制到输出序列。如果不是’O’，就将当前预测出的label填入输出序列。
深入了解中文标点预测算法（二）
在IWSLT的ref测试集上结果如下，asr测试集结果作者没有给出。作者在 AI challenger 数据集上尝试了多标点预测，有兴趣的可以看论文。

参考链接：https://www.zhihu.com/question/263726115/answer/455680235

深入了解中文标点预测算法（二）

相关推荐