datawheel nlp入门之新闻文本分类task1

目的:对新闻文本进行分类。

1. 评测指标:F1-score得分

在引入f1-score得分前,先引入混淆矩阵的概念:
datawheel nlp入门之新闻文本分类task1
真阳性:True Positive 预测为正时,实际为正。
假阳性:False Posivtive 预测为正时,实际为反。
假阴性:False Negative 预测为反时、实际为正。
真阴性:True Negative 预测为反时、实际为反。
可得
精准率presion
datawheel nlp入门之新闻文本分类task1
精确率描述的是有多少被分类正确的,针对预测样本而言。
召回率recall
datawheel nlp入门之新闻文本分类task1
召回率是有多少样本被正确的预测了出来,针对实际样本而言。
二者是一个相矛盾的过程。一个是查的准,一个是查的全。对于二者,应区分在不同的情况下,侧重什么。
而F1-score得分:则是他们的调和平均数。
datawheel nlp入门之新闻文本分类task1
datawheel nlp入门之新闻文本分类task1

Fβ是加权调和平均:
datawheel nlp入门之新闻文本分类task1datawheel nlp入门之新闻文本分类task1
而当β>1时,recall值有更大影响,β<1时,presion值更有影响。

roc曲线和auc。

2. TF-IDF + 机器学习分类器

tf-idf是一种词频统计方法。常用于挖掘文章中的关键词。
而将其拆开,其中TF(term frequency)词频,IDF(inverse Document Frequency)逆文档频率。
TF-IDF算法步骤:
a. 计算词频
datawheel nlp入门之新闻文本分类task1
因为文章有长短之分,所以将其标准化,更有利于不同文章之间的比较
datawheel nlp入门之新闻文本分类task1
b. 计算逆文档频率:
(需要语料库,用来模拟语言的使用环境)
datawheel nlp入门之新闻文本分类task1
c. 计算TF-IDF
datawheel nlp入门之新闻文本分类task1
优点:简单快速、容易理解。
缺点:用词频来衡量文章中的一个词的重要性不够全面。无法体现位置信息,不能体现在上下文中的重要性。
如果要体现词的上下文结构,可以使用word2vec算法。

3.WordVec + 深度学习分类器

word2vec:从大量文本语料中以无监督的方式学习语义知识的一种模型。本质就是通过学习文本来用词向量的方式表示词的语义信息。即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。
Embedding:映射。将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
word2vec模型中,主要有skip-gram和cbow模型。
skip-gram:给定input word来预测上下文。
cbow:给定上下文,来预测input word。
datawheel nlp入门之新闻文本分类task1
第一部分为建立模型。先基于训练数据构建神经网络。
第二部分是通过模型获取嵌入词向量。

4. Bert词向量

5. FastText