datawheel nlp入门之新闻文本分类task1

目的：对新闻文本进行分类。

1. 评测指标：F1-score得分

在引入f1-score得分前，先引入混淆矩阵的概念：
datawheel nlp入门之新闻文本分类task1
真阳性：True Positive 预测为正时，实际为正。
假阳性：False Posivtive 预测为正时，实际为反。
假阴性：False Negative 预测为反时、实际为正。
真阴性：True Negative 预测为反时、实际为反。
可得
精准率presion
datawheel nlp入门之新闻文本分类task1
精确率描述的是有多少被分类正确的，针对预测样本而言。
召回率recall

召回率是有多少样本被正确的预测了出来，针对实际样本而言。
二者是一个相矛盾的过程。一个是查的准，一个是查的全。对于二者，应区分在不同的情况下，侧重什么。
而F1-score得分：则是他们的调和平均数。
datawheel nlp入门之新闻文本分类task1

Fβ是加权调和平均：
datawheel nlp入门之新闻文本分类task1
而当β>1时，recall值有更大影响，β<1时，presion值更有影响。

roc曲线和auc。

2. TF-IDF + 机器学习分类器

tf-idf是一种词频统计方法。常用于挖掘文章中的关键词。
而将其拆开，其中TF（term frequency）词频，IDF（inverse Document Frequency）逆文档频率。
TF-IDF算法步骤：
a. 计算词频
datawheel nlp入门之新闻文本分类task1
因为文章有长短之分，所以将其标准化，更有利于不同文章之间的比较

b. 计算逆文档频率：
（需要语料库，用来模拟语言的使用环境）

c. 计算TF-IDF

优点：简单快速、容易理解。
缺点：用词频来衡量文章中的一个词的重要性不够全面。无法体现位置信息，不能体现在上下文中的重要性。
如果要体现词的上下文结构，可以使用word2vec算法。

3.WordVec + 深度学习分类器

word2vec：从大量文本语料中以无监督的方式学习语义知识的一种模型。本质就是通过学习文本来用词向量的方式表示词的语义信息。即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。
Embedding：映射。将单词从原先所属的空间映射到新的多维空间中，也就是把原先词所在空间嵌入到一个新的空间中去。
word2vec模型中，主要有skip-gram和cbow模型。
skip-gram：给定input word来预测上下文。
cbow：给定上下文，来预测input word。
datawheel nlp入门之新闻文本分类task1
第一部分为建立模型。先基于训练数据构建神经网络。
第二部分是通过模型获取嵌入词向量。

datawheel nlp入门之新闻文本分类task1

1. 评测指标：F1-score得分

2. TF-IDF + 机器学习分类器

3.WordVec + 深度学习分类器

4. Bert词向量

5. FastText

datawheel nlp入门之新闻文本分类task1

1. 评测指标：F1-score得分

2. TF-IDF + 机器学习分类器

3.WordVec + 深度学习分类器

4. Bert词向量

5. FastText

相关推荐