datawheel nlp入门之新闻文本分类task1
目的:对新闻文本进行分类。
1. 评测指标:F1-score得分
在引入f1-score得分前,先引入混淆矩阵的概念:
真阳性:True Positive 预测为正时,实际为正。
假阳性:False Posivtive 预测为正时,实际为反。
假阴性:False Negative 预测为反时、实际为正。
真阴性:True Negative 预测为反时、实际为反。
可得
精准率presion
精确率描述的是有多少被分类正确的,针对预测样本而言。
召回率recall
召回率是有多少样本被正确的预测了出来,针对实际样本而言。
二者是一个相矛盾的过程。一个是查的准,一个是查的全。对于二者,应区分在不同的情况下,侧重什么。
而F1-score得分:则是他们的调和平均数。
Fβ是加权调和平均:
而当β>1时,recall值有更大影响,β<1时,presion值更有影响。
roc曲线和auc。
2. TF-IDF + 机器学习分类器
tf-idf是一种词频统计方法。常用于挖掘文章中的关键词。
而将其拆开,其中TF(term frequency)词频,IDF(inverse Document Frequency)逆文档频率。
TF-IDF算法步骤:
a. 计算词频
因为文章有长短之分,所以将其标准化,更有利于不同文章之间的比较
b. 计算逆文档频率:
(需要语料库,用来模拟语言的使用环境)
c. 计算TF-IDF
优点:简单快速、容易理解。
缺点:用词频来衡量文章中的一个词的重要性不够全面。无法体现位置信息,不能体现在上下文中的重要性。
如果要体现词的上下文结构,可以使用word2vec算法。
3.WordVec + 深度学习分类器
word2vec:从大量文本语料中以无监督的方式学习语义知识的一种模型。本质就是通过学习文本来用词向量的方式表示词的语义信息。即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。
Embedding:映射。将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。
word2vec模型中,主要有skip-gram和cbow模型。
skip-gram:给定input word来预测上下文。
cbow:给定上下文,来预测input word。
第一部分为建立模型。先基于训练数据构建神经网络。
第二部分是通过模型获取嵌入词向量。