达观杯”文本智能处理挑战赛——数据预处理

一、数据竞赛简介

“达观杯”文本智能处理挑战赛

1、任务
建立模型通过长文本数据正文(article),预测文本对应的类别(class)
达观杯比赛链接:http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html“达观杯”文本智能处理挑战赛&cmptId=229

2、数据

数据包含2个csv文件:

train_set.csv:此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列:
第一列是文章的索引(id),
第二列是文章正文在“字”级别上的表示,即字符相隔正文(article);
第三列是在“词”级别上的表示,即词语相隔正文(word_seg);
第四列是这篇文章的标注(class)。
注:每一个数字对应一个“字”,或“词”,或“标点符号”。“字”的编号与“词”的编号是独立的!
test_set.csv:此数据用于测试。数据格式同train_set.csv,但不包含class。
注:test_set与train_test中文章id的编号是独立的。

3、评分标准
评分算法:binary-classification
达观杯”文本智能处理挑战赛——数据预处理
采用各个品类F1指标的算术平均值,它是Precision 和 Recall 的调和平均数。

二、下载数据与读取数据

1.数据下载
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html
下载后会得到一个压缩包,训练集和测试集数据均在里面.

2.读取数据
达观杯”文本智能处理挑战赛——数据预处理由结果可知,数据集就只有“id”,“article”,“word_seg”,“class”等四个属性,其中特征就是“article”,和“word_reg” 。
文章分别在“字”和“词”的级别上做了脱敏处理。
3.分析数据
达观杯”文本智能处理挑战赛——数据预处理
达观杯”文本智能处理挑战赛——数据预处理
由结果可以看到训练集有102277条数据,文本分类共19类,没有严重的类别不均,而且训练集没有缺少值,不需要对数据进行填充处理。

4.数据处理
达观杯”文本智能处理挑战赛——数据预处理
达观杯”文本智能处理挑战赛——数据预处理
最后,对数据进行拆分,训练集与测试集占比为7:3
达观杯”文本智能处理挑战赛——数据预处理