达观杯”文本智能处理挑战赛——数据预处理

一、数据竞赛简介

“达观杯”文本智能处理挑战赛

１、任务
建立模型通过长文本数据正文(article)，预测文本对应的类别(class)
达观杯比赛链接：http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html“达观杯”文本智能处理挑战赛&cmptId=229

２、数据

数据包含2个csv文件：

train_set.csv：此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：
第一列是文章的索引(id)，
第二列是文章正文在“字”级别上的表示，即字符相隔正文(article)；
第三列是在“词”级别上的表示，即词语相隔正文(word_seg)；
第四列是这篇文章的标注(class)。
注：每一个数字对应一个“字”，或“词”，或“标点符号”。“字”的编号与“词”的编号是独立的！
test_set.csv：此数据用于测试。数据格式同train_set.csv，但不包含class。
注：test_set与train_test中文章id的编号是独立的。

３、评分标准
评分算法：binary-classification
达观杯”文本智能处理挑战赛——数据预处理
采用各个品类F1指标的算术平均值，它是Precision 和 Recall 的调和平均数。

二、下载数据与读取数据

1.数据下载
http://www.dcjingsai.com/common/cmpt/“达观杯”文本智能处理挑战赛_赛体与数据.html
下载后会得到一个压缩包，训练集和测试集数据均在里面.

2.读取数据
达观杯”文本智能处理挑战赛——数据预处理由结果可知，数据集就只有“id”，“article”，“word_seg”，“class”等四个属性，其中特征就是“article”，和“word_reg” 。
文章分别在“字”和“词”的级别上做了脱敏处理。
3.分析数据
达观杯”文本智能处理挑战赛——数据预处理

由结果可以看到训练集有102277条数据，文本分类共19类，没有严重的类别不均，而且训练集没有缺少值，不需要对数据进行填充处理。

4.数据处理
达观杯”文本智能处理挑战赛——数据预处理

最后，对数据进行拆分，训练集与测试集占比为7：3

达观杯”文本智能处理挑战赛——数据预处理

一、数据竞赛简介

二、下载数据与读取数据

相关推荐