达观杯文本竞赛项目--文本智能处理(date1)

竞赛描述

competition link:link

任务简述:建立模型通过长文本数据正文,预测文本类型
评分指标:F1-score

任务规划

Date one:读取数据、简要的数据分析、划分训练数据

1.读取数据

因数据量太大,所以仅读取前5000行数据做分析;

import pandas as pd
pd_train = pd.read_csv('D:/NLP_datasets/daguan/new_data/train_set.csv',nrows=5000)
pd_train.head()

达观杯文本竞赛项目--文本智能处理(date1)
训练集数据包含四列:id(文本索引编号),article(文本在字级别的表示),word_seg(文本在词级别的划分),class(文本分类);此外,大赛提供数据作了脱敏处理,故文章呈现形式为数字
测试集数据包含三列:id,article,word_seg

2.数据初分析

查看数据是否有空缺值

pd_train.isnull().any()##是否有空缺值

达观杯文本竞赛项目--文本智能处理(date1)
检测前5000个数据的类别分布情况

pd_train['class'].value_counts(ascending=True) ##检测前5000组数据样本类别的分布情况

达观杯文本竞赛项目--文本智能处理(date1)

3.训练集样本划分

采用sklearn库的train_test_split函数

x = pd_train[['article','word_seg']]
y = pd_train['class']
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=42)
x_train.shape,x_test.shape,y_train.shape,y_test.shape

达观杯文本竞赛项目--文本智能处理(date1)