竞赛描述

competition link:link

任务简述：建立模型通过长文本数据正文，预测文本类型
评分指标：F1-score

任务规划

Date one:读取数据、简要的数据分析、划分训练数据

1.读取数据

因数据量太大，所以仅读取前5000行数据做分析；

import pandas as pd
pd_train = pd.read_csv('D:/NLP_datasets/daguan/new_data/train_set.csv',nrows=5000)
pd_train.head()

达观杯文本竞赛项目--文本智能处理(date1)
训练集数据包含四列：id（文本索引编号），article（文本在字级别的表示），word_seg（文本在词级别的划分），class（文本分类）；此外，大赛提供数据作了脱敏处理，故文章呈现形式为数字
测试集数据包含三列：id,article,word_seg

2.数据初分析

查看数据是否有空缺值

pd_train.isnull().any()##是否有空缺值

达观杯文本竞赛项目--文本智能处理(date1)
检测前5000个数据的类别分布情况

pd_train['class'].value_counts(ascending=True) ##检测前5000组数据样本类别的分布情况

达观杯文本竞赛项目--文本智能处理(date1)

3.训练集样本划分

采用sklearn库的train_test_split函数

x = pd_train[['article','word_seg']]
y = pd_train['class']
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=42)
x_train.shape,x_test.shape,y_train.shape,y_test.shape

达观杯文本竞赛项目--文本智能处理(date1)

达观杯文本竞赛项目--文本智能处理(date1)

达观杯文本竞赛

竞赛描述

任务规划

Date one:读取数据、简要的数据分析、划分训练数据

1.读取数据

2.数据初分析

3.训练集样本划分

相关推荐