2018达观杯文本智能处理竞赛复盘打榜(一)

【任务1 - 数据初识】时长:1天

首先我们下载数据
导入pandas包

import pandas as pd 
from sklearn.model_selection import train_test_split

设置路径,导入数据

root_path = 'D:/CS/datawhale/new_data' 
train = pd.read_csv('%s/%s' % (root_path, 'train_set.csv')) 
train.head()

可以看到数据共分为“id”、“article”、“word_seg”、“class”这四个字段。
2018达观杯文本智能处理竞赛复盘打榜(一)
看一下概要信息

train.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 102277 entries, 0 to 102276
Data columns (total 4 columns):
id          102277 non-null int64
article     102277 non-null object
word_seg    102277 non-null object
class       102277 non-null int64
dtypes: int64(2), object(2)
memory usage: 3.1+ MB

可以看出,数据没有缺失值。
将训练集拆分为训练集和验证集,按8:2划分

x= train.drop(['class'],axis=1) 
y=train['class'] 
x_train,x_test,y_train,y_test =train_test_split(x,y,test_size=0.2,random_state=0) 
print(len(x_train))
print(len(y_test))

训练集和验证集的数量:
81821
20456

小白刚开始学,第一天就这样啦。