零基础入门NLP之新闻分类
数据分析
- 对赛题有一个大致了解之后接下来就是数据分析过程
- 使用pandas读取训练数据和测试数据
- 训练数据一共20W条,由label和text两列构成,label是其所属类别,text由其文本进行脱敏处理后得到的数字构成
- 接下来统计句子的长度
- 可以看出最短句子仅两个单词构成,最长句子由55757个单词构成,大部分句子由1000左右单词组成
- 接下来看一下类别分布情况
- 类别分布不均衡,最少类与最多类之间差距过大
- 统计新闻中单词出现频次
- 可以看出出现最多的为3750,900,648,几乎在每一条新闻中都出现,这里推测其为标点符号
- 接下来看看每一个标签对应单词出现频次
- 这里没有去除三个被认为是标点符号的部分,但打印了每一标签前10出现频次的单词,大致能看出一些标签有着专属对应单词
- 以上便是简单的数据分析过程,大致了解了文本中单词的出现频次以及标签中单词的出现频次