零基础入门NLP之新闻分类

数据分析

  • 对赛题有一个大致了解之后接下来就是数据分析过程
  • 使用pandas读取训练数据和测试数据
    零基础入门NLP之新闻分类
  • 训练数据一共20W条,由label和text两列构成,label是其所属类别,text由其文本进行脱敏处理后得到的数字构成
  • 接下来统计句子的长度
    零基础入门NLP之新闻分类
  • 可以看出最短句子仅两个单词构成,最长句子由55757个单词构成,大部分句子由1000左右单词组成
  • 接下来看一下类别分布情况
    零基础入门NLP之新闻分类
  • 类别分布不均衡,最少类与最多类之间差距过大
  • 统计新闻中单词出现频次零基础入门NLP之新闻分类
  • 可以看出出现最多的为3750,900,648,几乎在每一条新闻中都出现,这里推测其为标点符号
  • 接下来看看每一个标签对应单词出现频次零基础入门NLP之新闻分类- 这里没有去除三个被认为是标点符号的部分,但打印了每一标签前10出现频次的单词,大致能看出一些标签有着专属对应单词
  • 以上便是简单的数据分析过程,大致了解了文本中单词的出现频次以及标签中单词的出现频次