自然语言处理实践(新闻文本分类)——task02

数据分析

句子长度分析

  1. 由赛题题目得知,赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据,其中数据最长的句子有57921个单词,数据最短的句子仅有2个单词。
    自然语言处理实践(新闻文本分类)——task02
  2. 画出直方图如下,可以看到大多句子数据在1500~3000左右
    自然语言处理实践(新闻文本分类)——task02

新闻类别分布

  1. 统计每类新闻的样本个数,画出直方图
    自然语言处理实践(新闻文本分类)——task02
    可以0标签的新闻数量最多,根据标签数字的大小依次递减,可以看出该数据集分布不均匀。

字符分布统计

  1. 统计整个数据集中每个字符所出现的次数。
    自然语言处理实践(新闻文本分类)——task02

由于内存无法支持全部数据的查看,只查看了前1000个数据。
从统计结果可以看出,目前编号为3750的字出现的次数最多,这个编号所对应的字很可能是对分类无意义的字,比如你,我,他,的,了甚至是标点符号等等。可以适当降低其权重或者删去。

数据分析

  1. 每个新闻长度不一,大部分为1500~3000字符,少数极多或极少字符。
  2. 新闻类别分布不均匀,编号为0的新闻样本量较多,而编号13的新闻样本量较少,两类新闻数量差距较大。
  3. 新闻平均字符较多,可能需要截断。
  4. 类别不均衡,需要调整模型,针对性的降低权值和增大权值。