数据分析

由赛题题目得知，赛题数据中每行句子的字符使用空格进行隔开，所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据，其中数据最长的句子有57921个单词，数据最短的句子仅有2个单词。
画出直方图如下，可以看到大多句子数据在1500~3000左右

由于内存无法支持全部数据的查看，只查看了前1000个数据。
从统计结果可以看出，目前编号为3750的字出现的次数最多，这个编号所对应的字很可能是对分类无意义的字，比如你，我，他，的，了甚至是标点符号等等。可以适当降低其权重或者删去。

自然语言处理实践（新闻文本分类）——task02