天池NLP新闻文本分类学习赛心得-Task2

天池NLP新闻文本分类学习赛心得-Task2

赛题链接:https://tianchi.aliyun.com/competition/entrance/531810/introduction

今天按照昨天的存储方法后,再次读取数据相比昨天耗时就小的多了,并对文本数据进行初步处理及分析。

先来探究每条文本长度分布如何:
天池NLP新闻文本分类学习赛心得-Task2
天池NLP新闻文本分类学习赛心得-Task2

可以看到总共统计了20w条文本数据记录,其中最长的有57921个字符,最短的只有两个字符,字符长度基本上都在1500个左右。

下面在来看看哪种类型的新闻文本最多:
天池NLP新闻文本分类学习赛心得-Task2
由下面的label对应的类型可以容易地知道,科技类新闻最多,其次是股票类。

所有新闻中出现最多的字符是什么?
天池NLP新闻文本分类学习赛心得-Task2
在整个数据集中,所有文本是由6869中字符按照规律构成,其中3750字符出现次数最多,有可能为标点符号,而3133字符只出现了一次,可能是某星座类型新闻的特征字符。

从而可以推测出来,每个文本大概由几个句子构成,平均值为多少:
天池NLP新闻文本分类学习赛心得-Task2
从上图知道,每篇新闻平均由80个句子构成。而那只有一个句子的新闻可能就是前面的得出的两个字符构成的文本。

总结

通过昨天和今天对赛题数据的初步理解和分析,把握新闻文本的特征,给之后的模型构建中提供一定的帮助,剔除无关字符,特征有效字符。