您的位置: 首页 > 文章 > 零基础入门NLP之新闻分类

零基础入门NLP之新闻分类

分类: 文章 • 2024-10-26 15:25:40

数据分析

对赛题有一个大致了解之后接下来就是数据分析过程
使用pandas读取训练数据和测试数据
训练数据一共20W条，由label和text两列构成，label是其所属类别，text由其文本进行脱敏处理后得到的数字构成
接下来统计句子的长度
可以看出最短句子仅两个单词构成，最长句子由55757个单词构成，大部分句子由1000左右单词组成
接下来看一下类别分布情况
类别分布不均衡，最少类与最多类之间差距过大
统计新闻中单词出现频次
可以看出出现最多的为3750,900,648，几乎在每一条新闻中都出现，这里推测其为标点符号
接下来看看每一个标签对应单词出现频次- 这里没有去除三个被认为是标点符号的部分，但打印了每一标签前10出现频次的单词，大致能看出一些标签有着专属对应单词
以上便是简单的数据分析过程，大致了解了文本中单词的出现频次以及标签中单词的出现频次