某C9高校研究生学位申请公示网站信息分析(2)——数据处理及可视化【Excel】
上一篇博客讲解了网站数据的获取:某C9高校研究生学位申请公示网站信息分析(1)——Python数据爬取
文章目录
一、提出问题
本次春季学位申请中:
- 多少人申请了学位
- 硕士博士各有多少人
- 入学年份及学习年限
- 申请人的学习类型分布情况怎么样
- 各院系情况
- 申请专业/工程领域分布情况
- 论文中热门研究方向的情况
二、获取并理解数据
已经获取了数据信息,如下图:学号解读:
前两个字母代表培养类型
第3位和第4位组成入学年份
第5位到第8位组成院(系)代码
第9位到第11位是序号
所在院系解读:
前3位组成院(系)代码,剩余部分是院(系)名称
获取学号中字母对应的培养类型(学号说明)
这里,我将用Excel、Power BI、python三种工具进行数据清洗和可视化展示,在后续的博客中会逐个分析
A、Excel部分[简单粗暴、但是繁琐]
三、数据清洗
先将csv另存为xlsx
1、空值查找:
查找结果:无空值
2、重复值查找与删除:
查找结果:无重复
3、数据拆分:
进行学号、姓名、院系的拆分
4、列名重命名、数据类型转换、删除冗余数据
这里入学年份都为2000年以后,所以自定义类型为2000;院系代码和序号自定义为000
5、建模前处理:
1、VLOOKUP查找学习类型
2、处理由于编码问题造成的姓名中乱码(实际上是因为出现了偏僻字),由于错误不多,这里只有回原网页查找修改。
3、新建列:研究生层次,函数 =IF(ISNUMBER(FIND(“硕士”,C2)),“硕士”,“博士”)
4、新建列:学习年限,函数 =2020-E2
最终结果如下:
四、建模及数据可视化
这里直接选用 数据透视表!!
1、研究生层次及培养类型图表
解决问题:
2. 全校及各院系硕士博士申请规模
4. 申请人的学习类型分布情况
结论:
此次学位申请中,硕士占绝对比例,申请人数为323人,占比为95%,博士仅18人。各院系单独的硕博情况可以根据筛选器查看。各培养类型的学位申请情况如右图,涉及培养类型9种,其中普通硕士生265人,占比78%。
2、各学院各专业申请规模
- 申请学位规模总数
- 各院系、专业、入学年份的硕士博士规模
- 申请人的学习类型分布规模
- 各院系情况
- 申请专业/工程领域分布情况
3、各学历层次及培养类型申请规模
- 硕士博士规模
- 入学年份及学习年限
- 申请人的学习类型分布情况怎么样
- 各院系情况
4、学习年限分析
从数据可以看出,此次学位申请中,博士申请人中有1人长达13年博士学习年限,主要年限为4~5年。硕士中绝大多数学习年限为3年,MBA、MPA硕士生普遍有较长的学习年限,对于普通硕士生,有5人学习年限长达5年。
4、Excel数据分析及可视化的不足
频数统计相对麻烦、操作过程繁琐、图表交互感不强、可视化效果有待增强。
下一部分我将使用Power BI进行分析,我们将看到非常丰富的可视化效果
B、Power BI部分[优秀的可视化及交互效果]
下一部分我将使用Power BI进行分析,我们将看到非常丰富的可视化效果
见下一篇博客