Power BI批量获取网页数据——阳光高考全国高校基础数据分析(2)
上一篇文章我们已经分析里如何批量获取网页数据:https://blog.****.net/yeyuanxiaoxin/article/details/104572589
这里,我们想对获得的全国高校基础数据进行数据清洗与建模、数据分析和可视化。
9、如果没有完成建模关联,这里点击建模页面进行“管理关系”操作,使得两表关联
首先看一下从网页获得的源数据结构:
这里数据相对干净,只需要进行简单的处理就可。
数据清洗与建模
1、提升标题:将第一行用作标题
2、更改表格名称,方便观察理解
3、提取省份信息
这里我根据文本特征判断,选择先复制表格,然后删除重复项
这里我们使得得了数字列(第一列)与所有省份信息(第二列)一一对应
4、使用删除其他列或删除列功能,删除多余信息
5、使用拆分列和替代值功能进行标题与文本内容清理与信息提取
进一步清理,提取各省高校数
备注:这里如果前面步骤无法使用删除重复值,我们也可以使用文本筛选器功能,如下:
通过特征筛选,筛选出文本中含有“所”得行,得到所有省份信息
所有数字与省份信息一一对应
6、继续处理第一张表
需要去除下面这类多余数据,这类我们就可以用文本筛选器
具体操作如下:
7、然后整理标题行方便观察和分析,重命名
8、关闭并应有编辑,查看进行建模情况
9、如果没有完成建模关联,这里点击建模页面进行“管理关系”操作,使得两表关联
到这来,数据清理就完成了。
接下来,下一篇文章我们来进行数据的可视化展示。