统计学基础-数据的图表展示
理论基础:
- 什么是统计学?
统计学分为描述统计和推理统计
- 统计学研究什么?
统计学没有固定的研究对象,统计学研究的是来自各个领域的数据,靠解决其他领域内的工作而生存,我们并不能因此就看轻统计学,就好像计算机现在渗透在各行各业、我们生活中的方方面面,计算机也是为了应用而生的。在很多领域,如果没有统计学,虽然不会死亡但是一定会变的很弱。统计学在各个学科领域的独特地位和作用表明了统计作为一门独立学科而具有的特点。
- 统计学的定位
数据分析的真正的目的是从数据中找出结论、从数据中寻找启发,而不是寻找支持。真正的数据分析事先是不知道结论的,通过数据分析才得出的结论。
实践部分-数据的图表展示
计算机领域常说:数据的质量可以再很大程度上决定模型的表现,但是在我们实际的工作中几乎不可能直接得到高质量的数据,在把数据喂给算法之前有大量的数据预处理的工作。一般我们从系统中拿到数据第一个工作就是检查其完整性和准确性(异常值的检测,通常情况下会根据具体的业务需求,进行处理,常用的方法有:
- 数据清洗 —— 去噪声和无关数据
- 数据集成 —— 将多个数据源中的数据结合起来存放在一个一致的数据存储中
- 数据变换 —— 把原始数据转换成为适合数据挖掘的形式
- 数据规约 —— 主要方法包括:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
- 图说事实
- 品质数据的整理与展示(这里主要是指使用Excel简单的分析)
常用的一些功能主要有:
数据的排序和筛选:可以大概了解数据的特征,有助于对数据检查纠错。
数据的图表展示
当我们有多个维度的时候需要将数据进行分组,常用的是数据透视表
如原始数据是这样的:
当我们想要查看每个部门有多少人数时,可以选择插入数据透视表 轻松拖拽就可以很好的展示,插入数据透视表后的效果:
数据透视表具有很强大的功能,操作也比较简单 可以满足我们常用的,求和、计数、平均值、最大(小)值、乘积、方差、标准偏差等等的数据分析功能。这里只是简单的介绍一下,具体的教程还需要各位看官自行百度哈!!!