笔记-商务与经济统计 第2章 描述统计学 I:表格法和图形法
本章主要内容
一、汇总分类变量的数据
二、汇总数量变量的数据
三、用表格方法汇总两个变量的数据
四、用图形显示方法汇总两个变量的数据
五、数据可视化:创建有效图形显示的最佳实践
数据可分为
分类型:分类型数据是用标签或名称来识别项目的类型
数量型:数量型数据是表示多少或大小的数值
本章介绍的是用于汇总分类型数据和数量型数据的表格法和图形法。
一、汇总分类变量的数据
1、频数分布
定义:是一种数据的表格汇总方法,表示在几个互不重叠组别中,每一组项目的个数(即频数)。
2、相对频数分布和百分数频数分布
相对频数:组的相对频数=组的频数/n
相对频数分布:是每一组相对频数数据的表格汇总
百分数频数分布:是每一组百分数频数数据的表格汇总
3、条形图和饼形图
条形图:用来描述已汇总的分类型数据的频数分布、相对频数分布或百分数频数分步
饼形图:描绘分类型数据的相对频数和百分数频数分布的图形方法
一般地,饼形图不是呈现对比的百分比的最佳途径
二、汇总数量变量的数据
1、频数分布
对于数量型数据,确定频数分布的组时,三个必要的步骤:
1、确定互不重叠组的组数
2、确定每组的组宽
3、确定组限
组数:组是通过对数据规定范围而形成的,这个规定范围用于对数据进行分组。一般建议使用5~20个组
组宽:编制数量型数据频数分布的第二步是选择组宽,一般建议每组宽度相同,可用该表达式来确定近似的组宽。
近似组宽=(数据最大值-数据最小值)/组数
由式子算出的近似组宽,例如近似组宽为9.28,可以简单取整为10,因为10作为组宽在编制频数分布时更方便
在确定了组数和组宽后,下一步的工作就是规定每一组的组限
组限:选择组限必须使每一个数据值属于且只属于一组。下组限定义为被分到改组的最小可能的数据值,上祖限定义为被分到改组的最大可能的数据值。
组中值:(上组限+下组限)/2
开口组:是指只有一个下组限或上组限的组。XX以上或者XX以下
2、相对频数分布和百分数频数分布
组的相对频数=组频数/n
组的百分数频数=相对频数*100
3、打点图
是一种最简单的数据图形汇总方法。横轴是数据的值域,每一个数据值由位于横轴上的点表示。
4、直方图
是一种常用的数量型数据的图形描述方法。由先前已汇总出的频数分布、相对频数分布或百分数频数分布等资料可绘制直方图。
与条形图不同,直方图相邻组的长方形之间没有自然的间隔。这种形式是直方图的惯例。
四类不同偏度水平的直方图
1、左偏:图形的尾部向左延伸一些。典型应用:考试成绩,没有成绩在100%之上,大多数成绩在70%之上,只有极少数成绩很低。
2、右偏:图形的尾部向右延伸一些。例如:房屋价格,少数昂贵住宅造成右尾偏斜。
3、对称:左尾和右尾的形状相同。
4、严重右偏
5、累积分布
累积频数分布:使用频数分布的组数、组宽和组限。表示的是小于或等于每一组上限的数据项个数,而不是每一组的频数。
例:1014,1519,20~24的频数之和为4+8+5=17,表明有17个数据小于或等于24,有12个数据小于或等于19。
累积相对频数分布:累积频数/数据项总数
累积百分数频数分布:(累积频数/数据项总数)*100
6、茎叶显示
是同时用于显示数据的等级排序和分布形态的图形显示。
图中的茎叶图单位是1(叶单位可以是100,10,1,0.1),数据依次是69,68,72,73…
三、用表格方法汇总两个变量的数据
1、交叉分组表
是一种汇总两个变量数据的方法
2、辛普森悖论
合并或综合两个或两个以上的交叉分组表中的数据,生成一个汇总的交叉分组表,以显示两个变量的相关性。
在这种情况下,从两个或多个单独的交叉分组表得到的结论与一个综合的交叉分组表数据得到的结论可能截然相反。
依据综合和未综合数据得到的相反结论被称为辛普森悖论。
四、用图形显示方法汇总两个变量的数据
1、散点图和趋势线
散点图:是对两个数量变量间关系的图形表述
趋势线:是显示相关性近似程度的一条直线
2、复合条形图和结构条形图
复合条形图:是对已汇总的多个条形图同时显示的一种图形显示方法
结构条形图:每一个长条被分解成不同颜色的矩形段
结构条形图也可以用频数来显示,在这种情形中,每个长条的不同颜色段得到长条的整体总数
五、数据可视化:创建有效图形显示的最佳实践
1、创建有效的图形显示
给予图形显示一个清晰、简明的标题
使图形显示保持简洁,当能用二维表示时不用三维表示
每个坐标轴有清楚的标记,并给出测量的单位
如果使用颜色来区分类别,要确保颜色是不同的
如果使用多种颜色或线型,用图例来标明时,要将图例靠近所表示的数据
2、选择图形显示的类型
用于展示数据分布的图形显示:
条形图 用于展示分类型数据的频数分布和相对频数分布
饼形图 用于展示分类型数据的相对频数分布和百分数频数分布
打点图 用于展示数值型数据在整个数据范围内的分布
直方图 用于展示数值型数据在一个区间组集合上的频数分布
茎叶显示 用于展示数值型数据的等级顺序和分布形态
用于进行比较的图形显示:
复合条形图 用于两个变量的比较
结构条形图 用于比较两个分类变量的相对频数和百分数频数
用于展示相关关系的图形显示:
散点图 用于展示两个数量变量的相关关系
趋势线 用于近似散点图中数据的相关关系
3、数据仪表板
数据可视化工具使用最广泛的一种是数据仪表板。
小结:
关键术语
条形图 bar graph
分类型数据 categorical data
组中值 class midpoint
交叉分组表 crosstabulation
累积频数分布 cumulative frequency distribution
累计百分数频数分布 cumulative percent frequency distribution
累积相对频数分布 cumulative relative frequency distribution
数据仪表板 data dashboard
数据可视化 data visualization
打点图 dot plot
频数分布 frequency distribution
直方图 histogram
百分数频数分布 percent frequency distribution
饼形图 pie graph
数量型数据 quantitative data
相对频数分布 relative frequency distribution
散点图 scatter diagram
复合条形图 side-by-side bar chart
辛普森悖论 Simpson’s paradox
结构条形图 stacked chart
茎叶显示 stem-and-leaf display
趋势线 trendline
重要公式
相对频数=组频数/n
近似组宽=(数据最大值-数据最小值)/组数
欢迎大家关注公众号 小葵isasunflower 一起学习和交流数据分析~