数据分析统计学基础之数据的趋势
数据的趋势
一.数据的集中趋势
集中趋势又称“数据的中心位置”、“集中量数”等。它是一组数据的代表值.数据的集中趋势就是一组数据向数据的中心值靠拢的程度。
集中趋势是统计学中的重要统计分析指标,常用的有平均数,中位数和众数等。
1.1平均数
平均数为集中趋势的最常用测度值,目的是确定一组数据的均衡点。用平均数表示一组数据的情况,有直观、简明的特点,所以在日常生活中经常用到,如平均的速度、平均的身高、平均的产量、平均的成绩等。
不是所有类型的资料都能使用平均数。平均数适合用于数值型数据,不能用于分类数据和顺序数据。
1.1.1 算术平均数
一组样本的和除以该样本的数量,记作
在实际工作中,很少使用算术平均数,因为并不准确,特别是有异常值存在的时候,受极值的影响较大.
1.1.2 加权算术平均数
是具有不同权重的数据的算术平均数,记作
式中f代表各做变量值出现的频数。
例如,在一次分析城市出行路线的项目中,可以根据小区的户数或人数来赋予相对应的权重,根据权重可以在生成图时给于不同的颜色以区分哪条路出行人数较多。
1.1.3 几何平均数
n个数据相乘后开 n 次方。记作:
几何平均数多用于计算平均比率和平均速度。如:平均利率、平均发展速度、平均合格率等。使用场合较少。
1.2 众数
众数是在一组数据样本中,出现次数最多的数。一组数据可以有多个众数,也可以没有众数。它主要用于定类(品质标志)数据的集中趋势
特点:①不受极值影响 ;②只有在数据量大的时候才有意义
1.3 分位数
定义:分位数(Quantile),亦称分位点,是指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(即二分位数)、四分位数、百分位数等。在箱型图中使用较多。
分位数意义:
表示了在这个样本集中从小至大排列之后小于某值的样本子集占总样本集的比例,可以利用概率分布来为我们确定当数据有序分布后处于某个特殊位置的数值,再利用其为我们达到选择,筛选,修正等目标。(来自知乎回答:OrionTheStar)。
人们经常会将数据划分为4个部分,每一个部分大约包含有1/4即25%的数据项。这种划分的临界点即为四分位数。它们定义如下:
- Q1=第1四分位数,即第25百分位数;
- Q2=第2四分位数,即第50百分位数;
- Q3=第3四分位数,即第75百分位数。
四分位数的计算:
首先确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
实例1
数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
一共11项
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9
则 Q1 = 15,Q2 = 40,Q3 = 43
二、数据的离中趋势
2.1 极差
指一组数据中最大值与最小值之差。
在实际中,极差常用来检查产品质量。在正常生产条件下,极差在一定范围内波动,若极差超过给定的范围,就说明有异常情况出现。
2.2 四分位距
四分位距是上四分位数与下四分位数之差。四分位距通常是用来构建箱形图,以及对概率分布的简要图表概述。
公式:
意义:反应数据中间部分各变量值的最大值和最小值的差距。
2.3 平均差
平均差是总体各单位标志对其算术平均数的离差绝对值的算术平均数。它综合反映了总体各单位标志值的变动程度。平均差越大,则表示标志变动度越大,反之则表示标志变动度越小。
平均差是反应各标志值与算术平均数之间的平均差异
2.4 方差
方差是和中心偏离的程度,用来刻画数据的波动性和稳定性(即这批数据偏离平均数的大小)并把它叫做这组数据的方差,记作S².
方差的計算公式为:
当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
2.5 标准差
标准差(Standard Deviation) ,中文环境中又常称均方差,是离均差平方的算术平均数的平方根,用σ表示。标准差是方差的算术平方根。标准差表示的就是样本数据的离散程度。平均数相同的两组数据,标准差未必相同。
意义:由于方差是数据的平方,与检测值本身相差太大,人们难以直观的衡量,所以常用方差开根号换算回来这就是我们要说的标准差。
方差是实际值与期望值之差平方的平均值,而标准差是方差的算术平方根。
2.6 离散系数
离散系数又称变异系数,是统计学当中的常用统计指标。离散系数是测度数据离散程度的相对统计量,主要是用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。
公式:
当进行多组数据进行比较时,如果度量单位与平均数相同,就可以直接利用标准差比较;但是单位或平均数不同是,而要采用标准差与平均数的比值,即离散系数来比较。
意义:①.去量纲,消除单位的影响
②可以比较多组数据的波动程度,比如第一天抓取的数据和第二天抓取的数据做比较
③数值越小代表相对来说越稳定