商务与经济统计阅读笔记1
统计是搜集、分析、表述和解释数据的艺术和科学。
描述统计用表格、图形和数值方法来汇总数据。
统计推断是利用样本数据估计总体特征并进行假设检验的过程。
汇总分类变量的数据:频数分布,相对频数分布和百分数频数分布,条形图和饼形图。
汇总数量变量的数据:频数分布,相对频数分布和百分数频数分布,打点图,直方图,累积分布,茎叶显示。
用表格方法汇总两个变量的数据:交叉分组表,
辛普森悖论:依据综合和未综合数据得到的相反结论称为辛普森悖论。
用图形显示方法汇总两个变量的数据:散点图和趋势线,复合条形图和结构条形图。
散点图是对两个数量变量间关系的图形描述,趋势线显示相关性近似程度。
通过样本得到的统计数据称为样本统计量,来自总体的统计数据叫总体参数。在统计推断中,样本统计量被称为相应总体参数的点估计量。
3.1 对数据位置的度量:平均数,中位数,众数,四分位数。
平均数是数据中心位置的度量。
加权平均数:给每个观测值赋予了不同的权重。
几何平均数:常用于分析增长率。
中位数:对变量中心位置的度量。
众数:出现次数最多的数。
四分位数:将数据划分为四部分,每部分包含约1/4的观测值,这些分割点称为四分位数。
3.2 变异程度的度量:极差,四分位间距,方差,标准差,标准差系数。
极差:最大值减最小值。
四分位间距:第三四分位数减第一四分位数。
方差:总体方差是求出每个观测值和平均值之差的平方,求和,再除数据个数。样本方差的话分母是数据个数减一。
标准差:方差开方。
标准差系数:标准差除平均数乘100%。
3.3 分布形态,相对位置的度量以及异常值的检测
分布形态:对称的分布,平均数和中位数是相等的,当数据偏度是正时(右偏),平均数通常比中位数大,左偏则相反。
z分数:等于观测值减平均值,再除标准差,表示观测值距离平均值有多少个标准差。
切比雪夫定理:75%的数据在平均数加减两个标准差的范围内,89%在三个标准差范围内,94%的数据在四个标准差范围内。对分布形态没有要求。
经验法则:对钟形分布,68%的数据在平均数的一个标准差内,95%在两个标准差内,几乎所有的在3个标准差内。
异常值检测:对钟形分布,平均值加减三个标准差外的数据视为异常值。另一种方法,以第一四分位数减1.5倍四分位间距为下线,第三四分位数加1.5倍四分位间距为上限,这个范围之外的数据视为异常值。
3.4 五数概括法和箱型图
五数:最小值,第一四分位数,中位数,第三四分位数,最大值。
箱型图
3.5 两变量间关系的度量:样本协方差,相关系数。
协方差
样本协方差,总体协方差。
样本协方差的解释
协方差的一个问题是依赖于x和y的计量单位,单位改变,可能会导致计算出来的协方差差距极大。
为避免这种情况,使用相关系数来对两个变量间的相关关系进行度量。
皮尔逊积矩相关系数
分子是样本协方差,分母是x和y的标准差的乘积。
如果数据集中所有点都在一条斜率为正的直线上,则样本相关系数的值为+1,即x和y间存在一个完全正线性关系。
注意:线性不表示因果。
概率是对事件发生的可能性的数值度量。
4.1 随机试验,记数法则和概率分配
随机试验:试验结果是确定的,任意一次试验中,有且仅有一种可能的试验结果发生。哪种试验结果会出现,完全由偶然性决定。
组合记数法则:从N项中取n项的组合数为(不计顺序)
如果要算上排序的话
概率分配基本条件:试验结果只能在0到1之间,所有试验结果的概率相加必须等于1。
4.3 概率的基本性质
事件的补
加法公式,计算A事件发生或B事件发生或A、B事件同时发生的概率。
互斥事件,两个事件没有公共的样本点,称这两个事件互斥。
4.4 条件概率
事件A、B有交集,在事件B已发生的前提下求事件A发生的概率,事件A发生的可能性叫条件概率,记作P(A|B)。
独立事件的话没有交集。
根据条件概率的公式可以得到乘法公式。
4.5 贝叶斯定理
刚开始进行分析时,我们通常对事件有一个先验概率,随着新信息的获取,可以对先验概率进行修正,得到后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。
举个例子,供应商A的零件占65%,次品率为2%,供应商B的零件占35%,次品率为5%,现在有一个是次品,问是供应商A的零件的概率是多少。
5.1 随机变量
随机变量是对试验结果的数值描述,分离散型和连续型。
可以取有限多个值或无限可数多个值的随机变量是离散型。
可以取某区间或多个区间内任意值的随机变量称为连续型。
5.2 离散型概率分布
离散型概率函数的基本条件:每个可能值的概率大于等于0,所有可能值的概率加起来等于1.
5.3 数学期望与方差
随机变量的数学期望是对随机变量中心位置的一种度量。
比如掷骰子的数学期望等于(1+2+3+4+5+6)/6 = 3.5
方差,用来描述随机变量取值的变异性。
5.4 二元分布,协方差和金融资产组合
关于两个随机变量的概率分布称为二元概率分布,比如投掷两次骰子,试验结果由两个值组成。
下图是两个代理商的汽车日销量
计算出相应的二元经验离散概率分布
据此计算出二元分布的数学期望和方差
再计算出两个随机变量的方差,即可根据公式计算出两个随机变量的协方差
计算出两个随机变量的标准差,结合协方差可以得到相关系数。
协方差或相关系数可以度量两个随即变量间的关系。
5.5 二项概率分布
二项试验性质
令x等于n次试验成功的次数,x的可能值有n+1中,从0到n。x是一个离散型随机变量,与这一随机变量相对应的概率分布称为二项概率分布。
5.6 泊松概率分布
泊松试验性质:在任意两个相等长度的区间上,事件发生的概率相等。事件在某一区间上是否发生与事件在其他区间上是否发生是独立的。
泊松分布的数学期望和方差相等。
5.7 超几何概率分布
与二项分布相近,但两点不同:此分布中,各次试验不是独立的,各次试验中成功率不等。
总体N*有r个成功元素,在总体N中抽取n个元素,求有x个成功元素的概率。
对一个离散型随机变量,概率函数f(x)给出了随机变量x取某个特定值的概率。而连续型随机变量,与概率函数相对应的是概率密度函数,但并没有直接给出概率。给定区间上曲线f(x)下的面积是连续型随机变量在该区间取值的概率,因此,计算连续型随机变量时,我们计算的是随机变量在某个区间内取值的概率。曲线f(x)下的面积为1。
但是某一个点对应的面积是0,意味着连续型随机变量取某一特定值的概率为0。
6.1 均匀概率分布
比如某飞机的飞行时间是120-140分钟
6.2 正态概率分布
正态曲线
均值决定曲线的位置,标准差决定曲线的宽度和平坦程度,标准差越大曲线越宽越平坦。
正态概率密度函数
正态分布曲线下的面积
标准正态分布
要计算正态概率分布的概率,先通过标准分z = (x-μ)/σ转为标准正态分布,再查表。
6.3 二项概率的正态近似
当二项试验中,np≥5和n(1-p)≥5时,可以用正态分布对二项分布进行近似,这种情况下正态分布取μ=np和。
举个例子,n=100,p=0.1时,求成功12次的概率。
符合上面的条件,可以用正态分布来近似,正态分布的均值是100*0.1等于10,标准差等于100*0.1*0.9然后开方,等于3。答案就是用正态分布求11.5-12.5间的面积,0.5称为连续型校正因子。
6.4 指数概率分布
用于描述事件发生的间隔,比如两辆公交车到达公交站的时间间隔
抽样和抽样分布。
7.2 抽样
当总体太大或者无限总体时,需要通过抽样来对总体进行推断。
7.3 点估计
通过计算样本统计量来对总体参数进行估计。
比如要估计总体均值,通过样本得到的均值称为总体均值的点估计量。
7.4 抽样分布简介
因为样本均值是通过总体中随机抽取的数据计算的,故样本均值也是个随机变量,其他统计量也一样,都有数学期望,标准差和概率分布。称样本均值的概率分布为样本均值的抽样分布。
7.5 样本均值的抽样分布
样本均值的数学期望等于总体均值。
当点估计量的期望值等于总体参数时,称这个点估计量是无偏的。
样本均值的标准差
为了和总体标准差区别开,通常将样本均值的标准差称为均值的标准误差。
一般,标准误差指的是点估计量的标准差。
样本均值的抽样分布的形式:当总体服从正态分布时,任何样本容量下样本均值的抽样分布都是正态分布。总体不服从正态分布时,根据中心极限定理,当样本容量很大时,样本均值的抽样分布是正态分布。对第二种情况,一般来说样本容量大于30就行了,如果严重偏态或者出现异常点时,可能容量要50。
样本均值的期望值与样本容量无关,不过样本均值的标准误差和样本容量的平方根有关(可以看公式),当样本容量增加时,均值的标准误差减小。
7.6 样本比率的抽样分布
x表示样本中具有指定特征的个体个数,n表示样本容量。
样本比率是一个随机变量,它的抽样分布是样本比率的所有可能值的概率分布。
数学期望等于总体比率。
当总体是有限的,且n/N≤0.05,则用右边的公式。
当np≥5并且n(1-p)≥5时,样本比率的抽样分布可以用正态分布近似。
7.7 点估计的性质
无偏性,样本统计量的数学期望等于总体参数。
有效性,有较小标准差的点估计量比其他点估计量更有效。
一致性,随着样本容量的增大,点估计量越来越逼近总体参数。
7.8 其他抽样方法
分层随机抽样,整群抽样,系统抽样,方便抽样,判断抽样。