商务与经济统计阅读笔记1

统计是搜集、分析、表述和解释数据的艺术和科学。

描述统计用表格、图形和数值方法来汇总数据。

统计推断是利用样本数据估计总体特征并进行假设检验的过程。

汇总分类变量的数据:频数分布,相对频数分布和百分数频数分布,条形图和饼形图。

汇总数量变量的数据:频数分布,相对频数分布和百分数频数分布,打点图,直方图,累积分布,茎叶显示。

用表格方法汇总两个变量的数据:交叉分组表,

辛普森悖论:依据综合和未综合数据得到的相反结论称为辛普森悖论。

用图形显示方法汇总两个变量的数据:散点图和趋势线,复合条形图和结构条形图。

散点图是对两个数量变量间关系的图形描述,趋势线显示相关性近似程度。


通过样本得到的统计数据称为样本统计量,来自总体的统计数据叫总体参数。在统计推断中,样本统计量被称为相应总体参数的点估计量。

3.1 对数据位置的度量:平均数,中位数,众数,四分位数。

平均数是数据中心位置的度量。

加权平均数:给每个观测值赋予了不同的权重。

几何平均数:常用于分析增长率。

商务与经济统计阅读笔记1

中位数:对变量中心位置的度量。

众数:出现次数最多的数。

四分位数:将数据划分为四部分,每部分包含约1/4的观测值,这些分割点称为四分位数。

3.2 变异程度的度量:极差,四分位间距,方差,标准差,标准差系数。

极差:最大值减最小值。

四分位间距:第三四分位数减第一四分位数。

方差:总体方差是求出每个观测值和平均值之差的平方,求和,再除数据个数。样本方差的话分母是数据个数减一。

商务与经济统计阅读笔记1商务与经济统计阅读笔记1

标准差:方差开方。

标准差系数:标准差除平均数乘100%。

3.3 分布形态,相对位置的度量以及异常值的检测

分布形态:对称的分布,平均数和中位数是相等的,当数据偏度是正时(右偏),平均数通常比中位数大,左偏则相反。

z分数:等于观测值减平均值,再除标准差,表示观测值距离平均值有多少个标准差。

切比雪夫定理:75%的数据在平均数加减两个标准差的范围内,89%在三个标准差范围内,94%的数据在四个标准差范围内。对分布形态没有要求。

经验法则:对钟形分布,68%的数据在平均数的一个标准差内,95%在两个标准差内,几乎所有的在3个标准差内。

异常值检测:对钟形分布,平均值加减三个标准差外的数据视为异常值。另一种方法,以第一四分位数减1.5倍四分位间距为下线,第三四分位数加1.5倍四分位间距为上限,这个范围之外的数据视为异常值。

3.4 五数概括法和箱型图

五数:最小值,第一四分位数,中位数,第三四分位数,最大值。

箱型图

商务与经济统计阅读笔记1

3.5 两变量间关系的度量:样本协方差,相关系数。

协方差

商务与经济统计阅读笔记1样本协方差,商务与经济统计阅读笔记1总体协方差。

样本协方差的解释

商务与经济统计阅读笔记1

协方差的一个问题是依赖于x和y的计量单位,单位改变,可能会导致计算出来的协方差差距极大。

为避免这种情况,使用相关系数来对两个变量间的相关关系进行度量。

皮尔逊积矩相关系数

商务与经济统计阅读笔记1分子是样本协方差,分母是x和y的标准差的乘积。

如果数据集中所有点都在一条斜率为正的直线上,则样本相关系数的值为+1,即x和y间存在一个完全正线性关系。

注意:线性不表示因果。


概率是对事件发生的可能性的数值度量。

4.1 随机试验,记数法则和概率分配

随机试验:试验结果是确定的,任意一次试验中,有且仅有一种可能的试验结果发生。哪种试验结果会出现,完全由偶然性决定。

组合记数法则:从N项中取n项的组合数为(不计顺序)

商务与经济统计阅读笔记1

如果要算上排序的话

商务与经济统计阅读笔记1

概率分配基本条件:试验结果只能在0到1之间,所有试验结果的概率相加必须等于1。

4.3 概率的基本性质

事件的补

商务与经济统计阅读笔记1

加法公式,计算A事件发生或B事件发生或A、B事件同时发生的概率。

商务与经济统计阅读笔记1

互斥事件,两个事件没有公共的样本点,称这两个事件互斥。

商务与经济统计阅读笔记1

4.4 条件概率

事件A、B有交集,在事件B已发生的前提下求事件A发生的概率,事件A发生的可能性叫条件概率,记作P(A|B)。

商务与经济统计阅读笔记1

商务与经济统计阅读笔记1

独立事件的话没有交集。

商务与经济统计阅读笔记1

根据条件概率的公式可以得到乘法公式。

商务与经济统计阅读笔记1

商务与经济统计阅读笔记1

4.5 贝叶斯定理

刚开始进行分析时,我们通常对事件有一个先验概率,随着新信息的获取,可以对先验概率进行修正,得到后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。

商务与经济统计阅读笔记1

商务与经济统计阅读笔记1

举个例子,供应商A的零件占65%,次品率为2%,供应商B的零件占35%,次品率为5%,现在有一个是次品,问是供应商A的零件的概率是多少。

商务与经济统计阅读笔记1


5.1 随机变量

随机变量是对试验结果的数值描述,分离散型和连续型。

可以取有限多个值或无限可数多个值的随机变量是离散型。

商务与经济统计阅读笔记1

可以取某区间或多个区间内任意值的随机变量称为连续型。

商务与经济统计阅读笔记1

5.2 离散型概率分布

离散型概率函数的基本条件:每个可能值的概率大于等于0,所有可能值的概率加起来等于1.

5.3 数学期望与方差

随机变量的数学期望是对随机变量中心位置的一种度量。

商务与经济统计阅读笔记1

比如掷骰子的数学期望等于(1+2+3+4+5+6)/6 = 3.5

方差,用来描述随机变量取值的变异性。

商务与经济统计阅读笔记1

5.4 二元分布,协方差和金融资产组合

关于两个随机变量的概率分布称为二元概率分布,比如投掷两次骰子,试验结果由两个值组成。

下图是两个代理商的汽车日销量

商务与经济统计阅读笔记1

计算出相应的二元经验离散概率分布

商务与经济统计阅读笔记1

据此计算出二元分布的数学期望和方差

商务与经济统计阅读笔记1

再计算出两个随机变量的方差,即可根据公式计算出两个随机变量的协方差

商务与经济统计阅读笔记1

计算出两个随机变量的标准差,结合协方差可以得到相关系数。

商务与经济统计阅读笔记1

协方差或相关系数可以度量两个随即变量间的关系。

5.5 二项概率分布

二项试验性质

商务与经济统计阅读笔记1

令x等于n次试验成功的次数,x的可能值有n+1中,从0到n。x是一个离散型随机变量,与这一随机变量相对应的概率分布称为二项概率分布。

商务与经济统计阅读笔记1

商务与经济统计阅读笔记1

5.6 泊松概率分布

泊松试验性质:在任意两个相等长度的区间上,事件发生的概率相等。事件在某一区间上是否发生与事件在其他区间上是否发生是独立的。

商务与经济统计阅读笔记1

泊松分布的数学期望和方差相等。

5.7 超几何概率分布

与二项分布相近,但两点不同:此分布中,各次试验不是独立的,各次试验中成功率不等。

商务与经济统计阅读笔记1

总体N*有r个成功元素,在总体N中抽取n个元素,求有x个成功元素的概率。


对一个离散型随机变量,概率函数f(x)给出了随机变量x取某个特定值的概率。而连续型随机变量,与概率函数相对应的是概率密度函数,但并没有直接给出概率。给定区间上曲线f(x)下的面积是连续型随机变量在该区间取值的概率,因此,计算连续型随机变量时,我们计算的是随机变量在某个区间内取值的概率。曲线f(x)下的面积为1。

但是某一个点对应的面积是0,意味着连续型随机变量取某一特定值的概率为0。

6.1 均匀概率分布

比如某飞机的飞行时间是120-140分钟

商务与经济统计阅读笔记1

商务与经济统计阅读笔记1

6.2 正态概率分布

正态曲线

商务与经济统计阅读笔记1

均值决定曲线的位置,标准差决定曲线的宽度和平坦程度,标准差越大曲线越宽越平坦。

商务与经济统计阅读笔记1

正态概率密度函数

商务与经济统计阅读笔记1

正态分布曲线下的面积

商务与经济统计阅读笔记1

标准正态分布

商务与经济统计阅读笔记1

要计算正态概率分布的概率,先通过标准分z = (x-μ)/σ转为标准正态分布,再查表。

6.3 二项概率的正态近似

当二项试验中,np≥5和n(1-p)≥5时,可以用正态分布对二项分布进行近似,这种情况下正态分布取μ=np和商务与经济统计阅读笔记1

举个例子,n=100,p=0.1时,求成功12次的概率。

符合上面的条件,可以用正态分布来近似,正态分布的均值是100*0.1等于10,标准差等于100*0.1*0.9然后开方,等于3。答案就是用正态分布求11.5-12.5间的面积,0.5称为连续型校正因子。

6.4 指数概率分布

用于描述事件发生的间隔,比如两辆公交车到达公交站的时间间隔


抽样和抽样分布。

7.2 抽样

当总体太大或者无限总体时,需要通过抽样来对总体进行推断。

7.3 点估计

通过计算样本统计量来对总体参数进行估计。

比如要估计总体均值,通过样本得到的均值称为总体均值的点估计量。

7.4 抽样分布简介

因为样本均值是通过总体中随机抽取的数据计算的,故样本均值也是个随机变量,其他统计量也一样,都有数学期望,标准差和概率分布。称样本均值的概率分布为样本均值的抽样分布。

7.5 样本均值的抽样分布

商务与经济统计阅读笔记1

样本均值的数学期望等于总体均值。

当点估计量的期望值等于总体参数时,称这个点估计量是无偏的。

样本均值的标准差

商务与经济统计阅读笔记1

为了和总体标准差区别开,通常将样本均值的标准差称为均值的标准误差。

一般,标准误差指的是点估计量的标准差。

样本均值的抽样分布的形式:当总体服从正态分布时,任何样本容量下样本均值的抽样分布都是正态分布。总体不服从正态分布时,根据中心极限定理,当样本容量很大时,样本均值的抽样分布是正态分布。对第二种情况,一般来说样本容量大于30就行了,如果严重偏态或者出现异常点时,可能容量要50。

样本均值的期望值与样本容量无关,不过样本均值的标准误差和样本容量的平方根有关(可以看公式),当样本容量增加时,均值的标准误差减小。

7.6 样本比率的抽样分布

商务与经济统计阅读笔记1

x表示样本中具有指定特征的个体个数,n表示样本容量。

样本比率是一个随机变量,它的抽样分布是样本比率的所有可能值的概率分布。

数学期望等于总体比率。

商务与经济统计阅读笔记1

当总体是有限的,且n/N≤0.05,则用右边的公式。

当np≥5并且n(1-p)≥5时,样本比率的抽样分布可以用正态分布近似。

7.7 点估计的性质

无偏性,样本统计量的数学期望等于总体参数。

有效性,有较小标准差的点估计量比其他点估计量更有效。

一致性,随着样本容量的增大,点估计量越来越逼近总体参数。

7.8 其他抽样方法

分层随机抽样,整群抽样,系统抽样,方便抽样,判断抽样。