商务与经济统计阅读笔记1

统计是搜集、分析、表述和解释数据的艺术和科学。

描述统计用表格、图形和数值方法来汇总数据。

统计推断是利用样本数据估计总体特征并进行假设检验的过程。

汇总分类变量的数据：频数分布，相对频数分布和百分数频数分布，条形图和饼形图。

汇总数量变量的数据：频数分布，相对频数分布和百分数频数分布，打点图，直方图，累积分布，茎叶显示。

用表格方法汇总两个变量的数据：交叉分组表，

辛普森悖论：依据综合和未综合数据得到的相反结论称为辛普森悖论。

用图形显示方法汇总两个变量的数据：散点图和趋势线，复合条形图和结构条形图。

散点图是对两个数量变量间关系的图形描述，趋势线显示相关性近似程度。

通过样本得到的统计数据称为样本统计量，来自总体的统计数据叫总体参数。在统计推断中，样本统计量被称为相应总体参数的点估计量。

3.1 对数据位置的度量：平均数，中位数，众数，四分位数。

平均数是数据中心位置的度量。

加权平均数：给每个观测值赋予了不同的权重。

几何平均数：常用于分析增长率。

商务与经济统计阅读笔记1

中位数：对变量中心位置的度量。

众数：出现次数最多的数。

四分位数：将数据划分为四部分，每部分包含约1/4的观测值，这些分割点称为四分位数。

3.2 变异程度的度量：极差，四分位间距，方差，标准差，标准差系数。

极差：最大值减最小值。

四分位间距：第三四分位数减第一四分位数。

方差：总体方差是求出每个观测值和平均值之差的平方，求和，再除数据个数。样本方差的话分母是数据个数减一。

商务与经济统计阅读笔记1

标准差：方差开方。

标准差系数：标准差除平均数乘100%。

3.3 分布形态，相对位置的度量以及异常值的检测

分布形态：对称的分布，平均数和中位数是相等的，当数据偏度是正时(右偏)，平均数通常比中位数大，左偏则相反。

z分数：等于观测值减平均值，再除标准差，表示观测值距离平均值有多少个标准差。

切比雪夫定理：75%的数据在平均数加减两个标准差的范围内，89%在三个标准差范围内，94%的数据在四个标准差范围内。对分布形态没有要求。

经验法则：对钟形分布，68%的数据在平均数的一个标准差内，95%在两个标准差内，几乎所有的在3个标准差内。

异常值检测：对钟形分布，平均值加减三个标准差外的数据视为异常值。另一种方法，以第一四分位数减1.5倍四分位间距为下线，第三四分位数加1.5倍四分位间距为上限，这个范围之外的数据视为异常值。

3.4 五数概括法和箱型图

五数：最小值，第一四分位数，中位数，第三四分位数，最大值。

箱型图

商务与经济统计阅读笔记1

3.5 两变量间关系的度量：样本协方差，相关系数。

协方差

商务与经济统计阅读笔记1 样本协方差，总体协方差。

样本协方差的解释

商务与经济统计阅读笔记1

协方差的一个问题是依赖于x和y的计量单位，单位改变，可能会导致计算出来的协方差差距极大。

为避免这种情况，使用相关系数来对两个变量间的相关关系进行度量。

皮尔逊积矩相关系数

商务与经济统计阅读笔记1 分子是样本协方差，分母是x和y的标准差的乘积。

如果数据集中所有点都在一条斜率为正的直线上，则样本相关系数的值为+1，即x和y间存在一个完全正线性关系。

注意：线性不表示因果。

概率是对事件发生的可能性的数值度量。

4.1 随机试验，记数法则和概率分配

随机试验：试验结果是确定的，任意一次试验中，有且仅有一种可能的试验结果发生。哪种试验结果会出现，完全由偶然性决定。

组合记数法则：从N项中取n项的组合数为(不计顺序)

商务与经济统计阅读笔记1

如果要算上排序的话

商务与经济统计阅读笔记1

概率分配基本条件：试验结果只能在0到1之间，所有试验结果的概率相加必须等于1。

4.3 概率的基本性质

事件的补

商务与经济统计阅读笔记1

加法公式，计算A事件发生或B事件发生或A、B事件同时发生的概率。

商务与经济统计阅读笔记1

互斥事件，两个事件没有公共的样本点，称这两个事件互斥。

商务与经济统计阅读笔记1

4.4 条件概率

事件A、B有交集，在事件B已发生的前提下求事件A发生的概率，事件A发生的可能性叫条件概率，记作P(A|B)。

商务与经济统计阅读笔记1

独立事件的话没有交集。

商务与经济统计阅读笔记1

根据条件概率的公式可以得到乘法公式。

商务与经济统计阅读笔记1

4.5 贝叶斯定理

刚开始进行分析时，我们通常对事件有一个先验概率，随着新信息的获取，可以对先验概率进行修正，得到后验概率。贝叶斯定理提供了进行这种概率计算的一种方法。

商务与经济统计阅读笔记1

举个例子，供应商A的零件占65%，次品率为2%，供应商B的零件占35%，次品率为5%，现在有一个是次品，问是供应商A的零件的概率是多少。

商务与经济统计阅读笔记1

5.1 随机变量

随机变量是对试验结果的数值描述，分离散型和连续型。

可以取有限多个值或无限可数多个值的随机变量是离散型。

商务与经济统计阅读笔记1

可以取某区间或多个区间内任意值的随机变量称为连续型。

商务与经济统计阅读笔记1

5.2 离散型概率分布

离散型概率函数的基本条件：每个可能值的概率大于等于0，所有可能值的概率加起来等于1.

5.3 数学期望与方差

随机变量的数学期望是对随机变量中心位置的一种度量。

商务与经济统计阅读笔记1

比如掷骰子的数学期望等于(1+2+3+4+5+6)/6 = 3.5

方差，用来描述随机变量取值的变异性。

商务与经济统计阅读笔记1

5.4 二元分布，协方差和金融资产组合

关于两个随机变量的概率分布称为二元概率分布，比如投掷两次骰子，试验结果由两个值组成。

下图是两个代理商的汽车日销量

商务与经济统计阅读笔记1

计算出相应的二元经验离散概率分布

商务与经济统计阅读笔记1

据此计算出二元分布的数学期望和方差

商务与经济统计阅读笔记1

再计算出两个随机变量的方差，即可根据公式计算出两个随机变量的协方差

商务与经济统计阅读笔记1

计算出两个随机变量的标准差，结合协方差可以得到相关系数。

商务与经济统计阅读笔记1

协方差或相关系数可以度量两个随即变量间的关系。

5.5 二项概率分布

二项试验性质

商务与经济统计阅读笔记1

令x等于n次试验成功的次数，x的可能值有n+1中，从0到n。x是一个离散型随机变量，与这一随机变量相对应的概率分布称为二项概率分布。

商务与经济统计阅读笔记1

5.6 泊松概率分布

泊松试验性质：在任意两个相等长度的区间上，事件发生的概率相等。事件在某一区间上是否发生与事件在其他区间上是否发生是独立的。

商务与经济统计阅读笔记1

泊松分布的数学期望和方差相等。

5.7 超几何概率分布

与二项分布相近，但两点不同：此分布中，各次试验不是独立的，各次试验中成功率不等。

商务与经济统计阅读笔记1

总体N*有r个成功元素，在总体N中抽取n个元素，求有x个成功元素的概率。

对一个离散型随机变量，概率函数f(x)给出了随机变量x取某个特定值的概率。而连续型随机变量，与概率函数相对应的是概率密度函数，但并没有直接给出概率。给定区间上曲线f(x)下的面积是连续型随机变量在该区间取值的概率，因此，计算连续型随机变量时，我们计算的是随机变量在某个区间内取值的概率。曲线f(x)下的面积为1。

但是某一个点对应的面积是0，意味着连续型随机变量取某一特定值的概率为0。

6.1 均匀概率分布

比如某飞机的飞行时间是120-140分钟

商务与经济统计阅读笔记1