day3:多元统计模型

华中农的多元统计->西北工线性回归+指标合成的客观权重方法(第10章)

预备知识

1.什么是统计?

1.1基本概念

随机事件:在一次实验中,所有可能发生的“结果”,称为随机事件
随机变量:能够表达随机事件的变量,称为随机变量(什么时候能够表达呢?当变量与数字建立关系后)
概率密度(概率分布密度):一个用来表达随机事件发生的概率的函数
总体:在试验统计中,研究对象的全体所构成的集合称为总体(可分为有限总体与无限总体)
个体:总体中每一个研究对象称为个体
总体容量:总体所包含的个体数称为总体容量
样本:按照一定的规则,将总体中抽出的部分个体称为总体的一个样本
样本容量:样本所包含的个体数称为样本容量(也可称为样品数)
样品:样本中的个体称为样品
自由度:计算统计量时,取值不受限制的变量个数
分位数:指对应概率的对应x轴上的点坐标值(eg:α分位数,即为在某点的概率为α)
补充:判断是否为随机变量核心是—你是否已知该个体(若否则为随机变量,eg:在明天是否下雨这个随机事件中,我并不知道明天是下还是不下雨,所以“下雨”和“不下雨”两者均为随机变量,如果我从天气预报中得知明天一定下雨,那么两者均不为随机变量)

1.2统计的目标-得到总体的规律

如何实现目标?
方法:1.求出概率密度函数(难度高)
2.研究部分个体去“估计和推断”总体(过程:按照一定规律抽取样本->研究规律->“估计和推断”总体)
补充:
抽样方法:简单随机抽样->通过不断取出放回,且过程中每个随机变量面对的总体是一样的,每次抽样的随机变量相互独立,且每个随机变量与总体分布一样

1.3统计的本质-运用样本来研究总体的方法、过程和模式

1.4统计的应用步骤

1.抽样,收集数据,且判断数据大致服从什么分布
2.参数估计,估计总体分布的参数值,一般使用最小二乘法
3.假设检验,检验总体分布和参数是否合理
4.应用统计,运用以上得出的总体解决问题。
补充:应用统计-回归分析,多元分析,随机过程,时间序列分析,生存分析,广义线性模型等等

2.常见统计量及其分布(了解知识)

2.1正态分布

day3:多元统计模型
正态分布

2.2卡方分布(x^2分布)

day3:多元统计模型
卡方分布

2.3t分布

day3:多元统计模型
t分布

2.4F分布

day3:多元统计模型
F分布

3.统计的核心-假设检验

3.1假设检验的核心-小概率事件

小概率事件的概念:在一次试验中几乎不可能发生的事件称为小概率事件

3.2假设检验的步骤(?)

1.提出假设
将待检验的假设记作H0,这个假设称为原假设或者零假设(与H0对立的假设H1,称为备择假设)(原假设一般是大部分人认为可能发生的事件)
2.寻求统计量及其分布
3.在原假设为真时,构造小概率事件并推到统计量说满足的不等式
4.写出接受域和拒绝域
5.计算统计量
6.判断是否接受原假设,满足不等式则放弃

对立假设的2个原则

1.双侧还是单侧看题意
2.左侧还是右侧看舆论

提出假设可能的两类错误

1.第一类错误:因取到样本的局限性,导致原假设为真,而决定放弃原假设
2.第二类错误:因取到样本的局限性,导致原假设为假,而决定接受原假设

回归分析

1.一元线性回归

模型一般形式: day3:多元统计模型
且ε(随机误差)符合标准正态分布

2.多元线性回归

day3:多元统计模型
且ε(随机误差)符合标准正态分布

3.假设检验

3.1回归方程的显著性检验(F检验)

目的:检验y与解释变量x1,x2,…,xk之间的(整体来讲)线性关系是否显著

3.2回归系数的显著性检验(t检验)

目的:筛选出重要的解释变量x,回归方程显著,不代表每个解释变量对因变量y的影响都重要

3.3拟合优度检验(也称负相关系数(筛选通过检验的方程,得出更好的选择))

day3:多元统计模型

4.非线性回归

线性化->回到1和2

聚类分析(研究分类问题)

1.概述

将相似元素分成一类,通常选取元素的许多沟通指标,然后通过分析指标值来分辨元素间的差距,从而进行分类
聚类分析分为:Q型(样品分类)分类,R型(指标分类)分类
一般在分类前要进行变换处理(中心化变换,规格化变换(极差正规化),标准化变换,对数变换等等)
聚类的根据是相似性统计量

2.系统聚类法的一般步骤

1.每个样本独自成类
2.计算任两个样本之间的距离,距离最短(或者相似系数最接近于1的)分成一个新类
3.重复2直到为一类

判别分析

1.概述

主要是用于解决,在已经聚类的数据中,加入一个新数据,应该把新数据归在哪一类的问题
通过一个判别规则(一般是函数形式表示)来判别
常用判别:距离判别法,Fisher判别法,贝叶斯判别法,逐步判别法

2.贝叶斯判别法

核心-计算概率进行分类
步骤:
1.计算各类均值及均值向量
2.计算类内协方差矩阵S及其逆矩阵S^-1
3.计算贝叶斯判别函数中,各个变量的系数及常数项并写出判别函数
4.计算类内协方差矩阵W及总个协方差矩阵T作多个变量的全体判别效果的检验
5.各个变量判别能力的检验
6.判别新样本应属于的类别

主成分分析

1.概述

将多个因素合成为新因素,降维

2.步骤

1.标准化处理
2.求协方差矩阵Z
3.特征分解Z
4.确定主成分个数
5.写出主成分表达式
6.构造评价函数

因子分析

1.概述

主成分分析的推广,降维

2.步骤

1.计算xk及sk,建立基本方程组
2.用主成分分析法确定因子载荷阵A
3.方差极大正交旋转,对变量系数极值化(尽量趋于0或1)
4.得到因子得分函数,计算样本因子得分