统计学训练营第四期任务4

1.线性回归

假设我们有n个点,(x1,y1), (x2,y2), ... ,(xn,yn),如下图所示:

统计学训练营第四期任务4

我们要找到一条线近似这些点的情况,假设方程为y=mx+b,如下图所示:

统计学训练营第四期任务4

求出m和b的值,使得y=mx+b这条直线和这些点的平方误差最小,点和直线的误差如下图所示:

统计学训练营第四期任务4

平方误差即

统计学训练营第四期任务4

要求SE的最小值

 

统计学训练营第四期任务4

统计学训练营第四期任务4

求出m和b即可得所要求的直线

2.卡方分布

什么是卡方分布?

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和

统计学训练营第四期任务4

构成一新的随机变量,其卡方分布规律称为χ2分布(chi-square distribution),其中参数n称为*度,正如正态分布中均值或方差不同就是另一个正态分布一样,*度不同就是另一个分布。记为 Q~χ2(k). 卡方分布是由正态分布构造而成的一个新的分布,当*度n很大时,χ2分布近似为正态分布。 对于任意正整数k, *度为 k的卡方分布是一个随机变量X的机率分布。 

统计学训练营第四期任务4

卡方检验:

χ2 检验是以χ2分布为基础的一种假设检验方法,主要用于分类变量。其基本思想是根据样本数据推断总体的分布与期望分布是否有显著性差异,或者推断两个分类变量是否相关或者独立。 
一般可以设原假设为 H0:观察频数与期望频数没有差异,或者两个变量相互独立不相关。 
实际应用中,我们先假设H0成立,计算出χ2的值,χ2表示观察值与理论值之间的偏离程度。根据χ2分布,χ2统计量以及*度,可以确定在H0成立的情况下获得当前统计量以及更极端情况的概率p。如果p很小,说明观察值与理论值的偏离程度大,应该拒绝原假设。否则不能拒绝原假设。

χ2的计算公式为: 
 

统计学训练营第四期任务4

其中,A为实际值,T为理论值。
χ2用于衡量实际值与理论值的差异程度,这也是卡方检验的核心思想。χ2包含了以下两个信息: 
1.实际值与理论值偏差的绝对大小。 
2.差异程度与理论值的相对大小。