深度学习基础09---回归中的相关度和决定系数
前面几篇文章写了线性回归和非线性回归的一些基本知识和应用,这篇文章写一下如何衡量x与y的相关性,首先来看一些基本概念:
1.皮尔逊相关系数(Pearson Correlation Coefficient)
1.1 衡量两个值线性相关强度的量
1.2 取值范围[-1,1]:
正向相关:>0 ;负向相关:<0 ;无相关性:=0
1.3 定义式:
其中Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差,具体计算如下,一般用r来表示:
2.计算方法举例
假设有以下数据,来看一下如何计算他们之间的相关系数,在excel中简单计算一下
可以看到r的值达到了0.992932,说明x与y的相关度非常大
由以上三幅图我们可以看出,第一幅中,y随着x的增大而增大,x与y之间呈正相关
第二幅中,x与y无明显关系,x的变化并不影响y的变化
第三幅中,y随着x的增大而减小,x与y呈负相关
图中的数据点越接近于回归线,则x与y的相关系数越大
3. R平方值
3.1 定义:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例
3.2 描述:如果R平方为0.8,则表示回归关系可以解释因变量80%的变异。换句话说,如果我们能控制自变量不变,则因变量的变异程度会减少80%
3.3 对于简单线性回归而言:R^2 = r*r
对于多元线性回归:
由上图所示,y^为对应直线上点的值,即为我们的估计值,绿线为y的平均值
ok,这篇文章就到这里,下一篇写一下怎样在Python中计算和实现