数据挖掘 - 回归
回归分为线性回归与逻辑回归。
基本概念
R方:决定系数,反应因变量的全部变异能通过回归关系被自变量解释的比例。
如销售额=a+b*广告费用。R方为70%,表示销售额的70%的表动可由广告费用的变动解释。
R平方值=回归平方和(ssreg)/总平方和(sstotal)。
总平方和:Const参数为True的情况下,总平方和=y的实际值与平均值的平方差之和;Const参数为False的情况下,总平方和=y的实际值的平方和。
残差平方和:残差平方和=y的估计值与y的实际值的平方差之和。
一元线性回归
一元线性回归- 画一条穿过数据的直线,线上的点对应的数据点的方差最小。
总平方和(方差)
回归平方和,回归方程所能解释的部分,换句话说由自变量的变化导致因变量的变化
残差平方和,没有办法由回归方程解释的部分,代表着随机误差
如果回归方程正确,则回归平方和和总平方和就应该差不多,可以用此进行检验
决定系数的平方根等于相关系数(仅仅在一元线性回归中存在)