假定一个银行贷款系统 根据 工资 和年龄 这两个特征,预测核定应给客户多少额度的贷款(label为具体的值),银行所要预测的是个具体值,这就是所谓的回归问题。之前所说的决策树就是分类问题
样本 |
工资 x1
|
年龄 x2
|
可贷款额度 hθ(x)
|
1 |
3000 |
22 |
19000 |
2 |
8000 |
31 |
70000 |
3 |
5000 |
29 |
34000 |
4 |
7500 |
35 |
51000 |
5 |
12000 |
40 |
84000 |
- 其中x1 与 x2 分别有多大影响,此时我们就需要定义一组权重参数 θ1 , θ2,依此俩个参数来判别 x1 与 x2 各自的影响有多大,此处将假定一个 特征x0 = 1 ,对于每个实例来说都是1,此时 θ0x0=θ0
hθ(x)=θ0+θ1x1+θ2x2
- 其中 hθ(x) 就是这个例子要预测的贷款额度,由此可将如上线性回归式子转化为如下式子
hθ(x)=∑i=0Nθixi=θTx
- 将该回归方程化简为一个列向量θ的转置 乘以 一个列向量 x ,即一个行向量乘以一个列向量乘积,得到一个具体的值,由此得出hθ(x)
线性回归误差原理推到
y(i)=θTx(i)+ϵ(i)
对于误差,不可能都是正数也不可能都是负数,这个模型的泛化能力要是正常的,既符合实际的逻辑,独立并且具有相同的分布(即独立同分布),通常认为服从均值为0,方差为θ2的高斯分布(正态分布)
独立:每一个样本是独立的,张三能贷到8万,李四能贷到10万,这二者是独立不影响的
同分布:即不可能出现,都少贷你一万,或者都多贷你一万,即服从正态分布,也就是说离均值近的实例多,离均值圆的实例少 ,也就保证了绝大多数人被预测可贷的额度不至于那么离谱,在一个可控可接受范围之间的。如下 类似贫富

服从均值 为 0 ,说 等于0 过于理想 ,应该说测试样本最小值 ,也就是说在如下的二维特征分布图,这些离散分布的特征点中找到一条拟合直线,让分布其周围的离散点到到其最短距离的和的均值最小。这与如何找到这条最佳拟合线呢,这里给出一种方法,调节θ0x0

假定误差ϵ(i)服从高斯分布公式如下,假设均值服从为0 即 如下 中的 μ=0,
p(ϵ(i))=12π−−√σe(−(ϵ(i)−μ)22σ2)(1)
p(y(i)|x(i);θ)=12π−−√σe(−(y(i)−θTx(i))22σ2)
其中 p(y(i)|x(i);θ) 的意思是,找什么样的参数 θ 能够使的 θ 与 x(i)组合后 越接近于 y(i)的概率 值p 是越大
-
由此需要似然函数 如下
L(θ)=∏i=1mpi(y(i)|x(i);θ)=∏i=1m12π−−√σe(−(y(i)−θTx(i))22σ2)
对于所有的样本来说 ,即 将p1, p2, p3, p4累乘在一起,即 θ要跟所有的样本进行组合,是的L(θ)最大
,也就是真实值y(i) 与 预测值 θTx(i)相等的概率最大,所以希望 得到一个\theta 使得L(\theta)的整体值是最大
-
累乘求极值难度很大,所以需要 乘法转成加法 ,故 用log求解
ι(θ)=logL(θ)=log∏i=1m12π−−√σe(−(y(i)−θTx(i))22σ2)=∑i=1mlog12π−−√σe(−(y(i)−θTx(i))22σ2)=mlog12π−−√σ−1σ212∑i=1m(y(i)−θTx(i))2(3)(4)(5)(6)
得到目标函数 J(θ)
J(θ)=12∑i=1m(hθ(x)−y(i))2(7)
要是目标函数越小越好
J(θ)=12∑i=1m(hθ(x)−y(i))2=12(Xθ−y)T(Xθ−y)(8)(9)
∂θJ(θ)=∂θ(12(Xθ−y)T(Xθ−y))=∂θ(12(XTθT−yT)(Xθ−y))=∂θ(12(θTXTXθ−θTXTy−yTXθ+yTy))=12((2XTXθ−XTy−(yTX)T))=XTXθ−XTy(10)(11)(12)(13)(14)
-
此时要算导数值等于零XTXθ−XTy=0的点,即求极值点,得到最终结果
θ=(XTX)−1XTy
参考资料
高斯分布
正态分布
线性回归的理解