(七)线性回归

假定一个银行贷款系统 根据 工资 和年龄 这两个特征,预测核定应给客户多少额度的贷款(label为具体的值),银行所要预测的是个具体值,这就是所谓的回归问题。之前所说的决策树就是分类问题

样本 工资 x1 年龄 x2 可贷款额度 hθ(x)
1 3000 22 19000
2 8000 31 70000
3 5000 29 34000
4 7500 35 51000
5 12000 40 84000
  • 其中x1x2 分别有多大影响,此时我们就需要定义一组权重参数 θ1 , θ2,依此俩个参数来判别 x1x2 各自的影响有多大,此处将假定一个 特征x0 = 1 ,对于每个实例来说都是1,此时 θ0x0=θ0

hθ(x)=θ0+θ1x1+θ2x2

  • 其中 hθ(x) 就是这个例子要预测的贷款额度,由此可将如上线性回归式子转化为如下式子

hθ(x)=i=0Nθixi=θTx

  • 将该回归方程化简为一个列向量θ的转置 乘以 一个列向量 x ,即一个行向量乘以一个列向量乘积,得到一个具体的值,由此得出hθ(x)

线性回归误差原理推到

  • 没有什么是尽善尽美的,包括hθ(x),只有此时此刻的你努力的将其误差降到最低

  • 此时,根据计算出的预测值θTx(i) 与真实值 y(i)值间的误差 ϵ(i)

y(i)=θTx(i)+ϵ(i)

  • 对于误差,不可能都是正数也不可能都是负数,这个模型的泛化能力要是正常的,既符合实际的逻辑,独立并且具有相同的分布(即独立同分布),通常认为服从均值为0,方差为θ2的高斯分布(正态分布)

  • 独立:每一个样本是独立的,张三能贷到8万,李四能贷到10万,这二者是独立不影响的

  • 同分布:即不可能出现,都少贷你一万,或者都多贷你一万,即服从正态分布,也就是说离均值近的实例多,离均值圆的实例少 ,也就保证了绝大多数人被预测可贷的额度不至于那么离谱,在一个可控可接受范围之间的。如下 类似贫富
    (七)线性回归

  • 服从均值 为 0 ,说 等于0 过于理想 ,应该说测试样本最小值 ,也就是说在如下的二维特征分布图,这些离散分布的特征点中找到一条拟合直线,让分布其周围的离散点到到其最短距离的和的均值最小。这与如何找到这条最佳拟合线呢,这里给出一种方法,调节θ0x0
    (七)线性回归

假定误差ϵ(i)服从高斯分布公式如下,假设均值服从为0 即 如下 中的 μ=0

(1)p(ϵ(i))=12πσe((ϵ(i)μ)22σ2)

  • 此时将
    y(i)=θTx(i)+ϵ(i)
    变换 得到
    (2)ϵ(i)=y(i)θTx(i)
  • , 并且将(2)代入上面的误差高斯分布表达式(1),得到如下公式

p(y(i)|x(i);θ)=12πσe((y(i)θTx(i))22σ2)

  • 其中 p(y(i)|x(i);θ) 的意思是,找什么样的参数 θ 能够使的 θx(i)组合后 越接近于 y(i)的概率 值p 是越大

  • 由此需要似然函数 如下

    L(θ)=i=1mpi(y(i)|x(i);θ)=i=1m12πσe((y(i)θTx(i))22σ2)

  • 对于所有的样本来说 ,即 将p1, p2, p3, p4累乘在一起,即 θ要跟所有的样本进行组合,是的L(θ)最大
    ,也就是真实值y(i) 与 预测值 θTx(i)相等的概率最大,所以希望 得到一个\theta 使得L(\theta)的整体值是最大

  • 累乘求极值难度很大,所以需要 乘法转成加法 ,故 用log求解

    (3)ι(θ)=logL(θ)(4)=logi=1m12πσe((y(i)θTx(i))22σ2)(5)=i=1mlog12πσe((y(i)θTx(i))22σ2)(6)=mlog12πσ1σ212i=1m(y(i)θTx(i))2

    得到目标函数 J(θ)
    (7)J(θ)=12i=1m(hθ(x)y(i))2

    要是目标函数越小越好
    (8)J(θ)=12i=1m(hθ(x)y(i))2(9)=12(Xθy)T(Xθy)

    (10)θJ(θ)=θ(12(Xθy)T(Xθy))(11)=θ(12(XTθTyT)(Xθy))(12)=θ(12(θTXTXθθTXTyyTXθ+yTy))(13)=12((2XTXθXTy(yTX)T))(14)=XTXθXTy

  • 此时要算导数值等于零XTXθXTy=0的点,即求极值点,得到最终结果

    θ=(XTX)1XTy

    参考资料
    高斯分布
    正态分布
    线性回归的理解