线性回归模型

线性回归模型

  首先明确回归模型的定义或者说回归模型和分类模型的区别:预测值是一个连续变量

一个常见的误解是linear model和linear regression之前的区别,线性模型是指对于参数ww是线性的,而提到线性回归又往往值对x的线性组合

Linear Basic Function Models

线性回归 linear regression

最简单的的线性模型:对输入向量的线性组合

y(x,w)=w0+w1x1++wDxD y(\textbf{x},w)=w_0+w_1x_1+\cdots+w_Dx_D

此模型既是参数ww的线性函数,也是输入变量xix_i的线性函数

Linear Basic Function Models

单纯的线性组合使模型有较大的局限性,所以有如下扩展
y(x,w)=w0+j=1M1wjϕj(x) y(\textbf{x},w)=w_0+\sum_{j=1}^{M-1}w_j\phi_j(x)
ϕj\phi_j称为基函数(basic function)

ϕ0(x)=1\phi_0(x)=1,则上式可以化作
y(x,w)=j=0M1wjϕj(x)=wTϕ(x) y(\textbf{x},w)=\sum_{j=0}^{M-1}w_j\phi_j(x)=\textbf{w}^T\boldsymbol{\phi}(\mathbf{x})

Basic function
  • ϕj=xj\phi_{j}=x_{j}

  • ϕj=exp{(xμj)22s2}\phi_{j}=\exp\{-\frac{(x-\mu_j)^2}{2s^2}\}

  • ϕj(x)=σ(xμjs)\phi_j(x)=\sigma(\frac{x-\mu_{j}}{s})

  • tanh=2σ(a)1tanh=2\sigma(a)-1

最大似然和最小二乘

正常来说最大似然法是参数估计的方法,但是可以通过假设模型有一个高斯噪声,来用最大似然求解xx问题。

目标变量tt,确定性函数y(x,w)y(\mathbf{x},w),高斯噪声ϵ\epsilon
t=y(x,w)+ϵ t=y(\mathbf{x},w)+\epsilon
p(tX,w,β)=i=1NN(tnwTϕ(xn),β1)p(\mathbf{t}|X,w,\beta)=\prod_{i=1}^N\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})
ln(tw,β)=n=1NlnN(tnwTϕ(xn),β1)=N2lnβN2ln(2π)βED(w)ED=12n=1N(tnwTϕ(xn))2 ln(\mathbf{t}|w,\beta)=\sum_{n=1}^N ln\mathcal{N}(t_n|w^T\phi(x_n),\beta^{-1})\\ =\frac{N}{2}ln\beta-\frac{N}{2}ln(2\pi)-\beta E_D(w)\\ E_D=\frac{1}{2}\sum_{n=1}^N(t_n-w^T\phi(x_n))^2
wln(tw,β)=0wML=(ΦTΦ)1ΦTtΦ=[ϕ0(x1)ϕ1(x1)ϕM1(x1)ϕ0(xN)ϕ1(xN)ϕM1(xN)] \nabla_w ln(\mathbf{t}|w,\beta)=0\\ w_{ML}=(\Phi^T\Phi)^{-1}\Phi^Tt\\ \Phi=\begin{bmatrix} \phi_{0}(x_{1})&\phi_{1}(x_{1})&\cdots&\phi_{M-1}(x_{1})\\ \cdots&\cdots&\cdots&\cdots\\ \phi_{0}(x_{N})&\phi_{1}(x_{N})&\cdots&\phi_{M-1}(x_{N}) \end{bmatrix}
所以可以看出使用最大似然法求解w的方法和使用最小二乘法求解的方法是等价的

Sequential learning

使用最大似然法求出的参数ww是使用全部数据计算而出的,对于较大的数据集其计算量是不可接受的。所以可以分批利用数据集,此方法s称作sequential learning
他有一个更有名的名字:随机梯度下降
wτ+1=wτηEn w^{\tau+1}=w^{\tau}-\eta\nabla E_n

正则化最小二乘

为了避免过拟合,我们在损失函数中加入正则化项
ED(w)+λEW(w) E_D(w)+\lambda E_W(w)
λ\lambda为正则化系数
常见的正则化函数
EW(w)=12wTw E_W(w)=\frac{1}{2}w^Tw
可以解得有正则化下ww的解
w=(λI+ΦTΦ)1ΦTt w=(\lambda I+\Phi^T\Phi)^{-1}\Phi^T t

从约束问题理解正则化
min EDs.t. EWη min\ E_{D}\\ s.t.\ E_W\le \eta
线性回归模型