回归

回归

首先理解回归与分类的区别:回归的y值是针对连续值的,而分类中的y值则为离散值。
下面介绍几种重要的回归

线性回归

通常回归可以写成这样的形式(两个变量):hθ(x)=θ0+θ1x1+θ2x2
而对于多变量的情况,则可以写成向量形式:hθ(x)=i=0mθixi=θTx
对于回归,我们最常用的方法是最小二乘,下面通过极大似然估计来解释最小二乘。
对于回归函数:y(i)=θTx(i)+ε(i)
我们假设误差ε(i)(1im)是独立同分布的,且服从均值为0,方差为σ2的高斯分布。
所以有:p(ε(i))=12πσexp((ε(i))22σ2)
p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2)
L(θ)=i=1mp(y(i)|x(i);θ),即:L(θ)=i=1m12πσexp((y(i)θTx(i))22σ2)
对数似然函数为:
回归
目标函数为:J(θ)=12i=1m(y(i)θTx(i))2
下面求解θ:
目标函数:J(θ)=12i=1m(y(i)θTx(i))2=12(Xθy)T(Xθy)
其中M个N维样本组成矩阵X:
–X的每一行对应一个样本,一共有M个样本
–X的每一列对应一个特征,一共有N个特征,还有一维常数项,全为1.
计算梯度:
回归
参数的解析式:θ=(XTX)1XTy
XTX不可逆或者为了防止过拟合,需要增加λ扰动:θ=(XTX+λI)1XTy
说明:XTX是半正定的,则对于XTX+λI一定是正定的,从而XTX+λI可逆,则参数一定有解。
线性回归的正则项(防止过拟合):
目标函数为:J(θ)=12i=1m(y(i)θTx(i))2
L1-正则项:J(θ)=12i=1m(y(i)θTx(i))2+λj=1n|θj|
L2-正则项:J(θ)=12i=1m(y(i)θTx(i))2+λj=1nθj2
Elastic Net:回归
说明:对于线性回归,L1正则化就相当于岭回归,L2正则化就相当于岭回归。

logistic回归

Logistic/Sigmoid函数
回归
hθ(x)=g(θTx)=11+eθTx
g(x)=(11+ex)=ex(1+ex)2,g(x)=11+exex1+ex=11+ex(111+ex)=g(x)(1g(x))
Logistic回归参数估计
假设:P(y=1|x;θ)=hθ(x);P(y=0|x;θ)=1hθ(x)
p(y|x;θ)=(hθ(x))y(1hθ(x))1y
似然函数:
回归
对数似然:
回归
对数线性模型
一个事件的几率odds,是指该事件发生的概率与不发生的概率的比值。
对数几率:logit函数
P(y=1|x;θ)=hθ(x)
P(y=0|x;θ)=1hθ(x)
回归
Logistic回归的损失函数yi{0,1}
回归
回归
Logistic回归的损失函数yi{1,1}
回归
回归

广义线性模型GLM

y不再只是高斯分布,而是扩大为指数族中的任意分布;
变量xg(x)y,连接函数g单调可导。
如线性回归中g(z)=z;logistic回归中g(z)=11+ez

Softmax回归

K分类,第k类的参数为θk,组成二维矩阵θk×n
概率:p(c=k|x;θ)=exp(θkTx)l=1Kexp(θlTx),k=1,2,K
似然函数:
回归
对数似然:
回归
随机梯度:J(θ)θk=(ykp(yk|x;θ))x