一.线性回归
1.数学概念
线性回归是利用数理统计中的回归分析,来确定两种,或两种以上变量关系的一种统计方法。简而言之,对于输入x与输出y有一个映射f,y=f(x),f的形式为wx+b,其中w,b为可调参数,训练w,b
线性模型y=fw(x)=w0+i=1∑nwixix=wTx
x=(1,x1,x2⋅⋅⋅⋅xn)


2 .损失函数 loss function
wminN1i=1∑NL(yi,fw(xi))
MSE:L(yi,fw(xi))=21(yi−fw(xi))2

3.梯度更新


3.1 批量梯度下降算法Batch Gradient Descent
优化函数
J(w)=2N1i=1∑N(yi−fw(xi))2wminJ(w)
根据整个批量数据的梯度更新参数 wnew=wold−η∂w∂J(w)
∂w∂J(w)=−N1i=1∑N((yi−fw(xi)∂w∂fw(xi))=−N1i=1∑N(yi−fw(xi)xi
wnew=wold+ηN1i=1∑N(yi−fw(xi)xi
3.2 随机梯度下降Stochastic Gradient Descent
优化函数
J(i)(w)=21(yi−fw(xi))2wminN1i∑J(i)(w)
根据整个批量数据的梯度更新参数 wnew=wold−η∂w∂J(w)
∂w∂J(i)(w)=−(yi−fw(xi)∂w∂fw(xi))=−(yi−fw(xi))xi
wnew=wold+η(yi−fw(xi))xi
3.3 小批量梯度下降Mini-Batch Gradient Descent
批量梯度下降和随机梯度下降的结合
1.将整个训练集分成K个小批量(mini-batches)
{1,2,3,⋯,k}
2.对每一个小批量k,做一个批量下降来降低
J(k)(w)=2Nk1i=1∑Nk(yi−fw(xi))2
3.对于每一个小批量,更新参数
wnew=wold−η∂w∂J(k)(w)
未完待续----------------------------------------------------------------------------------------------------------
后期比较优化算法
