逻辑回归

1.什么是逻辑回归?
逻辑回归本质上是线性回归,在特征得到结果的映射中加入一层函数映射,该函数将特征值线性求和的结果(连续值)映射到0和1上(离散值)
2.逻辑回归为什么选择sigmoid作为映射函数?
1)对逻辑回归模型,目标是最大化条件似然度,对于给定已知x,表示其对应类标记y出现的概率p(y|x;w),通常对于一个有效分类器,w,x代表数据属于正类y=1的置信度,函数(sigmoid)可以将w,x映射到条件概率,即说明出现的可信度;
2)sigmoid的性质:函数单调上升,连续可导
3)sigmoid函数
逻辑回归
导数的特殊性质:
逻辑回归
3.逻辑回归中损失函数
在逻辑回归中,y逻辑回归{0,1},依据概率论,其属于对应类别的概率为:
逻辑回归
将二者合并,即:
逻辑回归
假设该训练集有m个样本,构造其似然函数:
逻辑回归

按照极大似然的思路,此处应该极大化似然函数求极值,而逻辑回归把极大化当做一种思想,进而推导它的经验风险函数,最小化负的似然函数(最大化似然函数和最小化负的似然函数达到一样的目的)
为了计算其平均损失,添加一个额外的缩放系数:逻辑回归
最后其损失函数为:
逻辑回归
说明,交叉熵损失函数为:
逻辑回归
所以,逻辑回归的损失函数可以认为是交叉熵函数的一个应用;
我们求解的问题转化为:
逻辑回归
4.梯度下降求解参数
1)前提:如果求解的目标是最小化损失函数,可以使用梯度下降的方法,但如果求解的目标是最大化似然函数,则可以使用梯度上升的方法;(二者基于一样的出发点,沿着相反的方向,得到两种不同的结果)
2)将损失函数中的b和w,组合形成参数矩阵逻辑回归
梯度下降法中逻辑回归的更新过程:
逻辑回归
逻辑回归
最终求得参数更新为:
逻辑回归
梯度下降算法:
其优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。
存在的问题:
1)靠近极小值时收敛速度减慢;
2)直线搜索时可能会产生一些问题;
3)可能会“之字形”地下降。
批量梯度下降:最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。
随机梯度下降:最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况
5.牛顿法
出发点:假设任务是优化一个目标函数f,求函数f的极大极小问题,可以转化为求解函数f的导数f’=0的问题,这样求可以把优化问题看成方程求解问题(f’=0)
目标函数逻辑回归在x处的二阶泰勒展开式为:
逻辑回归
当固定x时,如何取v值可以使得目标函数最小,在上式中同时对v求偏导:
逻辑回归
令偏导数为0,得:
逻辑回归
解得:
逻辑回归
所以x的更新公式为:
逻辑回归
优点与缺点:
优点:二阶收敛,收敛速度快;
缺点:迭代算法,每一步都需要求解目标函数的Hessian矩阵的逆矩阵,计算比较复杂;
与梯度下降的比较:
牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。(牛顿法目光更加长远,所以少走弯路;相对而言,梯度下降法只考虑了局部的最优,没有全局思想;)
6.拟牛顿法
拟牛顿法的本质思想:改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度;
海塞矩阵:一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵(即所谓的二阶偏导数矩阵)
逻辑回归
拟牛顿法条件
对函数f(x)在x=逻辑回归处进行泰勒展开:
逻辑回归
对f(x)关于x求偏导数:
逻辑回归
在牛顿法中,我们得到海塞矩阵,然后对f(x)的导数赋值为0,得到x的值。
为了得到海塞矩阵需要满足的条件,于是我们令x=xk得到:
逻辑回归
整理后为:
逻辑回归
简化符号表达式后:
逻辑回归
可以导出式子:
逻辑回归
上式中逻辑回归为海塞矩阵,逻辑回归为海塞矩阵的逆矩阵
依据上述中的两个公式,分别产生DFP和BFGS方法
1)DFP(逐步逼近迭代)–构造近似海塞矩阵的逆矩阵
迭代公式:逻辑回归
由于海塞矩阵为正定矩阵,所以将增量设为:
逻辑回归
将增量表达式带入条件表达式中,得:
逻辑回归
其中:逻辑回归是1*1矩阵,即是一个数,转化上述表达式
逻辑回归
逻辑回归
逻辑回归
最终得到增量表达式:
逻辑回归
逻辑回归
2)BFGS算法是用直接逼近海塞矩阵的方式来构造近似海塞矩阵
迭代公式:
逻辑回归
逻辑回归
逻辑回归
逻辑回归
逻辑回归
逻辑回归
利用Sherman-Morrison公式,求解其逆矩阵:
逻辑回归
3)二者比较说明:
通过泰勒展开式获得关于海塞矩阵(或海塞矩阵逆矩阵)作为拟牛顿的条件:
DFP:依赖海塞矩阵的逆矩阵作为出发点,利用海塞矩阵的特征(可逆),逐步推导其增量表达式;
BFGS:依赖海塞矩阵作为出发点,使用和DFP近似的推导方法,构早其增量表达式,最终求得其逆矩阵,作为结果;
4)L-BFGS(Limited-memory BFGS)
出发点:在BFGS算法中,当N足够大时,矩阵的存储成为很难解决的问题,所以L-BFGS通过试图存储一部分序列(存储全部也需要很大的空间,此处使用降低准确性来减少存储压力),当需要矩阵时通过计算的方式获得,从而来解决存储的问题;
7.多分类问题
1)softmax形式
逻辑回归
在softmax中有k个类别,我们分别求每一个出现的值,然后根据归一化的思想,将其转化为对应类别出现的概率;
类比于逻辑回归的处理办法,逻辑回归
softmax损失函数:
逻辑回归
逻辑回归
参数更新为:
逻辑回归