逻辑回归

1.什么是逻辑回归?
逻辑回归本质上是线性回归，在特征得到结果的映射中加入一层函数映射，该函数将特征值线性求和的结果(连续值)映射到0和1上(离散值)
2.逻辑回归为什么选择sigmoid作为映射函数？
1）对逻辑回归模型，目标是最大化条件似然度，对于给定已知x，表示其对应类标记y出现的概率p(y|x;w)，通常对于一个有效分类器，w，x代表数据属于正类y=1的置信度，函数(sigmoid)可以将w，x映射到条件概率，即说明出现的可信度；
2）sigmoid的性质：函数单调上升，连续可导
3）sigmoid函数

导数的特殊性质：

3.逻辑回归中损失函数
在逻辑回归中，y{0,1},依据概率论，其属于对应类别的概率为：

将二者合并，即：

假设该训练集有m个样本，构造其似然函数：

按照极大似然的思路，此处应该极大化似然函数求极值，而逻辑回归把极大化当做一种思想，进而推导它的经验风险函数，最小化负的似然函数(最大化似然函数和最小化负的似然函数达到一样的目的)
为了计算其平均损失，添加一个额外的缩放系数：
最后其损失函数为：

说明，交叉熵损失函数为：

所以，逻辑回归的损失函数可以认为是交叉熵函数的一个应用；
我们求解的问题转化为：

4.梯度下降求解参数
1）前提：如果求解的目标是最小化损失函数，可以使用梯度下降的方法，但如果求解的目标是最大化似然函数，则可以使用梯度上升的方法；(二者基于一样的出发点，沿着相反的方向，得到两种不同的结果)
2）将损失函数中的b和w，组合形成参数矩阵逻辑回归；
梯度下降法中的更新过程:

最终求得参数更新为：

梯度下降算法：
其优化思想是用当前位置负梯度方向作为搜索方向，因为该方向为当前位置的最快下降方向，所以也被称为是”最速下降法“。最速下降法越接近目标值，步长越小，前进越慢。
存在的问题：
1）靠近极小值时收敛速度减慢；
2）直线搜索时可能会产生一些问题；
3）可能会“之字形”地下降。
批量梯度下降：最小化所有训练样本的损失函数，使得最终求解的是全局的最优解，即求解的参数是使得风险函数最小，但是对于大规模样本问题效率低下。
随机梯度下降：最小化每条样本的损失函数，虽然不是每次迭代得到的损失函数都向着全局最优方向，但是大的整体的方向是向全局最优解的，最终的结果往往是在全局最优解附近，适用于大规模训练样本情况
5.牛顿法
出发点：假设任务是优化一个目标函数f，求函数f的极大极小问题，可以转化为求解函数f的导数f’=0的问题，这样求可以把优化问题看成方程求解问题（f’=0）
目标函数逻辑回归在x处的二阶泰勒展开式为：

当固定x时，如何取v值可以使得目标函数最小，在上式中同时对v求偏导：

令偏导数为0，得：

解得：

所以x的更新公式为：

优点与缺点：
优点：二阶收敛，收敛速度快；
缺点：迭代算法，每一步都需要求解目标函数的Hessian矩阵的逆矩阵，计算比较复杂；
与梯度下降的比较：
牛顿法是二阶收敛，梯度下降是一阶收敛，所以牛顿法就更快。如果更通俗地说的话，比如你想找一条最短的路径走到一个盆地的最底部，梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步，牛顿法在选择方向时，不仅会考虑坡度是否够大，还会考虑你走了一步之后，坡度是否会变得更大。所以，可以说牛顿法比梯度下降法看得更远一点，能更快地走到最底部。（牛顿法目光更加长远，所以少走弯路；相对而言，梯度下降法只考虑了局部的最优，没有全局思想；）
6.拟牛顿法
拟牛顿法的本质思想:改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷，它使用正定矩阵来近似Hessian矩阵的逆，从而简化了运算的复杂度；
海塞矩阵：一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵(即所谓的二阶偏导数矩阵)
逻辑回归
拟牛顿法条件
对函数f(x)在x=处进行泰勒展开：

对f(x)关于x求偏导数：

在牛顿法中，我们得到海塞矩阵，然后对f(x)的导数赋值为0，得到x的值。
为了得到海塞矩阵需要满足的条件，于是我们令x=xk得到：

整理后为：
逻辑回归
简化符号表达式后：

可以导出式子：

上式中为海塞矩阵，为海塞矩阵的逆矩阵
依据上述中的两个公式，分别产生DFP和BFGS方法
1)DFP(逐步逼近迭代)–构造近似海塞矩阵的逆矩阵
迭代公式：
由于海塞矩阵为正定矩阵，所以将增量设为：
逻辑回归
将增量表达式带入条件表达式中，得：

其中：是1*1矩阵，即是一个数，转化上述表达式

最终得到增量表达式：

2）BFGS算法是用直接逼近海塞矩阵的方式来构造近似海塞矩阵
迭代公式：

利用Sherman-Morrison公式，求解其逆矩阵：
逻辑回归
3）二者比较说明：
通过泰勒展开式获得关于海塞矩阵(或海塞矩阵逆矩阵)作为拟牛顿的条件：
DFP：依赖海塞矩阵的逆矩阵作为出发点，利用海塞矩阵的特征(可逆)，逐步推导其增量表达式；
BFGS：依赖海塞矩阵作为出发点，使用和DFP近似的推导方法，构早其增量表达式，最终求得其逆矩阵，作为结果；
4）L-BFGS(Limited-memory BFGS)
出发点：在BFGS算法中，当N足够大时，矩阵的存储成为很难解决的问题，所以L-BFGS通过试图存储一部分序列(存储全部也需要很大的空间，此处使用降低准确性来减少存储压力)，当需要矩阵时通过计算的方式获得，从而来解决存储的问题；
7.多分类问题
1）softmax形式

在softmax中有k个类别，我们分别求每一个出现的值，然后根据归一化的思想，将其转化为对应类别出现的概率；
类比于逻辑回归的处理办法，
softmax损失函数：

参数更新为：

相关推荐