机器学习算法系列(3)：逻辑斯蒂回归

一.逻辑斯蒂回归模型

(一)逻辑斯蒂分布

概率分布函数和概率密度函数：设X是连续随机变量

上式中，μ为位置参数，γ>0为形状参数

概率密度函数和分布函数曲线

机器学习算法系列(3)：逻辑斯蒂回归

逻辑斯蒂分布的概率分布函数属于逻辑斯蒂函数，其图形是一条S形曲线，且曲线以(μ，1/2)为中心对称，即满足：
$F(-x+μ)-1/2=-F(x-μ)+1/2$
分布函数曲线在中心附近增长得比较快，在两端增长速度较慢；形状参数γ越小，曲线在中心附近增长得越快。

（二）逻辑斯蒂模型

逻辑斯蒂模型是基于LR模型的

1.LR模型及其表达式

LR模型表达式为参数化的逻辑斯蒂函数（默认参数为μ = 0，γ = 1），即得到的概率分布函数作为目标预测函数
$h_θ(x) = 1/(1+e^y)$

$y = -θ^Tx$

把h_θ(x)作为事件结果z=1(标签值)的概率取值，上述x是(n+1)维的向量，标签值z∈{0,1}，θ是权值向量，权值向量中包含偏置项。

2.二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布P(Y|X)表示，形式为参数化的逻辑斯蒂分布，随机变量x为实数，随机变量Y取值为1或0.通过监督学习的方法来估计模型参数。

定义：二项逻辑斯蒂回归模型是如下的条件概率分布：
$P(Y = 1|x) = exp(w·x+b)/[1+exp(w·x+b)]$

$P(Y = 0|x) = 1/[1+exp(w·x+b)]$

$这里x∈R^n是输入,Y∈\{0,1\}是输出$

对于给定的输入实例x，按照上述两个式子可以求得P（Y = 1|x）和P（Y = 0|x），逻辑斯蒂回归通过比较两个条件概率值的大小，将实例x分到概率值较大的那一类。

有关与对逻辑斯蒂模型的理解会在后文“对LR模型的理解”出提到，因为逻辑斯蒂模型本质就是基于LR模型的

二.LR模型的理解（三个层次）

1.对数几率

一个事件发生的几率为该事件发生的概率与该事件不发生的概率的比值。如果时间发生的概率是p，那么该事件的几率为p/(1-p)，那么事件的对数几率（logit函数）为：
$logit(p) = log(p/(1-p))$
LR模型的对数几率就是由输入x的线性函数表示的模型，即LR模型本身：
$log(h_θ(x)/(1-h_θ(x))) = θ^Tx$

2.函数映射

对输入实例x进行分类的线性表达式为θ^{T，但其运算结果θ}Tx为实数值，通过LR模型可以把实数值映射到(0,1)区间，取值表示为结果为1的概率（二分类问题场景中）。
LR模型：线性函数的值越接近正无穷大，概率值就接近1；线性函数的值越接近负无穷大，概率值就越接近0。
LR模型的本质：还是线性回归，只不过线性函数（特征）到最终结果之间加了一层函数进行映射（LR模型采取的是sigmoid函数），也就是从输入到特征是对x进行线性变换，然后再利用sigmoid函数将线性变换的结果约束到(0,1)之间，这个结果可以用于二分类或者回归预测。

此处与前一篇《线性回归》中，广义线性模型的解释是相通的，具体可以参考下文中四.2小节

https://blog.csdn.net/kodoshinichi/article/details/106892558

3.概率解释

应用背景：LR模型多用于解决二分类问题，比如说是是否点击广告，是否购买商品；但是在实际场景中，我们使用LR模型并没有将其处理成绝对的分类问题，而是利用LR模型的结果作为某一事件发生的概率。
概率解释：（从概率与统计的角度，通过事件，随机变量，试验结果的角度对LR模型进行阐释）
- 把训练数据x称作观测样本，一个样本就可以理解为发生的一次事件，因为是二分类，则这个事件发生只产生两种结果，这个符合伯努利试验的假设。综上，可以把样本的生成过程看做是伯努利试验过程，因此产生的结果是服从伯努利分布的。P(y = 1) =hθ(x),P(y = 1) = 1-hθ(x)
- 对于第i个样本，概率公式表示如下：
  $P(y^i = 1|x^i;θ) = h_θ(x^i)；P(y^i = 0|x^i;θ) = 1-h_θ(x^i)$
  将上述公式合并在一起，可以得到第i个样本正确预测的概率，其概率式符合0-1分布的模式
  $P(y^i |x^i;θ) = h_θ(x^i)^y *(1-h_θ(x^i))^t,t = 1-y^i$
- 上面的概率表示公式是对一个样本进行建模的数据表达。对于所有的样本，假设每条样本生成过程独立，在整个样本空间中(N个样本)的概率分布（似然函数）为：
  $P(Y|X;θ)=∏(h_θ(x^i)^y(1-h_θ(x^i)^t)),t=1-y^i$
  因为我们的目标是希望所有的样本都尽可能地预测准确，因此希望可以求得上式的最大值，可以通过极大似然估计求得概率参数。

伯努利试验：结果只有两次的实验

n重伯努利试验：进行了n相互独立的伯努利试验
可以把n重伯努利试验看做是n次独立实验，且每次试验的随机变量均符合0-1分布
这样就可以理解n重伯努利试验的概率公式就等同于二项分布的概率公式

0-1分布概率模型：
$P(X=k)=p^k(1-p)^t,t=1-k$
二项分布概率模型：
$P\{X=k\}=Cn^kp^k(1-p)^t,t=n-k$

三.模型参数估计

1.sigmoid函数

机器学习算法系列(3)：逻辑斯蒂回归

2.参数估计推导

结合二.3.部分的概率解释中极大似然函数的公式，通过极大似然求解得到参数

似然函数表达式：参数θ似然性的函数表达式（似然函数表达式）

极大似然求解：利用已知的样本分布，找到最有可能（最大概率）导致这种分布的参数值，或者说找到一组参数，这组参数使得我们观测到的目前这组数据的概率最大。

似然函数表达式：

对于所有的样本，假设每条样本生成过程独立，在整个样本空间中(N个样本)的概率分布（似然函数）为：
$P(Y|X;θ)=∏(h_θ(x^i)^y(1-h_θ(x^i)^t)),t=1-y^i$
因为我们的目标是希望所有的样本都尽可能地预测准确，因此希望可以求得上式的最大值，可以通过极大似然估计求得概率参数。
对数极大似然求解
为了方便数学求解，对上学累乘式的似然函数求对数，得到对数似然函数
- $l(θ)=∑log^l = ∑y^ilog(h_θ(x^i))+(1-y^i)log(1-h_θ(x^i))$
针对每一个样本i，对每一个参数wj求偏导

机器学习算法系列(3)：逻辑斯蒂回归

①最大化对数似然函数其实就是最小化交叉熵误差

②通过极大似然求解得到的逻辑斯蒂回归的变换模型和线性回归的变换模型是一致的
表示形式一致，但是目标函数h_θ(x)的表达式不同

分类边界——逻辑斯蒂回归的几何理解
- 决策函数：y*=1，if p(y=1|x)>0.5;
  
  式中 0.5是一个可选的阈值，一般取0.5，但如果要求判别正例的准确性要求高，可以选择阈值大一些；如果要求正例的召回率较高，则可以选择阈值小一些。
- 逻辑回归的本质：还是一个线性模型（强调：前文也说过逻辑回归本质是一个线性模型，但那个是通过代数表达式和广义线性模型来理解的；以下要从几何的角度）
  
  θ^Tx=0是模型隐含的分类平面（在高维空间，就称之为超平面）；
  
  但是逻辑回归也是可以处理非线性问题的，可以通过特征变换的方式把低维非线性空间转换成高维线性空间

四.逻辑斯蒂回归的相关延伸

1.逻辑回归与贝叶斯

等复习到贝叶斯会回来补坑的

2. 多分类/多元逻辑回归

机器学习算法系列(3)：逻辑斯蒂回归

3.逻辑回归与SVM

复习到SVM再来补坑

五.后记

参考文档：

《统计学习方法》李航

某不知名pdf文档
实践指路：
实验楼机器学习公开课

机器学习算法系列(3)：逻辑斯蒂回归

一.逻辑斯蒂回归模型

(一)逻辑斯蒂分布

（二）逻辑斯蒂模型

1.LR模型及其表达式

2.二项逻辑斯蒂回归模型

二.LR模型的理解（三个层次）

1.对数几率

2.函数映射

3.概率解释

三.模型参数估计

1.sigmoid函数

2.参数估计推导

四.逻辑斯蒂回归的相关延伸

1.逻辑回归与贝叶斯

2. 多分类/多元逻辑回归

3.逻辑回归与SVM

五.后记

相关推荐