Logistic回归算法
一.logistic回归要点概述
Logistic回归算法是机器学习中的较为简单的也是一般教学中首先讲解的算法.
对于Logisti回归,我们首先要知道它是一种二分类算法,不是回归算法.
其次,我们要知道Logistic回归的一个重要的函数:sigmoid函数以及为什么选用这个函数?这些在后面都会讲到.
最后,我们还要知道Logistic回归的目标函数是什么?如何用梯度下降法实现参数更新?等等......
二.Logistic回归
①sigmoid函数
sigmoid函数,也叫Logistic函数,它的表达式为:
当通过训练集训练得到合适的参数θ时,运用上面的式子我们可以得到每一个样本对应的一个预测值,通过给定的阈值就可以进行分类的操作.
sigmoid函数图像如下图所示(图片出自周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016)
那么,为什么选择sigmoid函数来进行分类呢?我认为有以下几点:
1.sigmoid函数定义域为,值域为,满足概率分布为的要求.用概率的方式去解决问题更具有说服性和可解释性.
2..sigmoid函数是单调递增的连续函数.不存在不连续的点.
3.它也是最贴近阶跃函数的一个函数,但是又很好的解决了阶跃函数的突变的问题.
具体的可以参照:https://blog.csdn.net/bitcarmanlee/article/details/51154481
②Logistic的推导
从前面我们知道,Logistic回归是一种计算概率进行分类的算法,这里我们记两个类别分别为:0和1.
则对于每一个样本:若这个样本属于1类别的概率为:
, (1)
则它属于0类别的概率为:
(2)
对于上面的两个式子可以合并写为:
(3)
我们知道当概率最大时,时间发生的可能性最大.根据最大似然估计(MLE),我们就是希望求得一组这样的参数θ,使得事件发生的几率最大,即使得下面的式子(4)最大:
(4)
对上式(4)求对数,再求解可以得到:
(5)
最终得到的批量梯度下降法(BGD)的表达式为:
(6)
此外根据参数更新的样本数量不同,还有随机梯度下降(SGD)和小批量梯度下降(MBDG).
三.小结
Logistic回归作为一种基于概率分类的算法,它具有很强的解释性,被广泛运用在*,银行等需要解释的项目中.
对于sigmoid函数,它不仅在这里有运用,在后面的SVM等算法中也有较多的运用,读者应当重点把握和理解.
注:由于水平有限,文中如有谬误,敬请指出,不胜感激!!!