机器学习(六):CS229ML课程笔记(2)——逻辑回归
上一篇文章记录了线性回归,下面要说一说逻辑回归。
一、监督学习:
当我们预测连续值的时候被称为回归regression问题,预测离散值被称为分类classification问题。
Part 2:
1.为什么要逻辑回归:
(参考链接)
我们套用Andrew Ng老师的课件中的例子,下图中X为数据点肿瘤的大小,Y为观测结果是否是恶性肿瘤。通过构建线性回归模型,如hθ(x)所示,构建线性回归模型后,我们设定一个阈值0.5,预测hθ(x)≥0.5的这些点为恶性肿瘤,而hθ(x)<0.5为良性肿瘤。
但很多实际的情况下,我们需要学习的分类数据并没有这么精准,比如说上述例子中突然有一个不按套路出牌的数据点出现,如下图所示:
你看,现在你再设定0.5,这个判定阈值就失效了,而现实生活的分类问题的数据,会比例子中这个更为复杂,而这个时候我们借助于线性回归+阈值的方式,已经很难完成一个鲁棒性很好的分类器了。
在这样的场景下,逻辑回归就诞生了。在逻辑回归模型中,y是一个定性变量,比如y=0或1,logistic方法主要应用于研究某些事件发生的概率
2.逻辑回归(Logistic regression):
先认识一个函数(logistic function or sigmoid function):
,g(z)在(0,1)之间。
从函数图上可以看出,函数y=g(z)在z=0的时候取值为1/2,而随着z逐渐变小,函数值趋于0,z逐渐变大的同时函数值逐渐趋于1,通过这个函数可以将原始线性回归得到的连续的输出结果映射到0到1的范围。
所以我们定义线性回归的预测函数为:
对上述函数的求导:
一般使用梯度下降法效果最好的是凸函数,如下图第二个,但是我们目前面对的是非凸函数,有多个局部最低点,如图第一个,所以之前先行回归的求解方式在这里的效果可能不好。(下图来自博客https://blog.****.net/zjuPeco/article/details/77165974)
3.逻辑回归的求解(找代价函数)
3.1 从概率论角度:
我们把hθ(x)(就是上面的g(θT·x)视为类为1 的后验概率:(这是假设条件)
(1)
上面的公式(1)可以被写成下面的这个式子(将y=0或者y=1带入会有很奇妙的事情发生):
(2)
公式(2)是一个训练集,如果有m个独立的训练集,用极大似然估计给定的训练集:
(3)
也就是求上述公式(3)的最大概率对应的θ,对这个函数去log,方便求解:
这就是代价函数了。如果样本的值是1的话,估计值h(z)越接近1付出的代价就越小,估计值越接近0付出的代价就越大;如果样本的值是0的话,估计值h(z)越接近1付出的代价就越大,估计值越接近0付出的代价就越小;
此时在用类似梯度下降法的梯度上升法(gradient ascent),因为前面是求误差最小,这里是求概率最大。(也可以在整个式子前面加个符号就变成就函数最小啦,再用梯度下降)
更新θ的公式:
求解过程(里面用到了前面推导的g'(z) = g(z)(1-g(z)):
最后得到:
α是学习率。
发现和之前最小二乘的结果很相似,但不相同。后面学了GLM会具体解释原因哒~
如果对上述过程还是不理解,推荐一篇好博文:逻辑回归(logistic regression)的本质——极大似然估计
3.2 感知机学习算法:
在此穿插另外一种算法: The perceptron learning algorithm
强迫输出结果只能为两个,0或者1:
也就是用这个阈值函数(threshold function)代替了上面的sigmoid function,
其他的和上面求解没有区别。
3.3 牛顿法
牛顿除了上述的梯度上升法的另外一种最大化的方式。
“基本牛顿法是一种是用导数的算法,它每一步的迭代方向都是沿着当前点函数值下降的方向。”(来自链接)
因为我们现在求得是的极值,所以将上述的
变成
,以公式(1)进行不断迭代,最后即可得到极值的横坐标。
下面要说的就是的二阶倒数的求法。公式(1)在此问题中可以用下面公式替代,这是换了一种写法:
其中表示
对θ的一阶偏导数,H 表示的是二阶偏导数,也被称为 Hessian,是个m×m的矩阵。
总结:牛顿方法Newton’s method一般比 (batch) gradient descent方法的迭代次数少,但是它的每个循环的代价较大,因为每次都要计算一个m×m的H矩阵,当样本m不是很大大的时候,这种方法比梯度下降收敛的更快。当牛顿法被用来解逻辑回归的 log likelihood function求最大问题的时候被称作 Fisher scoring.
Linear Regression 和logistic Regression都是属于GLM,套了logistic之后,输出结果就变成一个概率了,loss function和 likelihood function取反是类似的东西,都可以作为优化的目标。loss function 直接对残差求平方和,直觉上也是挺合理的;当然,对于logistic Regression来说,概率值求残差就说不太通了,更重要的原因是非凸函数,不好求解。