初级算法梳理之任务二：逻辑回归算法梳理

时间匆匆，贵在坚持啊。
忙着考研调剂，忙着毕设论文，总觉得考研的过程学的东西，在浪费时间；也会觉得毕设论文，为了备考，也选了个简单的，依旧觉得浪费着时间。
在能够为喜欢的东西坚持花上一些时间，就会觉得很值得。希望忙完后，能为自己喜欢的忙，能为自己认为值得的东西忙活。

学习内容
1、逻辑回归与线性回归的联系与区别
2、逻辑回归的原理
3、逻辑回归损失函数推导及优化
4、正则化与模型评估指标
5、逻辑回归的优缺点
6、样本不均衡问题解决办法
7、sklearn参数

1、逻辑回归与线性回归的联系与区别

逻辑回归：逻辑回归(LogisticRegression)又称对数几率回归，是一种广义的线性回归分析模型。广义线性模型(generalized linear model) 是在普通线性模型的基础上，对其进行推广而得出的应用范围更广，更具实用性的回归模型。

“回归”一般是用于预测样本的值，这个值通常是连续的。但是受限于其连续的特性，一般用它来进行分类的效果往往很不理想。为了保留线性回归“简单效果有不错”的特点，又想让它能够进行分类，因此需要对预测值再做一次处理。这个多出来的处理过程，就是GLM所做的最主要的事。而处理过程的这个函数，我们把它叫做连接函数。

当一个处理样本的回归模型是线性模型，且连接函数满足一定特性（特性下面说明）时，我们把模型叫做广义线性模型。（特殊的，当连接函数是 f(x)=x 时，其实就是线性回归。）

联系：逻辑回归与线性回归同属于广义线性模型，模型形式相似，只是其连接函数不同。
区别：
1）线性回归要求变量服从正态分布，logistic回归对变量分布没有要求。
2）线性回归要求因变量是连续性数值变量，而logistic回归要求因变量是分类型变量。
3）线性回归要求自变量和因变量呈线性关系，而logistic回归不要求自变量和因变量呈线性关系
4）logistic回归是分析因变量取某个值的概率与自变量的关系，而线性回归是直接分析因变量与自变量的关系

2、逻辑回归的原理

虽然叫做逻辑回归，但是该算法是分类算法，逻辑回归用了和回归类似的方法来解决分类问题。线性回归模型产生的预测值是实值y_hat，而考虑二分类问题，输出标记y∈{0,1}，可以把线性回归产生的预测值y_hat转化成0/1值，找到一个单调可微函数将分类任务的预测值y_hat转化成0和1。对数几率函数即“sigmoid"函数，可以讲预测值y_hat转化为一个接近0或1的y_p概率值。
初级算法梳理之二
Logistic回归是对特征(feature)做加权相加后，输入给Sigmoid函数，用Sigmoid函数的输出来确定二分类的结果。

其中的logistic就是sigmoid函数，因为它也叫logistic函数。它与logit函数互为反函数。

其中的回归在这里的含义可以理解为最佳拟合，表示要找到最佳拟合参数集用于对特征加权。训练分类器就是用最优化方法去寻找最佳拟合参数。

3、逻辑回归损失函数推导及优化

初级算法梳理之二
y = 1 时：-log§ ∈(+,0] ,如果给定样本真值y = 1，估计出来的p值越小，越倾向于将预估值y分类为0，估计错误，损失越大。
y = 0 时：-log(1-p)∈[0,+)，如果给定样本真值y = 0，估计出来的p值越大，越倾向于将预估值y分类为1，估计错误，损失越大。

4、正则化与模型评估指标

正则化：为防止过拟合，提升模型泛化能力，我们需要对所有特征参数（除θ0θ0外）进行惩罚，即保留所有特征，减小参数θθ的值，当我们拥有很多不太有用的特征时，正则化会起到很好的作用。一般我们不知道是哪个参数导致过拟合，所以我们惩罚所有的参数。
初级算法梳理之二

5、逻辑回归的优缺点

优点：
1）适合需要得到一个分类概率的场景。
2）计算代价不高，容易理解实现。LR在时间和内存需求上相当高效。它可以应用于分布式数据，并且还有在线算法实现，用较少的资源处理大型数据。
3）LR对于数据中小噪声的鲁棒性很好，并且不会受到轻微的多重共线性的特别影响。（严重的多重共线性则可以使用逻辑回归结合L2正则化来解决，但是若要得到一个简约模型，L2正则化并不是最好的选择，因为它建立的模型涵盖了全部的特征。）

缺点：
1）容易欠拟合，分类精度不高。
2）数据特征有缺失或者特征空间很大时表现效果并不好。

6、样本不均衡问题解决办法

1）扩大数据集
2）尝试增加其他评价指标F1/Recall/Kappa/ROC
3）重采样（上采样、下采样）
4）其他分类模型
5）增加惩罚项

7、sklearn参数

fix(X,y[,sample_weight])：训练模型。
predict(X)：用模型进行预测，返回预测值。
score(X,y[,sample_weight])：返回（X，y）上的预测准确率（accuracy）。
predict_log_proba（X）：返回一个数组，数组的元素一次是 X 预测为各个类别的概率的对数值。
predict_proba（X）：返回一个数组，数组元素一次是 X 预测为各个类别的概率的概率值。
sparsify()：将系数矩阵转换为稀疏格式。
set_params（** params）：设置此估计器的参数。
decision_function（X）：预测样本的置信度分数。
densify()：将系数矩阵转换为密集阵列格式。

PS：算法之路没有尽头，加油吧少年们！！！

初级算法梳理之二