线性回归-ML之二
机器学习算法
机器学习算法主要介绍线性回归、逻辑回归、决策树、随机森林、提升、svm、聚类、贝叶斯算法、LDA,HMM算法。
线性回归
方法:使用极大似然估计解释最小二乘法
误差是独立同分布的,服从均值为0,方差为定值的高斯分布(中心极限定理)。
中心极限定理
实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。
计算过程
似然函数计算过程
代价函数计算过程
可以得到惩罚函数也称代价函数。
解析式的计算过程
在一元二次方程及二元二次方程中,我们可以根据x,y计算出参数的解,那么扩展到n维,我们同样可以通过解析式进行求解。
正则化处理
在机器学习过程中,正则化处理是减少过拟合非常有用的方法,其中L1正则和L2正则使用较多,L1正则是通过将参数的绝对值相加最小,L2正则是平方和最小,L1正则的目的是让参数矩阵尽可能稀疏,而L2正则是让参数尽可能小,从而降低模型的复杂性,从而有更好的鲁棒效应。
梯度下降算法
梯度下降算法让损失函数沿着负梯度方向迭代,更新后的theta使得代价函数逐步降低。
梯度方向是:(hθ(x)-y)xj
-批量梯度下降,利用所有数据进行计算,对于θ的更新,所有样本数据都有贡献,从而得到一个标准梯度。因此理论上,一次更新的幅度是比较大的,如果样本不多,收敛速度比较快。
* 随机梯度下降:随机说明是我们用样本中的一个例子来近似所有样本来调整θ,因而随机梯度下降是会带来一定问题的,因为计算得到的并不是准确的梯度,所以容易陷入局部最优解中。
* 批量梯度下降:是上面两种方式的折中方式,用一小些样本来近似全部样本,减少计算量,同时可以得到较好的下降效果。
逻辑回归
逻辑回归是实践回归中用于解决分类问题最重要的方法,其方法简单,容易实现,效果良好,易于解释,不止是分类,比如推荐系统
sigmoid函数
sigmoid函数是逻辑回归中最重要的函数,如
对数似然函数
计算代价函数的方法和线性回归类似,计算过程如下:
梯度下降
进行迭代的方法和线性回归相同的形式。
损失函数
逻辑回归的损失函数如下
softmax回归
当分类不是二分类时,需要用到softmax回归,softmax回归是分为k类,每个类相加概率为1。
评价指标
主要的评价指标如下(具体不再详解):
* 查准率
* 查全率
* F1
* TPR
* FPR
* ROC
* AUC