线性回归-ML之二

机器学习算法

机器学习算法主要介绍线性回归、逻辑回归、决策树、随机森林、提升、svm、聚类、贝叶斯算法、LDA,HMM算法。

线性回归

方法:使用极大似然估计解释最小二乘法

误差是独立同分布的,服从均值为0,方差为定值的高斯分布(中心极限定理)。

中心极限定理

实际问题中,很多随机现象可以看做众多因素的独立影响的综合反应,往往近似服从正态分布。

计算过程

似然函数计算过程
线性回归-ML之二
代价函数计算过程
线性回归-ML之二

可以得到惩罚函数也称代价函数。

解析式的计算过程

在一元二次方程及二元二次方程中,我们可以根据x,y计算出参数的解,那么扩展到n维,我们同样可以通过解析式进行求解。
线性回归-ML之二

正则化处理

在机器学习过程中,正则化处理是减少过拟合非常有用的方法,其中L1正则和L2正则使用较多,L1正则是通过将参数的绝对值相加最小,L2正则是平方和最小,L1正则的目的是让参数矩阵尽可能稀疏,而L2正则是让参数尽可能小,从而降低模型的复杂性,从而有更好的鲁棒效应。
线性回归-ML之二

梯度下降算法

梯度下降算法让损失函数沿着负梯度方向迭代,更新后的theta使得代价函数逐步降低。
线性回归-ML之二
梯度方向是:(hθ(x)-y)xj
-批量梯度下降,利用所有数据进行计算,对于θ的更新,所有样本数据都有贡献,从而得到一个标准梯度。因此理论上,一次更新的幅度是比较大的,如果样本不多,收敛速度比较快。
* 随机梯度下降:随机说明是我们用样本中的一个例子来近似所有样本来调整θ,因而随机梯度下降是会带来一定问题的,因为计算得到的并不是准确的梯度,所以容易陷入局部最优解中。
* 批量梯度下降:是上面两种方式的折中方式,用一小些样本来近似全部样本,减少计算量,同时可以得到较好的下降效果。

逻辑回归

逻辑回归是实践回归中用于解决分类问题最重要的方法,其方法简单,容易实现,效果良好,易于解释,不止是分类,比如推荐系统

sigmoid函数

sigmoid函数是逻辑回归中最重要的函数,如
线性回归-ML之二

对数似然函数

计算代价函数的方法和线性回归类似,计算过程如下:
线性回归-ML之二

梯度下降

进行迭代的方法和线性回归相同的形式。
线性回归-ML之二

损失函数

逻辑回归的损失函数如下
线性回归-ML之二

线性回归-ML之二

softmax回归

当分类不是二分类时,需要用到softmax回归,softmax回归是分为k类,每个类相加概率为1。
线性回归-ML之二

评价指标

主要的评价指标如下(具体不再详解):
* 查准率
* 查全率
* F1
* TPR
* FPR
* ROC
* AUC