机器学习算法

机器学习算法主要介绍线性回归、逻辑回归、决策树、随机森林、提升、svm、聚类、贝叶斯算法、LDA，HMM算法。

线性回归

方法：使用极大似然估计解释最小二乘法

误差是独立同分布的，服从均值为0，方差为定值的高斯分布（中心极限定理）。

中心极限定理

实际问题中，很多随机现象可以看做众多因素的独立影响的综合反应，往往近似服从正态分布。

计算过程

似然函数计算过程
线性回归-ML之二
代价函数计算过程

可以得到惩罚函数也称代价函数。

解析式的计算过程

在一元二次方程及二元二次方程中，我们可以根据x，y计算出参数的解，那么扩展到n维，我们同样可以通过解析式进行求解。
线性回归-ML之二

正则化处理

在机器学习过程中，正则化处理是减少过拟合非常有用的方法，其中L1正则和L2正则使用较多，L1正则是通过将参数的绝对值相加最小，L2正则是平方和最小，L1正则的目的是让参数矩阵尽可能稀疏，而L2正则是让参数尽可能小，从而降低模型的复杂性，从而有更好的鲁棒效应。
线性回归-ML之二

梯度下降算法

梯度下降算法让损失函数沿着负梯度方向迭代，更新后的theta使得代价函数逐步降低。
线性回归-ML之二
梯度方向是：(hθ(x)-y)xj
-批量梯度下降，利用所有数据进行计算，对于θ的更新，所有样本数据都有贡献，从而得到一个标准梯度。因此理论上，一次更新的幅度是比较大的，如果样本不多，收敛速度比较快。
* 随机梯度下降：随机说明是我们用样本中的一个例子来近似所有样本来调整θ，因而随机梯度下降是会带来一定问题的，因为计算得到的并不是准确的梯度，所以容易陷入局部最优解中。
* 批量梯度下降：是上面两种方式的折中方式，用一小些样本来近似全部样本，减少计算量，同时可以得到较好的下降效果。