机器学习入门回归的数学理解
回归
一.主要内容
1.回归
样本(X,Y) X为特征向量,Y为标签。若Y是连续的则是回归问题(线性回归),若Y是离散的则是分类问题(logistic回归)。回归和分类也是机器学习中的两个大类别。
2.线性回归
高斯分布
最大似然估计
最小二乘法的本质
3.Logistic回归(二分类)
分类问题的首选算法
4.多分类(softmax回归)
目标函数
5.技术点
梯度下降算法
最大似然估计
特征选择
线性回归
核心
使用极大似然估计解释最小二乘
使用极大似然估计解释最小二乘实际问题中,很多随机现象可以看成众多因素的独立影响的综合反映,往往近似服从正太分布。注意前提是多个随机变量的和,许多问题是乘性误差,则需要鉴别或者取对数后在使用。
因为误差符合正太分布,则它的概率分布可得到为
可先了解最大似然估计,之后在去看线性回归,lasso和 ridge回归的区别。
因为线性回归容易过拟合,ridge回归是线性回归的目标函数后面加上了L2范式,引入超参数,作用是避免
过大,造成结果抖动过大。Lasso是在线性回归的目标函数后面加上了L1范式,作用是稀疏矩阵,有特征选择的作用。
当lasso取最小值的时候,可以看到,某一维度为0,这就是lasso可以做特征选择的理解
梯度下降的算法和多分类的具体看其他博客,这篇只是从数学的角度帮助理解的。