林轩田机器学习基石心得9:Linear Regression
0. 前言
该文章是本人观看视频后的一些心得,系统笔记请前往:
http://blog.****.net/red_stone1/article/details/71599034
- 这一节课主要介绍机器学习常用的一种算法:线性回归。
1. 线性回归问题
线性回归问题:当样本的标签属性与特征呈线性关系时候,预测出一条直线(对应一维)、一个平面(对应二维)或者更高维的超平面(
y=WTX ),使样本集中的点更接近它。错误衡量方法:最小二乘法。
2. 线性回归算法
- 最优解:由于
Ein 是个凸函数,可以通过求解梯度,使梯度为0求解。最优结果为w=(XTX)−1XTy >
- 梯度求解过程:
对A,b,c部分求导
3. 泛化问题
- 泛化能力证明:当N足够大时,
E¯¯¯in≈E¯¯¯out ,这种线性最小二乘法是可以进行机器学习的,算法有效。
4. Linear Regression方法解决Linear Classification问题
- 线性回归可以解决线性分类问题:因为线性分类时错误率
err0/1 小于等于回归最小二乘误差errsqr 。因此Eout 的上界变得宽松了。 - 用回归解分类问题会比类似PLA算法效率高,但由于上界变得宽松理论来说结果可能会差一些,但是实际上并不会太差。
5. 总结
本次课介绍了线性回归方法,是一种最基本的回归方法。该方法可通过微分求解出最优结果,同时当样本足够时也有泛化能力。对于分类问题,线性回归同样可以求解,但是上界会变宽松。