【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

特征选择正则化:Lasso Regression

当特征很多且稀疏时,计算非0:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

另外,知道哪些特征才是有效特征,比如:对于房价的决定因素有哪些至关重要。

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

一、特征选择方法一:列举所有子集

特征数和RSS误差平方和的关系:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

一开始,特征数越多,误差越小;接下来随着特征数的增加,RSS误差会不再减少。

 

另外:

当1个特征时,最优特征为:sq.ft. living

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

当2个特征时,最优特征为:bedrooms和bathrooms。

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

结论:特征size=k情况下的最优特征,可能并不包含特征size=k-1下的最优特征。

 

复杂度:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

二、特征选择方法二:贪婪算法

一开始先随机选择1个特征,选择1个特征中RSS误差最小的。

然后再加入一个特征,选择使得联合误差最小的特征加入。

再加入一个特征,依旧选择使得联合误差最小的特征加入。

不断循环,直到验证集(而不是训练集、测试集)误差不再减小,停止算法。

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

复杂度分析:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

三、特征选择方法三:正则化

1、Ridge Regression岭回归:L2正则化

使得w足够小,但并不会完全为0

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

岭回归下的系数变化:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

2、Lasso Regression:L1正则化

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

Lasso回归下的系数随着lambda增大的变化:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

四、正则化可视化

1、Ridge Regression岭回归cost可视化

(1)RSS部分:椭圆形eclipse

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

(2)第二部分:L2 圆形 circle

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

(3)2部分合并:椭圆形eclipse

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

2、Lasso回归

(1)第一部分:RSS部分,跟Ridge一样

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

(2)第二部分:L1

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

(3)两部分合并

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

五、最优化Lasso回归cost

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

之前对于L2求w的方法(梯度为0,梯度下降)已经不管用了,因为L1 |w|的梯度为:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

1、coordinate descent坐标下降法

一次所有坐标都最小不可能,那么我们换个思路,每次固定其他所有坐标,只让1个坐标的数最小。

(1)初始化w0---wn

(2)如果算法不收敛:则选择一个wj,其他所有wi都保持不变,求使得cost最小时的wj。

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

2、归一化特征

按列归一化:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

将测试数据都除以归一化因子:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

3、坐标下降

(1)特征归一化、非正则化场景下的坐标下降

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

(2)最小平方回归的坐标下降:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression

 

(3)Lasso回归下的坐标下降:

【机器学习课程-华盛顿大学】:2 回归 2.5 Lasso Regression