1.Feature selection

1)All subsets

w^= (w 1, w 2 . . . w D)

每一个特征都有可能包含或者不包含共有2D种情况，即穷举所有可能的model

2)Greedy algorithms

Forward stepwise algorithm

    从0特征开始，每次增加一个特征（保留之前的结果）
    第一次D选1
    第二次剩余的(D−1)中选1
    ……
    ……
    复杂度O(D2)
用validation_set(数据量较小时需要cross validation)计算，直到是停止算法。

3)Regularize

Ridge regression(L2regularized regression)

T o t o l c o s t = R S S (w^) + λ | | w | | 22

　　L2 encourage w^ to be small(close to but not 0)

Lasso regression(L1regularized regression)

Week5 Lasso Regression

T o t o l c o s t = R S S (w^) + λ | | w | | 1

　　L1 sparse w^ (some of w^ be exactly 0)
　　
　　【注意】lasso的||w||1是不含w0的，因为lasso是sparse（缩减有效w个数，即使一部分w为0），而我们不希望intercept也为0，故不含w0
　　－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－-
　　由于L1 norm是不可导的，故Lasso不能像Ridge一样采用Gradient Decent算法，而应采用Subgradient Decent算法：
　　 Week5 Lasso Regression