李宏毅机器学习2016 第二讲 偏差与方差
视频链接:李宏毅机器学习(2016)_演讲•公开课_科技_bilibili_哔哩哔哩
课程资源:Hung-yi Lee
课程相关PPT已经打包命名好了:链接:https://pan.baidu.com/s/1gfRjrc3 密码:pstr
我的第一讲笔记 http://blog.****.net/sinat_25346307/article/details/78725627
Where does the error come from?
由第一讲我们知道一个复杂的模型并不总能在测试数据上表现得很好。
错误来源是偏差和方差,bias & variance
用打靶来说明下,比如你瞄准的是红心,结果打了个七环,这个误差就是由偏差和方差导致的。
一般来说,简单的模型会有一个较大的偏差和较小的方差,复杂模型的偏差更小方差很大。
这也引申出欠拟合和过拟合两个概念。
underfitting:模型不能适配训练样本,有一个很大的偏差。
overfitting:模型很好的适配训练样本,但在测试数据上表现很糟,有一个很大的方差。
出现这种情况怎么处理?
bias→重新设计模型
1.增加更多的特征作为输入。
2.增加模型的复杂度。
variance
1.增加数据。这个通常来说十分有效,但是不好操作,数据的获取并不是那么简单。(可通过一些操作来达到增加数据的目的)
2.正则化。使得函数变得平滑。
模型选择
通常就是在偏差和方差上做平衡。选择一个好的模型同时满足较小的偏差和方差。
多个模型中,可能某个模型在训练集上表现很好,但是要明白其实测试数据也有一个自身的bias,所以就选择错误率最低的不见得可靠。此外一般来说,如果使用公开的测试数据去调模型时,会使得模型在私有的测试数据上表现得更差。这也解释了在第一讲中的第8个知识点。
使用N-flod Cross Validation N折交叉验证。
总结:
这堂课讲的是概念层面的东西,讲解了怎么样处理欠拟合和过拟合的问题。