机器学习概念-model fit , Resampling Methods

写在前面

介绍了机器学习的一些概念，虽然很基础，但多回顾回顾总是没错。

会涉及到 监督/非监督学习，常见的 model fit （MSE）判断和 Resampling Methods （CV）

监督/非监督学习

非监督即数据中包括 predictors Xi only ；常见的如 clustering （聚类）

监督即数据中包括 predictors Xi 和 Response Yi ；常见的如回归，分类

回归和分类的区别：

回归涵盖了Response Yi是连续的/数值的情况；分类包括Response Yi 是分类的的情况。

模型拟合的测量（for regression only）

对于回归，我们通常使用均方误差(MSE)

机器学习概念-model fit , Resampling Methods ，

Yi（带帽子符号的） is the prediction our method gives for the observation in our training data.

这里存在一个 trade-off （权衡）between test and training MSE, 因为我们并不能保证训练MSE最小的方法对测试数据的MSE最小。过小的 training 可能导致饱和模型（过拟合）。

而且模型的 flexibility 越低，就越容易解释数据，这里我指的表达模型是怎么去解释数据的（永远记住我们是为了解释和理解数据，而不是为了reproducing data, 这怎么感觉在暗怼那些复杂的神经网络HHHH）, 也就是说我们倾向于使用更简单的模型，但更复杂的模型MSE会更小，所以这里存在一个选取的权衡)

机器学习概念-model fit , Resampling Methods

这个图很有意思，是一个，，经验之谈，红色线是 Test MSE，灰色线是 Training MSE，我们一般来讲希望最小化 Test MSE 而不是 Training MSE ，太小的 Training MSE 反而导致了 Test MSE 的上升，这就是我们说的过拟合（overfitting）。

bias and variance trade-off

Bias refers to the error that is introduced by representing a real-life problem (that is usually extremely complicated) by a model （偏差指的是模型在表现现实生活中的问题(通常是极其复杂的)时引入的误差）

例如，线性回归假设Y和x之间存在线性关系，在现实生活中，这种关系不太可能完全是线性的，所以会存在一些偏差。

当model 越flexible/complex，偏差ias会减少，方差会增加，但是预期的 test MSE 可能会上升或下降!

机器学习概念-model fit , Resampling Methods

模型拟合的测量（for classification only）

错误率表示不正确分类或误分类的比例，当然，我们也就有了 training error rate 和 testing error rate

机器学习概念-model fit , Resampling Methods

Bayes error rate 贝叶斯错误率指的是，如果我们能够以某种方式精确地找到数据的“真实”概率分布，就可能达到的最低错误率 (注意即使是“真实”概率分布，因为燥音的存在错误率也不应该是0)。

plus : 为什么 why "即使是理想曲线 the Bayes’ decision boundary，也不是错误率为0" ?

回想我们模拟数据的产生过程，比如线性模型，

我们先构造一堆X
根据 X产生Y (y=ax+b)
根据Y 产生 y' （ y' = dnormal (y, δ^2) , δ=0.5 ) , （这个噪音可以对应我们实际生活中数据收集的各种错误，缺失等等）

这个 y' 是我们的观测数据，我们用 y' 来训练模型，而不是 y，但一定要记住 y 才是事实！实际曲线（the bayes' decision boundary）是 y=ax+b ，但因为i噪音的存在，实际曲线的错误率也不是0，

Resampling Methods

Validation Set Approach ：一个简单易懂容易实现的方式就是把数据分为两部分，在训练集测测试多种数据模型，在测试集测试它们的test MSE,最小MSE的就是我们认为的optional model ，这个法子最常用了。这个法子会带来一些问题，我们在之前的博客也提到过。

The validation MSE can be highly variable 测试集MSE可以是高度可变的
Only a subset of observations are used to fit the model (training data). We are decreasing our sample size. 只用了一部分数据，test 数据没用于训练

CROSS VALIDATION （CV）：有 leave one-out 和 K-FOLD 等多种CV 方法，它的偏差bias 较小 , produces a less variable 但计算量大了很多。

总的来说CV 花费了更多的计算，但充分的利用了数据，给出了比Validation Set Approach更加公允的 model fit 评估值。所以它可以很好的应用在模型参数选择上，譬如我们有三四个不同模型，然后 CV计算其 model fit ，选 CV结果最好的那种模型。

机器学习概念-model fit , Resampling Methods

机器学习概念-model fit , Resampling Methods

写在前面

监督/非监督学习

模型拟合的测量（for regression only）

模型拟合的测量（for classification only）

Resampling Methods

相关推荐