机器学习概念-model fit , Resampling Methods

写在前面

介绍了机器学习的一些概念,虽然很基础,但多回顾回顾总是没错。

会涉及到 监督/非监督学习,常见的 model fit (MSE)判断 和 Resampling Methods (CV)

监督/非监督学习

非监督即 数据中包括 predictors Xi only ; 常见的如 clustering (聚类)

监督即 数据中包括 predictors Xi 和 Response Yi ; 常见的如 回归,分类

回归和分类的区别: 

回归涵盖了Response Yi是 连续的/数值的 情况;分类包括Response Yi 是分类的 的情况。

模型拟合的测量(for regression only)

对于回归,我们通常使用均方误差(MSE)

机器学习概念-model fit , Resampling Methods, 

Yi(带帽子符号的) is the prediction our method gives for the observation in our training data.

这里存在一个 trade-off (权衡)between test and  training MSE, 因为我们并不能保证 训练MSE最小的方法对测试数据的MSE最小。过小的 training 可能导致饱和模型(过拟合)。

而且模型的 flexibility 越低,就越容易解释数据 ,这里我指的表达模型是怎么去解释数据的(永远记住我们是为了解释和理解数据,而不是为了reproducing  data, 这怎么感觉在暗怼那些复杂的神经网络HHHH), 也就是说我们倾向于使用更简单的模型,但更复杂的模型MSE会更小,所以这里存在一个选取的权衡) 

机器学习概念-model fit , Resampling Methods

这个图很有意思,是一个,,经验之谈, 红色线是 Test MSE, 灰色线是 Training MSE,我们一般来讲希望最小化 Test MSE 而不是 Training MSE ,太小的 Training MSE 反而导致了 Test MSE 的上升,这就是我们说的 过拟合 (overfitting) 。

bias and variance  trade-off

Bias refers to the error that is introduced by representing a real-life problem (that is usually extremely complicated) by a model (偏差指的是模型在表现现实生活中的问题(通常是极其复杂的)时引入的误差)

例如,线性回归假设Y和x之间存在线性关系,在现实生活中,这种关系不太可能完全是线性的,所以会存在一些偏差。

 

当model 越flexible/complex,偏差ias会减少,方差会增加,但是预期的 test MSE 可能会上升或下降!

机器学习概念-model fit , Resampling Methods

机器学习概念-model fit , Resampling Methods

模型拟合的测量(for classification only)

错误率表示不正确分类或误分类的比例 ,当然,我们也就有了 training error rate 和 testing error rate

 

机器学习概念-model fit , Resampling Methods

Bayes error rate 贝叶斯错误率指的是,如果我们能够以某种方式精确地找到数据的“真实”概率分布,就可能达到的最低错误率 (注意即使是“真实”概率分布,因为燥音的存在错误率也不应该是0)。

plus : 为什么 why "即使是理想曲线 the Bayes’ decision boundary,也不是错误率为0" ?

回想我们模拟数据的产生过程,比如线性模型,

  • 我们先构造一堆X
  • 根据 X产生Y (y=ax+b)
  • 根据Y 产生 y' ( y' = dnormal (y, δ^2) , δ=0.5 ) , (这个噪音可以对应我们实际生活中数据收集的各种错误,缺失等等)

这个 y' 是我们的观测数据,我们用 y' 来训练模型,而不是 y, 但一定要记住 y 才是事实!实际曲线 (the bayes' decision boundary)是 y=ax+b ,但因为i噪音的存在,实际曲线的错误率也不是0,

 

 

Resampling Methods

 

Validation Set Approach :一个简单易懂容易实现的方式就是把数据分为两部分,在训练集测测试多种数据模型,在测试集测试它们的test MSE,最小MSE的就是我们认为的optional model ,这个法子最常用了。 这个法子会带来一些问题,我们在之前的博客也提到过

  1. The validation MSE can be highly variable 测试集MSE可以是高度可变的
  2. Only a subset of observations are used to fit the model (training data). We are decreasing our sample size. 只用了一部分数据,test 数据没用于训练

CROSS VALIDATION (CV):有 leave one-out 和 K-FOLD 等多种CV 方法 ,它的偏差bias  较小 , produces a less variable 但计算量大了很多。 

总的来说CV 花费了更多的计算,但充分的利用了数据,给出了比Validation Set Approach更加公允的 model fit 评估值。所以它可以很好的应用在 模型参数选择 上,譬如我们有三四个不同模型,然后 CV计算其 model fit ,选 CV结果最好的那种模型。

机器学习概念-model fit , Resampling Methods