复习笔记

第一周

1. 对于简单线性模型我们有：

复习笔记

第二周

1. bin smooth function

basis function有：

复习笔记

Rj：region. 将连续线性模型变为Piecewise linear model，连续性变差了，但是解释性和拟合性变强了。

第四周

1. overfit不仅包含过多参数（模型过于复杂），还可能是将error当做了signal

2. R方：

复习笔记

3. 另一种R方：

复习笔记

4. adjusted-R方：

复习笔记

5. AIC & BIC：

复习笔记

6. Out of bag: bootstrapping

第六周：

1. confusion matrix

复习笔记

2. stepwise是从复杂模型开始的（以前记错了？）

第七周：

1. 递归分割recursive partitioning

2. 需要做一个决策树的推送

3. 很多名词，要记一下。

第八周：

1. 弄清tree里的training error, generalization error, overfit是什么意思

2. node purity & mixed-up是什么意思

3. entropy 熵， Gini index & two-ing

复习笔记

大即impure，0熵为zero randomness；熵=1/n为 the most randomness.

4. regression tree v.s classfication tree

第九周

1. cost complexity:

复习笔记

α小无限制；大无split。

2. 树对处理缺失值好 Surrogate splits

第十周

1. Bagging是一种用来提高学习算法准确度的方法，这种方法通过一个预测函数系列，以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”（指数据集的小变动能够使得分类结果的显著的变动）的分类方法。如，decision tree, nn.

Bagging基本思想：

（1）给定一个弱学习算法和一个训练集

（2）单个弱学习算法准确率不高

（3）将该学习算法使用多次，得出预测函数序列，进行投票

（4）最后准确率得到提高

——摘自百度百科《bagging》【1】

bagging = boostrap aggregation

2. bagging aggregation算法描述：

该算法不直接作用于模型本身，而是作用在训练数据上。设训练集，记作D，数据集的大小是n。bagging的目标就是基于D生成m个新的数据集Di，新数据集大小记作n'. 新数据集的每个元素是通过在原数据集采样得到的，采样概率服从平均分布。所以，Di中会存在重复样本。如果n'=n, 且n的值足够大，那么Di中没有重复样本的比例大概为(1-1/e)≈63.2%。其余样本都是出现重复了的。

随后，使用这m个新数据集分别训练模型。预测时，对这些模型的结果进行平均（拟合任务）或投票（对分类任务）。

——摘自KFXW的CSDN博客【2】

3. 传统建模和数据挖掘的区别

4. 对于已经足够好的模型，bootstrapping的作用没那么好；用boostrapping可能会损失interpretability。

第十一周

1. boosting: adaboost and realboost

2. Jargon: weak classfier, stump, strong classfier

3. asaboost: 用extra rules修正错误预测的地方或将对misclassfication的地方重新权重（提高），然后重新建模，最后合并这些模型。

4. 步骤需要看一下

5. 200-400迭代一般不会overfit

6.一般推荐<8 leaves

第十二周

1. 复习笔记

2. 步骤要背

第十六周

1. lift chart需要补一下

第十八周

1. 没看

参考资料

【1】https://baike.baidu.com/item/bagging/15454674?fr=aladdin

【2】https://blog.csdn.net/u010158659/article/details/51248877

第一周

第二周

第四周

第六周：

第七周：

第八周：

第九周

第十周

第十一周

第十二周

第十六周

第十八周

相关推荐