复习笔记

第一周

1. 对于简单线性模型我们有:

复习笔记


第二周

1. bin smooth function

basis function有:

复习笔记


Rj:region. 将连续线性模型变为Piecewise linear model, 连续性变差了,但是解释性和拟合性变强了。


第四周

1. overfit不仅包含过多参数(模型过于复杂),还可能是将error当做了signal

2. R方:

复习笔记

3. 另一种R方:

复习笔记

4. adjusted-R方:

复习笔记

5. AIC & BIC:

复习笔记

6. Out of bag: bootstrapping

第六周:

1. confusion matrix

复习笔记

2. stepwise是从复杂模型开始的(以前记错了?)

第七周:

1. 递归分割recursive partitioning

2. 需要做一个决策树的推送

3. 很多名词,要记一下。

第八周:

1. 弄清tree里的training error, generalization error, overfit是什么意思

2. node purity & mixed-up是什么意思

3. entropy 熵, Gini index & two-ing

复习笔记

大即impure,0熵为zero randomness; 熵=1/n为 the most randomness.

4. regression tree v.s classfication tree

第九周

1. cost complexity:

复习笔记

α小无限制;大无split。

2. 树对处理缺失值好 Surrogate splits

第十周

1. Bagging是一种用来提高学习算法准确度的方法,这种方法通过一个预测函数系列,以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”(指数据集的小变动能够使得分类结果的显著的变动)的分类方法。如,decision tree, nn.


Bagging基本思想:

(1)给定一个弱学习算法和一个训练集

(2)单个弱学习算法准确率不高

(3)将该学习算法使用多次,得出预测函数序列,进行投票

(4)最后准确率得到提高

——摘自百度百科《bagging》【1】


bagging = boostrap aggregation


2. bagging aggregation算法描述:

该算法不直接作用于模型本身,而是作用在训练数据上。设训练集,记作D,数据集的大小是n。bagging的目标就是基于D生成m个新的数据集Di,新数据集大小记作n'. 新数据集的每个元素是通过在原数据集采样得到的,采样概率服从平均分布。所以,Di中会存在重复样本。如果n'=n, 且n的值足够大,那么Di中没有重复样本的比例大概为(1-1/e)≈63.2%。其余样本都是出现重复了的。

随后,使用这m个新数据集分别训练模型。预测时,对这些模型的结果进行平均(拟合任务)或投票(对分类任务)。

——摘自KFXW的CSDN博客【2】

3. 传统建模和数据挖掘的区别

4. 对于已经足够好的模型,bootstrapping的作用没那么好;用boostrapping可能会损失interpretability。

第十一周

1. boosting: adaboost and realboost

2. Jargon: weak classfier, stump, strong classfier

3. asaboost: 用extra rules修正错误预测的地方或将对misclassfication的地方重新权重(提高),然后重新建模,最后合并这些模型。

4. 步骤需要看一下

5. 200-400迭代一般不会overfit

6.一般推荐<8 leaves

第十二周

1. 复习笔记


2. 步骤要背

第十六周 

1. lift chart需要补一下

第十八周

1. 没看



参考资料

【1】https://baike.baidu.com/item/bagging/15454674?fr=aladdin

【2】https://blog.csdn.net/u010158659/article/details/51248877