复习笔记
第一周
1. 对于简单线性模型我们有:
第二周
1. bin smooth function
basis function有:
Rj:region. 将连续线性模型变为Piecewise linear model, 连续性变差了,但是解释性和拟合性变强了。
第四周
1. overfit不仅包含过多参数(模型过于复杂),还可能是将error当做了signal
2. R方:
3. 另一种R方:
4. adjusted-R方:
5. AIC & BIC:
6. Out of bag: bootstrapping
第六周:
1. confusion matrix
2. stepwise是从复杂模型开始的(以前记错了?)
第七周:
1. 递归分割recursive partitioning
2. 需要做一个决策树的推送
3. 很多名词,要记一下。
第八周:
1. 弄清tree里的training error, generalization error, overfit是什么意思
2. node purity & mixed-up是什么意思
3. entropy 熵, Gini index & two-ing
大即impure,0熵为zero randomness; 熵=1/n为 the most randomness.
4. regression tree v.s classfication tree
第九周
1. cost complexity:
α小无限制;大无split。
2. 树对处理缺失值好 Surrogate splits
第十周
1. Bagging是一种用来提高学习算法准确度的方法,这种方法通过一个预测函数系列,以一定的方式将它们组合成一个预测函数。Bagging要求“不稳定”(指数据集的小变动能够使得分类结果的显著的变动)的分类方法。如,decision tree, nn.
Bagging基本思想:
(1)给定一个弱学习算法和一个训练集
(2)单个弱学习算法准确率不高
(3)将该学习算法使用多次,得出预测函数序列,进行投票
(4)最后准确率得到提高
——摘自百度百科《bagging》【1】
bagging = boostrap aggregation
2. bagging aggregation算法描述:
该算法不直接作用于模型本身,而是作用在训练数据上。设训练集,记作D,数据集的大小是n。bagging的目标就是基于D生成m个新的数据集Di,新数据集大小记作n'. 新数据集的每个元素是通过在原数据集采样得到的,采样概率服从平均分布。所以,Di中会存在重复样本。如果n'=n, 且n的值足够大,那么Di中没有重复样本的比例大概为(1-1/e)≈63.2%。其余样本都是出现重复了的。
随后,使用这m个新数据集分别训练模型。预测时,对这些模型的结果进行平均(拟合任务)或投票(对分类任务)。
——摘自KFXW的CSDN博客【2】
3. 传统建模和数据挖掘的区别
4. 对于已经足够好的模型,bootstrapping的作用没那么好;用boostrapping可能会损失interpretability。
第十一周
1. boosting: adaboost and realboost
2. Jargon: weak classfier, stump, strong classfier
3. asaboost: 用extra rules修正错误预测的地方或将对misclassfication的地方重新权重(提高),然后重新建模,最后合并这些模型。
4. 步骤需要看一下
5. 200-400迭代一般不会overfit
6.一般推荐<8 leaves
第十二周
1.
2. 步骤要背
第十六周
1. lift chart需要补一下
第十八周
1. 没看
参考资料
【1】https://baike.baidu.com/item/bagging/15454674?fr=aladdin
【2】https://blog.csdn.net/u010158659/article/details/51248877