数据挖掘实训周报week3

本周主要学习了xgboost。
XGBoos是在AdaBoost和GBDT等提升算法基础上进行了优化的算法,一般来说,算法都是由模型、参数和目标函数三部分组成。模型可以理解为基函数(一个函数的固定形式,也就是函数只会在这个函数的基础上变化而不会丢掉的函数)和权重的组合即一类问题的算法。参数就是算法学习的结果,就像决策树学习产生的从根节点通往叶节点的路径q和每个叶节点上面的期望权重w,改变参数(q,w)就是改变已有模型。优化目标函数需要实现两个目的:第一:尽量让预测值接近真实值;第二:保证模型的泛化能力(GeneralizationAbility)。为达到第一点,我们可以最小化损失函数,对于第二点,我们可以最小化损失函数过程中加上控制模型复杂度的惩罚项,也可称为正则化项,如L1,L2损失。我们优化目标函数以达到误差和复杂度综合最优。

并且利用xgboost实践了一下,数据运行时间接近4个小时,得到了结果
数据挖掘实训周报week3
将结果提交:
数据挖掘实训周报week3