机器学习问题总结
1 逻辑回归部分
常问,推导要会
推导:点击打开链接
2 SVM部分
常问,推导要会,精简版看下面链接,但是写的不是很详细, 看统计学
点击打开链接 @靠靠靠谱 的回答
3 集成学习
常问,推导要会
bagging方法:看周志华教授的西瓜书
boosting方法:看李航的蓝书,特别的对于GBDT,点击打开链接写的很清晰,推导相对简单
这里注意一下,GBDT有两种,一种是残差学习,一种是负梯度代替残差的版本(所以有个G啊),为啥用负梯度近似残差也是常问的,其实这个说法就不对,残差只是在loss用最小二乘时候的一个特例,对求梯度刚好就是,换成其他loss function就不对了,所以应该反过来说,残差学习只是一个特例,负梯度才是通用的
stacking方法:没有特别好的讲解,都看看吧,点击打开链接还行
决策树:cart树是最常问的,详见李航蓝书,从推导到剪枝都要会
4 softmax
点击打开链接(softmax | sigmod)
5 牛顿法和梯度下降
6 交叉验证
7 正则方法 L1、L2
正则是一大块,原理方法都要懂,可以参考这些文章点击打开链接 点击打开链接
8 归一化方法
基础问题,随便那本书都有
9 SVD分解 PCA ICA 白化
10 准确率召回率ROC AUC F1
11 样本分部不均匀
点击打开链接(补充分治)
12:RF与GBDT之间的区别
13 SVM的模型的推导
14 SVM与树模型之间的区别
(1)SVM
SVM是通过核函数将样本映射到高纬空间,再通过线性的SVM方式求解分界面进行分类。
对缺失值比较敏感
可以解决高纬度的问题
可以避免局部极小值的问题
可以解决小样本机器学习的问题
(2)树模型
可以解决大样本的问题
易于理解和解释
会陷入局部最优解
易过拟合
15 关联规则
16 常用距离公式
17 常见聚类方法
Kmeans
18 海量数据面试题
19 连续特征离散化达到更好的效果,特征选择的工程方法
20 PCA降维
23线性回归、局部加权线性回归、岭回归、lasso及逐步线性回归
25决策树处理缺失值