您的位置: 首页 > 文章 > 机器学习问题总结

机器学习问题总结

分类: 文章 • 2024-07-27 08:07:52

0 BAT机器学习面试（JULY）

常见面试之机器学习算法思想简单梳理

1 逻辑回归部分

常问，推导要会

推导：点击打开链接

点击打开链接

2 SVM部分

常问，推导要会，精简版看下面链接，但是写的不是很详细，看统计学

点击打开链接 @靠靠靠谱的回答

点击打开链接

点击打开链接

支持向量机知识点整理

3 集成学习

常问，推导要会

bagging方法：看周志华教授的西瓜书

boosting方法：看李航的蓝书，特别的对于GBDT，点击打开链接写的很清晰，推导相对简单

这里注意一下，GBDT有两种，一种是残差学习，一种是负梯度代替残差的版本（所以有个G啊），为啥用负梯度近似残差也是常问的，其实这个说法就不对，残差只是在loss用最小二乘时候的一个特例,对机器学习问题总结求梯度刚好就是，换成其他loss function就不对了，所以应该反过来说，残差学习只是一个特例，负梯度才是通用的

stacking方法：没有特别好的讲解，都看看吧，点击打开链接还行

决策树：cart树是最常问的，详见李航蓝书，从推导到剪枝都要会

4 softmax

点击打开链接

点击打开链接（softmax | sigmod）

5 牛顿法和梯度下降

点击打开链接

6 交叉验证

点击打开链接

7 正则方法 L1、L2

正则是一大块，原理方法都要懂，可以参考这些文章点击打开链接点击打开链接

8 归一化方法

基础问题，随便那本书都有

9 SVD分解 PCA ICA 白化

10 准确率召回率ROC AUC F1

点击打开链接

11 样本分部不均匀

点击打开链接

点击打开链接（补充分治）

12：RF与GBDT之间的区别

13 SVM的模型的推导

机器学习问题总结

14 SVM与树模型之间的区别

（1）SVM

SVM是通过核函数将样本映射到高纬空间，再通过线性的SVM方式求解分界面进行分类。

对缺失值比较敏感

可以解决高纬度的问题

可以避免局部极小值的问题

可以解决小样本机器学习的问题　　

（2）树模型

可以解决大样本的问题

易于理解和解释

会陷入局部最优解

易过拟合

15 关联规则

点击打开链接

16 常用距离公式

点击打开链接

17 常见聚类方法

点击打开链接

Kmeans

点击打开链接

18 海量数据面试题

点击打开链接

19 连续特征离散化达到更好的效果,特征选择的工程方法

20 PCA降维

21理解朴素贝叶斯算法中的拉普拉斯平滑

22决策树CART与ID3,C4.5联系与区别

23线性回归、局部加权线性回归、岭回归、lasso及逐步线性回归

24Linear SVM 和 LR 的联系和区别

25决策树处理缺失值