数据分析面试【面试经验】-----总结和归纳
阅读之前看这里????:博主是正在进行数据分析师求职的一员,博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。
目录
1.无偏性、有效性以及一致性(相合性)
- 无偏性:
定义式:
无偏估计是用样本统计量来估计总体参数时的一种无偏推断。估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。无偏估计常被应用于测验分数统计中。
在无偏估计中,抽样分布均值与总体参数的值相等。此时,大约服从正态分布,是对称的,有偏估计会出现偏移。如下图所示:
无偏性的实际意义是指没有系统性的偏差。统计推断的误差有系统误差和随机误差两种。无论用什么样的估计值去估计,总会时而对某些样本偏高,时而对另一些样本偏低。而无偏性表示,把这些正负偏差在概率上平均起来,其值为零,即无偏估计量只有随机误差而没有系统误差。例如,用样本均值作为总体均值的估计时,虽无法说明一次估计所产生的偏差,但这种偏差随机地在0的周围波动,对同一统计问题大量重复使用不会产生系统偏差。
例子:比如在给出样本方差和样本标准差的公式时,分母是而不是,用而不是用正是为了使样本方差是总体方差的无偏估计量。
问题:
(1)无偏估计有时并不一定存在。
(2)可估参数的无偏估计往往不唯一。
(3)无偏估计不一定是好估计。
有偏估计可以修正为无偏估计。
- 有效性
有效性就是看估计量的方差值,方差代表波动,波动越小越有效。
若则更加有效。
假定一个简单随机样本由个个体组成,给出了总体同一参数的两个不同的无偏点估计量。这时,我们倾向于采用标准误差较小的点估计量,因为它给出的估计值与总体参数更接近。称有较小标准误差的点估计量比其他点估计量更相对有效。如下图,更加有效
- 一致性(相合性)
一致性就是在大样本条件下,估计值接近真实值。
当有:
无偏性、有效性以及一致性等用于参数估计当中。
具体的无偏性的步骤,采取多次重复实验求均值,再用均值与实际值的MSE进行比较。
有效性的应用,求取估计量的方差,判断其波动程度。
一致性
大样本条件下的估计值接近真实值。
2.牛顿迭代法和梯度下降法的区别
1.牛顿法:
是通过求解目标函数的一阶导数为0时的参数,进而求出目标函数最小值时的参数,也就是求二阶导数;
收敛速度很快;
海森矩阵的逆在迭代过程中不断减小,可以起到逐步减小步长的效果。
缺点:
海森矩阵的逆计算复杂,代价比较大,因此有了拟牛顿法。
2.梯度下降法:
是通过梯度方向和步长,直接求解目标函数的最小值时的参数;
越接近最优值时,步长应该不断减小,否则会在最优值附近来回震荡。
从收敛速度上看 ,牛顿法是二阶收敛,梯度下降是一阶收敛,前者牛顿法收敛速度更快。但牛顿法仍然是局部算法,只是在局部上看的更细致,梯度法仅考虑方向,牛顿法不但考虑了方向还兼顾了步子的大小,其对步长的估计使用的是二阶逼近。
- 其它解答:
牛顿法是二阶收敛,梯度下降是一阶收敛,所以牛顿法就更快。如果更通俗地说的话,比如你想找一条最短的路径走到一个盆地的最底部,梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步,牛顿法在选择方向时,不仅会考虑坡度是否够大,还会考虑你走了一步之后,坡度是否会变得更大。所以,可以说牛顿法比梯度下降法看得更远一点,能更快地走到最底部。
根据wiki上的解释,从几何上说,牛顿法就是用一个二次曲面去拟合你当前所处位置的局部曲面,而梯度下降法是用一个平面去拟合当前的局部曲面,通常情况下,二次曲面的拟合会比平面更好,所以牛顿法选择的下降路径会更符合真实的最优下降路径。
红色的牛顿法的迭代路径,绿色的是梯度下降法的迭代路径。
3.梯度下降为何可以收敛
3.1梯度下降法
梯度下降法是最早最简单,也是最为常用的最优化方法。梯度下降法实现简单,当目标函数是凸函数时,梯度下降法的解是全局解。一般情况下,其解不保证是全局最优解,梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向,因为该方向为当前位置的最快下降方向,所以也被称为是”最速下降法“。最速下降法越接近目标值,步长越小,前进越慢。梯度下降法的搜索迭代示意图如下图所示:
梯度下降法的缺点:
(1)靠近极小值时收敛速度减慢,如下图所示;
(2)直线搜索时可能会产生一些问题;
(3)可能会“之字形”地下降。
从上图可以看出,梯度下降法在接近最优解的区域收敛速度明显变慢,利用梯度下降法求解需要很多次的迭代。
在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。
随机梯度下降每次迭代只使用一个样本,迭代一次计算量为n2,当样本个数m很大的时候,随机梯度下降迭代一次的速度要远高于批量梯度下降方法。两者的关系可以这样理解:随机梯度下降方法以损失很小的一部分精确度和增加一定数量的迭代次数为代价,换取了总体的优化效率的提升。增加的迭代次数远远小于样本的数量。
对批量梯度下降法和随机梯度下降法的总结:
批量梯度下降—最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小,但是对于大规模样本问题效率低下。
随机梯度下降—最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往往是在全局最优解附近,适用于大规模训练样本情况。
3.2拟牛顿法(Quasi-Newton Methods)
拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷,它使用正定矩阵来近似Hessian矩阵的逆,从而简化了运算的复杂度。
拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化,构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法,尤其对于困难的问题。另外,因为拟牛顿法不需要二阶导数的信息,所以有时比牛顿法更为有效。如今,优化软件中包含了大量的拟牛顿算法用来解决无约束,约束,和大规模的优化问题。
3.3共轭梯度法(Conjugate Gradient)
共轭梯度法是介于最速下降法与牛顿法之间的一个方法,它仅需利用一阶导数信息,但克服了最速下降法收敛慢的缺点,又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点,共轭梯度法不仅是解决大型线性方程组最有用的方法之一,也是解大型非线性最优化最有效的算法之一。 在各种优化算法中,共轭梯度法是非常重要的一种。其优点是所需存储量小,具有步收敛性,稳定性高,而且不需要任何外来参数。
3.4启发式优化方法
启发式方法指人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题时,利用过去的经验,选择已经行之有效的方法,而不是系统地、以确定的步骤去寻求答案。启发式优化方法种类繁多,包括经典的模拟退火方法、遗传算法、蚁群算法以及粒子群算法等等。
还有一种特殊的优化算法被称之多目标优化算法,它主要针对同时优化多个目标(两个及两个以上)的优化问题,这方面比较经典的算法有NSGAII算法、MOEA/D算法以及人工免疫算法等。
参考:常见的几种最优化方法
4.SVM有约束的优化问题求解
利用拉格朗日对偶求解。首先构建拉格朗日函数,对每个不等式引进拉格朗日乘子,原始的对偶问题是极大极小问题,为了得到对偶问题的解,先对拉格朗日函数中w,b求极小,再对a求极大。
5.常用的SVM核函数
数据分析【机器学习】总结之-----SVM(支持向量机)十大常见面试题整理第5题
—————————————————————————————————————————————————
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是激发我创作的源动力^ - ^