机器学习中的小数学知识
如何通俗易懂地解释「协方差」与「相关系数」的概念:协方差能够表示变量相关性的原因,相关系数可以看成一种剔除了两个变量量纲影响、标准化后的特殊协方差。
置信区间理解:当计算出样本均值时如何基于样本均值确定一个区间,使我们以一定置信水平(概率,如95%)相信真实的总体样本均值包含在在这个置信区间内。
如何通俗并尽可能详细解释卡尔曼滤波?:模型预测分布和实际测量分布的加权平均,不断迭代。
1、L1正则化与L2正则化为什么能够给避免过拟合; 2、l1 相比于 l2 为什么容易获得稀疏解:结构风险最小化的一种策略,假设模型参数符合某种先验分布。实践中,根据Quaro的data scientist Xavier Amatriain 的经验,实际应用过程中,L1 nrom几乎没有比L2 norm表现好的时候,优先使用L2 norm是比较好的选择。L2对大数,对outlier更敏感。这个可以从二者的假设分布拉普拉斯分布和高斯分布分布图像中观察到。