线性回归及其变式

Q1：线性回归的原理

Q2：线性回归损失函数的推导过程

Q3：求解线性回归损失函数的方法有哪些

Q4：如何解决共线性（待补充）

Q5：如何防止过拟合

Q6：分布式训练怎么做（待补充）

Q7：正则化的目的和方法

Q8：为什么L1正则化能产生稀疏解，L2则不可以

Q1：线性回归的原理

线性回归是利用数理统计中回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。其表达形式为y = w'x+e，e为误差服从均值为0的正态分布。可以利用梯度下降法等方法求出权重w'的值。

Q2：线性回归损失函数的推导过程

首先线性回归有3个假设：

（1）误差存在且为线性回归及其变式；

（2）误差线性回归及其变式的分布基本符合正态分布，因为通常我们不知道是什么分布的时候，根据经验来说正态分布往往效果不错。

（3）每一个样本的误差都是独立同分布的，且满足随机性。

于是我们可以得到第线性回归及其变式个样本的误差为的概率是：

线性回归及其变式

然后，线性回归及其变式是真实值与预测值之间的误差，于是把这两个值代进去。

线性回归及其变式

这是一个似然函数，我们希望它的值越大越好！常规操作取一个log，于是就有

线性回归及其变式

由此可以得到线性回归的损失函数或者说目标函数就是

线性回归及其变式

之所以有1/2这么个系数，只是因为后续用到梯度下降的时候，求导可以把它约掉，方便计算而已，这不会影响最终的结果。

而且注意噢，这里可是没有除以m的！！！！

Q3：求解线性回归损失函数的方法有哪些

（1）梯度下降法

梯度下降又可以是批梯度下降，也可以是随机梯度下降。下面是只有一个样本的时候的批梯度下降的公式推导。

线性回归及其变式

当有m个样本时，在学习速率后面做一个累加即可。

如果是随机梯度下降，每次只需要用到一个样本就行了。

线性回归及其变式

（2）正规方程组

上一个简单的推导过程。

线性回归及其变式

Q4：如何解决共线性

Q5：如何防止过拟合

通过添加正则化项来防止过拟合。

（1）Lasso回归 使用L1正则化

（2）Ridge回归 使用L2正则化

（3）ElasticNet回归 使用L1+L2正则化

Lasso回归可以将系数收缩到0，从而达到变量选择的效果，这是一种非常流行的变量选择方法。Lasso回归的求解办法一般有坐标轴下降法（coordinate descent）和最小角回归法（ Least Angle Regression），毕竟绝对值不可导。

岭回归（Ridge Regression）的求解则可以使用和线性回归一样的方法。

线性回归及其变式

ElasticNet回归综合了前两种回归的特点，就像huber损失函数一样，是个中庸化的产物。

线性回归及其变式

ElasticNetCV类用在我们发现用Lasso回归太过（太多特征被稀疏为0），而用Ridge回归又正则化的不够（回归系数衰减的太慢）的时候。一般不推荐拿到数据就直接就上ElasticNetCV。

Q6：分布式训练怎么做

Q7：正则化的目的和方法

正则化项即罚函数，该项对模型向量进行“惩罚”，已达到避免过拟合的目的。

我们不仅要让经验风险最小化，还要让结构风险最小化(structural risk minimization, SRM)。这个时候就定义了一个函数线性回归及其变式。这个函数专门用来度量模型的复杂度，在机器学习中也叫正则化(regularization)。常用的有????1、????2范数，以及神经网络中的Dropout。

Q8：为什么L1正则化能产生稀疏解，L2则不可以

从下面的图来解释。

从图中可以发现一个问题，对于梯度下降的最优解，L1正则化有更大的概率出现在顶点；而L2正则化则不然。

线性回归及其变式

Q1：线性回归的原理

Q2：线性回归损失函数的推导过程

Q3：求解线性回归损失函数的方法有哪些

Q4：如何解决共线性

Q5：如何防止过拟合

Q6：分布式训练怎么做

Q7：正则化的目的和方法

Q8：为什么L1正则化能产生稀疏解，L2则不可以

相关推荐