多重共线性

多重共线性定义

一个回归模型中的一些或全部解释变量之间存在一种完全或准确的线性关系。

完全共线性：λ1X1+λ2X2+⋯⋯λkXk=0

不完全共线性：λ1X1+λ2X2+⋯⋯λkXk+νi=0

多重共线性的巴伦坦表示：

多重共线性

Q: 为什么在经典回归模型中要假定无多重共线性？

A: 如果解释变量之间存在完全多重共线性，那么，解释变量之间的回归系数将是不确定的，并且他们的标准差为无限大。如果解释变量之间的的多重共线性是不完全的，那么虽然回归系数可以确定，但却有较大的标准误差，即系数不能以很高的精度或准确度加以估计。

多重共线性的产生原因

1. 数据采集所用的方法；

例如，抽样局限于总体中诸回归元所取值的一个有限的范围内

2. 模型或从中取样的总体受到约束；

3. 模型设定；

4. 一个过度决定的模型；

5. 回归元具有相同的时间趋势，即同时随着时间增减。

如何识别多重共线性

a. 多重共线性最明显的信号是R2 异常高而回归系数在通常 t 检验的基础上却没有一个是统计上显著的。

b. 在仅有两个解释变量的模型中，检查两个变量之间的零阶或简单相关系数，会得到对共线性一个相当好的认识。如果此相关值高，则通常可归咎于多重共线性。

c. 然而，当模型设计多于两个X解释变量时，低的零阶相关却可能给出高的多重共线性。对于这种情形，也许有必要检查偏相关系数。

d. 如果 R2 高而偏相关低，则多重共线性是可能的。这时一个或多个的变量可能是多于的。但若 R2 高且偏相关也高，则多重共线性也许不易识破。

e. 因此，不妨拿模型中的每一 Xi 变量对所有其余 X 变量做一个回归，并求出相应的判定系数R2i。一个高的R2i 将表明Xi 和其余的X 高度相关，从而可考虑把 Xi 从模型中清除出去。

如何解决多重共线性问题

1. 先验信息；

2. 横截面和时间序列数据并用；

3. 剔除变量和设定错误；

4. 变量代换；

5. 补充新数据；

6. 在多项式回归中降低共线性；

7. 一些其他方法例如-----因子分析，主元法或脊回归。

----------------------------------------------------------

拓展阅读：

1.一个量化策略师的自白（好文强烈推荐）