【数据挖掘 03】EDA 之 自相关图分析



1. 分析问题

探索性数据分析用来回答一些常见问题:

  • 什么是一个典型值?
  • 典型值的不确定性是多少?
  • 什么是一组数的良好分布拟合?
  • 什么是百分位数?
  • 一个工程的修改有效果吗?
  • 一个因素影响结果吗?
  • 最重要的因素是什么?
  • 来自不同实验的测量值是否相等?
  • 将自变量与因变量相关联的最佳特征是什么?
  • 因子的最佳设置是什么?
  • 可以将信号与时间相关数据中的噪声分开吗?
  • 可以从多元数据中提取结构吗?
  • 数据是否有异常值?

任何分析中至关重要的早期步骤是(针对当前的工程问题)识别上述哪些问题是相关的。也就是说,我们需要确定我们要回答哪些问题以及哪些问题与当前问题无关。在收集了这样的问题集之后,同等重要的步骤(对于保持焦点至关重要)是按照重要性从高到低的顺序排列这些问题的优先级。EDA技术与每个问题都息息相关。有一些EDA技术(例如散点图)被广泛采用并几乎普遍适用。另一方面,有大量的EDA技术是特定的,并且其特异性与上述问题之一联系在一起。 显然,如果选择不明确识别相关问题,那么就无法利用这些特定于问题的EDA技术。

这些问题中的大多数都可以通过本章中讨论的技术来解决。这些问题也与经典的统计方法有关。与经典的定量统计方法不同,EDA方法与众不同之处在于它强调图形技术以获取洞察力。大多数数据分析人员将混合使用图形和经典定量统计方法来解决这些问题。

本节提供了一些有用的图形技术库,这些技术按字母顺序排序。本章的案例研究证明了大多数图形技术的使用,这些图形技术中的一些将在后面的章节中进行演示。
【数据挖掘 03】EDA 之 自相关图分析


2. 自相关图(Autocorrelation Plot)

自相关图(Box和Jenkins,第28-32页)是检查数据集中随机性的常用工具。通过在变化的时间滞后中计算数据值的自相关来确定这种随机性。如果是随机的,则对于任何和所有时滞分离(time-lag separations),此类自相关应接近零。如果是非随机的,则一个或多个自相关将明显为非零。此外,自相关图用于 Box-Jenkins自回归移动平均时间序列模型的模型识别阶段。

注意,不相关并不一定意味着随机。具有明显自相关的数据不是随机的。但是,未显示明显自相关的数据仍可以其他方式表现出非随机性。自相关只是随机性的一种度量。在模型验证的背景下,检查自相关通常是对随机性的充分测试,因为拟合不良的模型的残差往往显示出非精细的随机性。但是,某些应用程序需要更严格地确定随机性。在这些情况下,将应用一系列测试,其中可能包括检查自相关性,因为数据可能以许多不同且通常是微妙的方式表现出非随机性。

需要测试随机性的一个例子是测试随机数生成器。

【数据挖掘 03】EDA 之 自相关图分析

2.1 定义

Vertical axis: Autocorrelation coefficient:

R h = C h / C 0 R_{h} = C_{h}/C_{0} Rh=Ch/C0

where C h C_h Ch is the autocovariance function:

C h = 1 N ∑ t = 1 N − h ( Y t − Y ˉ ) ( Y t + h − Y ˉ ) C_{h} = \frac{1}{N}\sum_{t=1}^{N-h}(Y_{t} - \bar{{Y}})(Y_{t+h} - \bar{{Y}}) Ch=N1t=1Nh(YtYˉ)(Yt+hYˉ)

and C 0 C_0 C0 is the variance function

C 0 = ∑ t = 1 N ( Y t − Y ˉ ) 2 N C_{0} = \frac{\sum_{t=1}^{N}(Y_{t} - \bar{Y})^2}{N} C0=Nt=1N(YtYˉ)2

Note that R h R_h Rh is between -1 and +1.

Note that some sources may use the following formula for the autocovariance function:

C h = 1 N − h ∑ t = 1 N − h ( Y t − Y ˉ ) ( Y t + h − Y ˉ ) C_{h} = \frac{1}{N-h}\sum_{t=1}^{N-h}(Y_{t} - \bar{{Y}})(Y_{t+h} - \bar{{Y}}) Ch=Nh1t=1Nh(YtYˉ)(Yt+hYˉ)

Although this definition has less bias, the ( 1 / N 1/N 1/N) formulation has some desirable statistical properties and is the form most commonly used in the statistics literature. See pages 20 and 49-50 in Chatfield for details.

Horizontal axis: Time lag h h h ( h = 1 , 2 , 3 , . . . h = 1, 2, 3, ... h=1,2,3,...)

The above line also contains several horizontal reference lines. The middle line is at zero. The other four lines are 95 % and 99 % confidence bands. Note that there are two distinct formulas for generating the confidence bands.

  1. If the autocorrelation plot is being used to test for randomness (i.e., there is no time dependence in the data), the following formula is recommended:

± z 1 − α / 2 N \pm \frac{z_{1-\alpha/2}} {\sqrt{N}} ±N z1α/2

where N N N is the sample size, z z z is the cumulative distribution function(累积分布函数) of the standard normal distribution and α α α is the significance level(显著性水平). In this case, the confidence bands have fixed width that depends on the sample size. This is the formula that was used to generate the confidence bands in the above plot.

  1. Autocorrelation plots are also used in the model identification stage for fitting ARIMA models. In this case, a moving average model is assumed for the data and the following confidence bands should be generated:

± z 1 − α / 2 1 N ( 1 + 2 ∑ i = 1 k y i 2 ) \pm z_{1-\alpha/2} \sqrt{\frac{1}{N} (1 + 2 \sum_{i=1}^{k}{y_{i}^2})} ±z1α/2N1(1+2i=1kyi2)

where k k k is the lag, N N N is the sample size, z z z is the cumulative distribution function of the standard normal distribution and α α α is the significance level. In this case, the confidence bands increase as the lag increases.

自相关图可以提供以下问题的答案:

  • 数据是随机的吗?
  • 观察值是否与相邻观察值相关?
  • 观察值是否与两次删除的观察值有关?
  • 观察的时间序列是白噪声(white noise)吗?
  • 观察的时间序列是正弦曲线吗?
  • 观察的时间序列是自回归的吗?
  • 观察到的时间序列合适的模型是什么?
  • 模型 Y = c o n s t a n t + e r r o r Y =constant + error Y=constant+error 是有效还是充分?
  • 公式 s Y ˉ = s / N s_{\bar{{Y}}} = s/\sqrt{N} sYˉ=s/N 是否有效?

随机性(以及固定的模型,固定的变化和固定的分布)是通常构成所有测量过程基础的四个假设之一。出于以下三个原因,随机性假设至关重要:

  • 1 大多数标准统计检验取决于随机性。测试结论的有效性与随机性假设的有效性直接相关。
  • 2 许多常用的统计公式取决于随机性假设,最常用的公式是用于确定样本均值标准差的公式: s Y ˉ = s / N s_{\bar{{Y}}} = s/\sqrt{N} sYˉ=s/N
  • 3 对于单变量数据,默认模型为 Y = c o n s t a n t + e r r o r Y = constant + error Y=constant+error,如果数据不是随机的,则此模型不正确且无效,并且参数(例如常数)的估计值将变得无意义且无效。

简而言之,如果分析人员不检查随机性,那么许多统计结论的有效性就会令人怀疑。自相关图是检查这种随机性的绝佳方法。

下例给出了几种常见情况下自相关图的示例。

2.2 随机性(=白噪声)

【数据挖掘 03】EDA 之 自相关图分析
可以从该图得出以下结论。

  • 没有明显的自相关。
  • 数据是随机的。

请注意,除了 lag 0(根据定义始终为1)之外,几乎所有自相关都落在95%置信范围内。此外,没有明显的模式(例如前25个为正,后25个为负)。这是一种模式的缺席,我们希望看到数据是否实际上是随机的。

稍微超出95%和99%置信度限制的滞后不一定表示存在非随机性。对于95%的置信区间,由于随机波动,我们可能期望二十个 lags 中约有一个具有统计意义。

没有关联能力可以从当前值 Y i Y_i Yi 推断出 下一个值 Y i + 1 Y_{i + 1} Yi+1 将是什么。这种不联系是随机性的本质。简而言之,相邻的观测值不“相关”,因此我们将其称为“无自相关”情况。


2.3 弱自相关性

【数据挖掘 03】EDA 之 自相关图分析
我们可以从该图得出以下结论:

  • 数据来自具有中等正自相关的基础自回归模型。

该图以 lag 1(大约0.75)的适度较高的自相关开始,并逐渐减小。降低的自相关通常是线性的,但是具有很大的噪声。这样的模式是“中度自相关”的自相关图标志,如果正确建模,则可提供适度的可预测性。

下一步将是估计自回归模型的参数:

Y i = A 0 + A 1 ∗ Y i − 1 + E i Y_{i} = A_0 + A_1*Y_{i-1} + E_{i} Yi=A0+A1Yi1+Ei

可以通过使用最小二乘线性回归或通过拟合 Box-Jenkins 自回归(AR)模型来执行这种估计 。

最小二乘拟合的随机性假设适用于模型的残差。也就是说,即使原始数据表现出非随机性,将 Y i Y_i Yi Y i − 1 Y_{i-1} Yi1 拟合后的残差也应导致随机残差。

此自回归模型的残差标准偏差将比默认模型 Y i = A 0 + E i Y_{i} = A_0 + E_{i} Yi=A0+Ei 的残差标准偏差小得多。


2.4 强自相关和自回归模型

【数据挖掘 03】EDA 之 自相关图分析
从上面的图我们可以得出以下结论:

  • 数据来自具有强正相关性的基础自回归模型。

该图以 lag 1(仅略小于1)的高自相关开始,然后缓慢下降。它继续减小直到变为负数,并开始显示出负的自相关。减小的自相关通常是线性的,噪声很小。这样的模式是“强自相关”的自相关图标志,如果正确建模,则可以提供较高的可预测性。

下一步将是估计自回归模型的参数:

Y i = A 0 + A 1 ∗ Y i − 1 + E i Y_{i} = A_0 + A_1*Y_{i-1} + E_{i} Yi=A0+A1Yi1+Ei

可以通过使用最小二乘线性回归或通过拟合 Box-Jenkins 自回归(AR)模型来执行这种估计 。

最小二乘拟合的随机性假设适用于模型的残差。也就是说,即使原始数据表现出非随机性,将 Y i Y_i Yi Y i − 1 Y_{i-1} Yi1 拟合后的残差也应导致随机残差。

此自回归模型的残差标准偏差将比默认模型 Y i = A 0 + E i Y_{i} = A_0 + E_{i} Yi=A0+Ei 的残差标准偏差小得多。


2.5 正弦模型(Sinusoidal Model)

【数据挖掘 03】EDA 之 自相关图分析
从上面的图我们可以得出以下结论:

  • 数据来自基础正弦模型。

该图显示了正峰值和负峰值的交替序列。这些尖峰没有衰减到零。这种模式是正弦模型的自相关图标志。


2.6 相关技术

在之后的博客中介绍:

  1. 偏自相关图(Partial Autocorrelation Plot)
  2. 滞后图(Lag Plot)
  3. 光谱图(Spectral Plot)
  4. 季节性子图(Seasonal Subseries Plot)

参考:LINK