白话空间统计三十:地统计(4)变异分析

写这篇文章之前,我是纠结了很久的……一旦说道函数这种东西, 而且公式推理这种东西,基本上整个就变成的天书,而白话空间统计整个系列的核心目的还是科普,既然科普,自然就要让大家都能看得懂了咯……所以大段的公式推理,我就不列了,有兴趣的同学自己百度,这里仅做简单介绍。

 

白话空间统计三十:地统计(4)变异分析

白话空间统计三十:地统计(4)变异分析

白话空间统计三十:地统计(4)变异分析

白话空间统计三十:地统计(4)变异分析

白话空间统计三十:地统计(4)变异分析

白话空间统计三十:地统计(4)变异分析

变异分析——地统计学的理论核心

 

地统计学需要研究的是区域化变量之间的空间变异结构,其理论核心就是变异函数的研究。

 

下面我们来看看啥是变异函数。

 

还是来看两个点之间的温度观测值:

 

白话空间统计三十:地统计(4)变异分析

从位置一,到位置二的观测值变化,看成是一个一维条件下的变化函数,如果仅仅是一个线性变化的函数自然就莫得问题了,但是他又具有局部性的随机变化函数,那么,在哪一个点可以代表这个曲线方程呢?

 

地统计学里面,把一维条件下的变异函数定位为:当空间点Z在一维X轴上变化时,区域化变量Z(x)在点xx+h处的值Z(x) 与Z(x+h)差的方差的一半,为变量Z(x)在x轴方向上的变异函数,记为y(h)。所以,很多书上,把地统计学的变异函数,也叫做半变异函数。

 

写成数学公式就是:

白话空间统计三十:地统计(4)变异分析

(好吧,这是本文中唯一的数学公式,忍忍就过去了……当然,意犹未尽的同学,可以自行去查找变异函数的各种数据描述,我这里就不亮了,毕竟用PPT敲数学公式还是很麻烦的)白话空间统计三十:地统计(4)变异分析

 

我们下面来解释一下,为什么说变异函数可以地统计学的核心研究内容。

 

首先,变异函数里面,Z(x)与Z(x+h)的差是计算的第一步,那么如果h=0的话(距离为零,就是在同一个位置连续进行两次测量),得到的结果变异函数也等于0了。

 

也就是说,默认,如果在同一个位置进行同等条件的两次测量,默认得到同一结果,不会发生变异,也就是变异函数排除了测量误差的假设。

 

第二,y(h) = y(-h),也就是说,变异函数是个对h=0的直线对称,是一个偶函数。偶函数就表示了,二者之间的距离与正负无关(从谁参照物进行测量都行)。

 

第三,y(h) >=0 ,研究现象的变异性,要么出现,要么不出现,只能大于等于0不能是负数(自现象研究不出现负数)。

 

第四,当|h| -> 无穷大的时候,y(h) -> C(0),好吧,我知道你们会问,这个C(0)是神马,这个东西叫做“先验方差”。

 

当h趋近于无穷大的时候,也就是说,这两个点已经无穷远了,比如:

 

白话空间统计三十:地统计(4)变异分析

 

根据地理学第一定律,那么他们之间的关系应该无穷小才对,那么这个先验方差又是神马呢?

 

先验方差是概率论里面的一个基本概念,指的是在实验之前,就对结果进行了断言——也就是所谓的:这事情嘛,虽然还没有开始,但是我估摸着这样应该差不多了……的意思。在概率论里面,相关的还有无信息先验贝叶斯这一类相关的概念,有兴趣的同学自己回去捡概率论回来看看。

 

这个概念在这里有啥用呢?

 

这个概念实际上是与第一个性质h= 0 相对应的,得到的实际上是这样一个函数:

 

白话空间统计三十:地统计(4)变异分析

这种完全没有空间相关性的,在地统计里面,也有一个专用名称,叫做“纯块金效益”。

 

块……金……?

白话空间统计三十:地统计(4)变异分析

 

好吧,英文单词确实是:Nugget,但是这里指的确和金块没有关系。

 

这里指的是这样一个情况:

白话空间统计三十:地统计(4)变异分析

上面那个图,是个理想化的函数,距离无穷小的时候,变异也无穷接近与0,但是很多时候,虽然两次测量和接近,但是结果确截然不同。

 

那么具体来说,在什么情况下会出现呢?

 

白话空间统计三十:地统计(4)变异分析

 

如果有AB两个点,A点的值是100的话,B的取值应该是以100为中心的正态分布曲线的取值,AB两点距离越近,B点的取值就越接近100,这是理论的情况。

 

但是实际上可能出现这种情况:

 

白话空间统计三十:地统计(4)变异分析

 

实际上AB两点距离很近,但是获得的数据并非是正态分布的取值,这就是一种特有的变异。这种即使距离很近,但是样品之间也存在差异的情况,就叫做块金效益

 

白话空间统计三十:地统计(4)变异分析

下面我们来看看完整的变异曲线图中的其他一下概念:

 

白话空间统计三十:地统计(4)变异分析

除了上面介绍过的块金值,还有一下几个基本概念:

 

首先是偏基台值与基台值:

 

白话空间统计三十:地统计(4)变异分析

一旦达到基台值之后,半变异的曲线就会进入平台期,哪怕h值在增大,y(h)的变化也不会太大了,这个常数就是所谓的基台值。

 

不过这个值对最后的插值结果影响不大(废话,都常数了不是)。

 

然后是变程:

 

白话空间统计三十:地统计(4)变异分析

在分析中,是可以存在最佳变程的,那么怎么去寻找这个最佳变程,就是我们后面在实践操作中需要详细讲解的内容。

 

当然,关于变异分析,还有更多的理论,有兴趣的同学可以去自行阅读相关资料,我们这里仅做科普性质。

 

从下一节开始,我们开始进入克里金插值过程的实操部分。