地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2第二章 地理数据及其采集与预处理

2.1地理数据类型

  • 空间数据:用于描述地理实体、地理要素、地理现象、地理事件及地理过程产生、存在和发展的地理位置、区域范围及空间联系,包含有点、线、面,点线面之间的拓扑关系。
    地学计算方法/地统计学(第二章地理数据及其采集与预处理)
  • 属性数据:用于描述地理实体、地理要素、地理现象、地理事件、地理过程的有关属性特征

数量标志数据
间隔尺度数据:以有量纲的数据形式表示测度对象在某种单位(量纲)下的绝对量。

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

比例尺度数据:以无量纲的数据形式表示测度对象的相对量

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

品质标志数据

有序数据:当测度标准不是连续的量,只是表示其顺序关系的数据

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

二元数据:用0、1两个数据表示地理事物、地理现象或地理事件的是非判断问题

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

名义尺度数据:用数字表示地理实体、地理要素、地理现象或地理事件的状态类型

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.2地理数据基本特征

  • 数量化、形式化、逻辑化:定量化的地理数据是建立地理数学模型的基础,其作用为:确定模型的参数、给定模型运行的初值条件;检验模型的有效性。形式化、逻辑化与数量化,是所有地理数据的共同特征。
  • 不确定性:地理系统本身的复杂性从本质上决定着地理数据的不确定性
  • 多种时空尺度:从空间尺度上来看,描述地理区域的各种地理数据,具有多种空间尺度——既有全球尺度的、洲际尺度的、国家尺度的,也有流域尺度的、地区尺度的、城市尺度的、社区尺度的,从时间尺度上来看,描述地理过程的各种地理数据具有多种时间尺度,如历史年代、天、月、季度、年等
  • 多维性:一个地理对象的具体意义要从空间、属性、时间三个方面综合描述,空间方面,描述该地理对象所处的地理位置和空间范围,一般需要2~3个变量,属性方面,描述该地理对象的具体内容,至少需要1个以上,多则需要十几个、甚至几十个变量,时间方面,描述该地理对象产生、发展和存在的时间范围 ,需要1个变量,地理数据的多维性,被描述为地理数据立方体。(the geographical data cube)

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.3地理数据的采集与处理

2.3.1地理数据采集

地理数据的渠道来源
①来自于观测、测量部门的专业数据。
②来自于统计年鉴、统计公报中的有关自然资源及社会经济发展数据。
③来自于有关单位或个人的不定期的典型调查数据、抽样调查数据。
④来自于*公报、文件中的有关数据
⑤来自于档案、图书等文献资料中的有关数据。
⑥来自于互联网(Internet)的有关共享数据。
⑦来自地图图件。主要包括各种比例尺的地形图、影像地图、专题地图等。
⑧来自遥感数据。主要包括各种航空遥感数据和卫星遥感数据。
⑨其他来源的有关数据。
采集地理数据过程中需要注意的问题
①数据的完备性和可靠性。
②在数据采集过程中,最大限度地减小数据的误差。
③在数据采集完毕后,进行检验,辨别真伪,通过数据筛选,去粗取精、去伪存真

2.3.2地理数据处理

地理数据处理,是地理问题研究的核心环节。
从理论上讲,在地理学中,数学方法的运用主要有两个目的:(1)运用数学语言对地理问题的描述,建立地理数学模型,从更高、更深层次上揭示地理问题的机理;(2)运用有关数学方法,通过定量化的计算和分析,对地理数据进行处理,从而揭示有关地理现象的内在规律

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.4地理数据的统计预处理

2.4.1统计整理

①统计分组,就是根据研究目的,按照一定的分组标志将地理数据分成若干组。
②计算各组数据的频数、频率,编制统计分组表。
③作分布图。

2.4.2几种常用的统计指标与参数

2.4.2.1描述地理数据一般水平的指标

平均值未分组xˉ=1ni=1nxi\bar{x}=\frac{1}{n} \sum_{i=1}^{n} x_{i} 分组xˉ=i=1mfixii=1mfi\bar{x}=\frac{\sum_{i=1}^{m} f_{i} x_{i}}{\sum_{i=1}^{m} f_{i}}

中位数未分组排在中间的位置

分组Me=L+d×12i=1nfiSm1fmM_{e}=L+d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m-1}}{f_{m}}Me=Ud×12i=1nfiSm+1fmM_{e}=U-d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m+1}}{f_{m}}

MeM_e代表中位数;
LL为中位数所在组的下限值;
UU为中位数所在组的上限值;
fmf_m为中位数所在组的频数;
Sm1S_{m-1}为中位数所在组以下的累计频数;
Sm+1S_{m+1}为中位数所在组以上的累计频数;
dd为中位数所在组的组距

众数:未分组 频数最大的 分组M0=L+d×Δ1Δ1+Δ2M_{0}=L+d \times \frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}}M0=Ud×Δ2Δ1+Δ2M_{0}=U-d \times \frac{\Delta_{2}}{\Delta_{1}+\Delta_{2}}

M0M_0代表众数;
LL为众数所在组的下限值;
UU为众数所在组的上限值;
Δ1\Delta_1为众数组频数与上一组频数之差;
Δ2\Delta_2为众数组频数与下一组频数之差;
dd为众数所在组的组距

计算举例

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

平均数:
xˉ=i=1mfixii=1mfi=(3002500+13003500+2004500+1505500+1006500+507500+308500)/2130=3899.06 \bar{x}=\frac{\sum_{i=1}^{m} f_{i} x_{i}}{\sum_{i=1}^{m} f_{i}}\\ =(300*2500+1300*3500+200*4500+150*5500+100*6500\\ +50*7500+30*8500)/2130=3899.06
中位数:

确定中位数所在组为[3000,4000][3000,4000]
Me=L+d×12i=1nfiSm1fm=3000+1000×12×21303001300=3588.46 M_{e}=L+d \times \frac{\frac{1}{2} \sum_{i=1}^{n} f_{i}-S_{m-1}}{f_{m}}\\ =3000+1000\times\frac{\frac{1}{2}\times2130-300}{1300}=3588.46
众数:

确定中位数所在组为[3000,4000][3000,4000]
M0=L+d×Δ1Δ1+Δ2=3000+1000×13003001300300+1300200=3476.19 M_{0}=L+d \times \frac{\Delta_{1}}{\Delta_{1}+\Delta_{2}}\\ =3000+1000\times\frac{1300-300}{1300-300+1300-200}=3476.19

2.4.2.2描述地理数据分布的离散程度的指标

极差:最大值与最小值之差R=maxximinxiR=max{x_i}-min{x_i}

离差:每个数据与平均值的差di=xixˉd_i=x_i-\bar{x}

离差平方和:它从总体上衡量一组地理数据与平均值的离散程度,其计算公式为d2=i=1n(xixˉ)2d^2=\sum_{i=1}^{n}(x_i-\bar{x})^2

方差:从平均概况衡量一组地理数据与平均值的离散程度,σ2=1ni=1n(xixˉ)2\sigma^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}

标准差:方差平方根

以样本方差对标准差进行无偏估计S=1n1i=1n(xixˉ)2S=\sqrt{\frac{1}{n-1} \sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}}

变异系数:表示地理数据的相对变化(波动)程度

Cv=Sxˉ×100%C_v=\frac{S}{\bar{x}}\times100\%

2.4.2.3描述地理数据分布特征的参数

偏度系数

测度地理数据分布的不对称性情况,刻画以平均值为中心的偏向情况,计算公式为
g1=i=1n1n(xixˉσ)3 g_{1}=\sum_{i=1}^{n} \frac{1}{n}\left(\frac{x_{i}-\bar{x}}{\sigma}\right)^{3}​
g1<0g_1<0表示负偏,均值在峰值左侧,g1>0g_1>0相反,g1=0g_1=0,则峰值与均值重叠,对称分布

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

峰度系数:

测度了地理数据在均值附近的集中程度,其计算公式为
g2=i=1n1n(xixˉσ)43 g_{2}=\sum_{i=1}^{n} \frac{1}{n}\left(\frac{x_{i}-\bar{x}}{\sigma}\right)^{4}-3
标准正态分布的峰度系数g2=0g2>0g_2=0,g_2>0,表示地理数据分布的集中程度高于正态分布;g2<0g_2<0表示地理数据分布的集中程度低于正态分布

2.5正态分布检验与数据转换

2.5.1正态分布

正态分布:正态分布由两个参数——平均值和方差决定。概率密度函数曲线以均值为对称中线,方差越小,分布越集中在均值附近
f(x)=12πσe(xμ)22σ2 f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}

2.5.2检验方法

直方图法,直方图只能初步判断数据是否符合正态分布

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

PP和QQ图

P-P图是根据变量的累积比例与指定分布的累积比例之间的关系所绘制的图形。通过P-P图可以检验数据是否符合指定的分布。当数据符合指定分布时,P-P图中各点近似呈一条直线。

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.5.3数据转换处理

将原始数据的频数分布,通过一定的尺度转化,转换为另外的频数分布,而正态转化是最为常用的一种

地统计学分析中,分析数据最好接近正态分布,转换方法主要有

  • 对数转换:X>lnXX -> lnX

  • 平方根变换

  • 反正弦转换

2.6异常值的识别与处理

2.6.1异常值

异常值:样品数据中出现概率很小的值,往往在分析前需要剔除。方法:

  • 平均值加标准差法
  • 四倍法
  • 格拉布斯法

对于大样本(样本容量大于100)的异常值判断,通常用二倍或三倍标准差法;对于小样本的异常值判断,一般使用狄克松、格拉布斯和t检验法。但这三种方法仅适用于用来剔除正态小样本的异常数值,若样本不符合正态分布,则要进行转换。

2.6.2平均值加标准差法

正常数据的上下限等于平均值加二倍标准差,适用于数据分布简单均一的情况:CA=Zˉ±2SC_A=\bar{Z}\pm2S

对于数据分布相对复杂的情况,可采用3S3SCA=Zˉ±3SC_A=\bar{Z}\pm3S

2.6.3四倍法

某观察数据与该样品平均值的差数(d)大于平均偏差的4倍时视为异常值。其中平均偏差就是所有观察数据与样本平均值之间的差数的平均值。

计算过程

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

怎样确定唯一的可疑值?

看最大值和最小值哪个离平均值最远,

循环过程怎样判断结束标准?

知道没有可疑值,即最大值与最小值均在条件范围内。

2.7相关分析

2.7.1两要素之间相关程度的测定

2.7.1.1相关系数的计算与检验

rxy=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2i=1n(yiyˉ)2 r_{x y}=\frac{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)\left(y_{i}-\bar{y}\right)}{\sqrt{\sum_{i=1}^{n}\left(x_{i}-\bar{x}\right)^{2}} \sqrt{\sum_{i=1}^{n}\left(y_{i}-\bar{y}\right)^{2}}}

说明 :1rxy1- 1 \le r_{x y}\le 1, 大于0时正相关,小于0时负相关。 rxyr_{xy}的绝对值越接近于1,两要素的关系越密切;越接近于0,两要素的关系越不密切。

相关系数是根据要素之间的样本值计算出来,它随着样本数的多少或取样方式的不同而不同,因此它只是要素之间的样本相关系数,只有通过检验,才能知道它的可信度

2.7.1.2秩相关系数的计算与检验

又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。
rxy=16i=1ndi2n(n21) r_{x y}^{\prime}=1-\frac{6 \sum_{i=1}^{n} d_{i}^{2}}{n\left(n^{2}-1\right)}
did_i为两变量每一对样本的等级之差

2.7.2多要素间相关程度的测定

2.7.2.1偏相关系数的计算与检验

定义:在多要素所构成的地理系统中,先不考虑其他要素的影响,而单独研究两个要素之间的相互关系的密切程度,这称为偏相关。用以度量偏相关程度的统计量,称为偏相关系数。

有如下相关系数矩阵:
P=[r11r12r13r14r21r22r23r24r31r32r33r34r41r42r43r44]=[10.4160.3460.5790.41610.5920.9500.3460.59210.4690.5790.9500.4691] P=\left[\begin{array}{llll}r_{11} & r_{12} & r_{13} & r_{14} \\r_{21} & r_{22} & r_{23} & r_{24} \\r_{31} & r_{32} & r_{33} & r_{34} \\r_{41} & r_{42} & r_{43} & r_{44}\end{array}\right]=\left[\begin{array}{cccc}1 & 0.416 & 0.346 & 0.579 \\0.416 & 1 & -0.592 & 0.950 \\-0.346 & -0.592 & 1 & -0.469 \\0.579 & 0.950 & -0.469 & 1\end{array}\right]
3个要素的偏相关系数
r12.3=r12r13r23(1r132)(1r232)r13.2=r13r12r23(1r122)(1r232)r23.1=r23r12r13(1r122)(1r132) \begin{array}{l} r_{12.3}=\frac{r_{12}-r_{13} r_{23}}{\sqrt{\left(1-r_{13}^{2}\right)\left(1-r_{23}^{2}\right)}} \\ r_{13.2}=\frac{r_{13}-r_{12} r_{23}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{23}^{2}\right)}} \\ r_{23.1}=\frac{r_{23}-r_{12} r_{13}}{\sqrt{\left(1-r_{12}^{2}\right)\left(1-r_{13}^{2}\right)}} \end{array}
4个要素的偏相关系数
r12.34=r12.3r14.3r24.3(1r14.32)(1r24.32)r13.24=r13.2r14.2r34.2(1r14.22)(1r34.22)r14.23=r14.2r13.2r43.2(1r13.22)(1r43.22)r23.14=r23.1r24.1r34.1(1r24.12)(1r34.12) \begin{array}{l} r_{12.34}=\frac{r_{12.3}-r_{14.3} r_{24.3}}{\sqrt{\left(1-r_{14.3}^{2}\right)\left(1-r_{24.3}^{2}\right)}} \\ r_{13.24}=\frac{r_{13.2}-r_{14.2} r_{34.2}}{\sqrt{\left(1-r_{14.2}^{2}\right)\left(1-r_{34.2}^{2}\right)}} \\ r_{14.23}=\frac{r_{14.2}-r_{13.2} r_{43.2}}{\sqrt{\left(1-r_{13.2}^{2}\right)\left(1-r_{43.2}^{2}\right)}} \\ r_{23.14}=\frac{r_{23.1}-r_{24.1} r_{34.1}}{\sqrt{\left(1-r_{24.1}^{2}\right)\left(1-r_{34.1}^{2}\right)}} \end{array}
性质:

① 偏相关系数分布的范围在-1到1之间;
② 偏相关系数的绝对值越大,表示其偏相关程度越大;
③ 偏相关系数的绝对值必小于或最多等于由同一系列资料所求得的复相关系数,即 R123r123R_{1·23}≥|r_{12·3}|

2.7.2.2复相关系数的计算与检验

复相关系数:反映几个要素与某一个要素之间的复相关程度

复相关系数的计算:

两个自变量:Ry.12=1(1ry12)(1ry2.12)R_{y .12}=\sqrt{1-\left(1-r^{2}_{y1}\right)\left(1-r^{2} _{y2.1}\right)}

三个自变量:Ry,123=1(1r2y)(1ry2.12)(1ry3.122)R_{y, 123}=\sqrt{1-\left(1-r^{2} y\right)\left(1-r_{y 2.1}^{2}\right)\left(1-r_{y 3.12}^{2}\right)}

性质:

① 复相关系数介于0到1之间

② 复相关系数越大,则表明要素(变量)之间的相关程度越密切。复相关系数为1,表示完全相关;复相关系数为0,表示完全无关

③ 复相关系数必大于或至少等于单相关系
数的绝对值

2.8回归分析

2.8.1一元线性回归

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.8.2多元线性回归

地学计算方法/地统计学(第二章地理数据及其采集与预处理)

2.8.3非线性回归

非线性关系线性化

地学计算方法/地统计学(第二章地理数据及其采集与预处理)