GIS课件第10章 空间统计分析

第10章 空间统计分析

统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析五方面内容。

10.1概述

10.1.1基本概念

空间统计分析可包括“空间数据的统计分析”及“数据的空间统计分析”,前者着重于空间物体和现象的非空间特性的统计分析,解决的一个中心议题就是如何以数学统计模型来描述和模拟空间现象和过程,即将地理模型转换成数学统计模型,以便于定量描述和计算机处理,着重于常规的统计分析方法,尤其是多元统计分析方法对空间数据的处理,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。如趋势面拟合被广泛应用于地理数据的趋势分析中,但在这种分析中,仅考虑了样本值的大小,而并不考虑这些样本在地理空间的分布特征及其相互间的位置关系。从这个意义上讲,空间数据的统计分析在很多方面,与一般的数据分析并无本质差别,但是对空间数据的统计分析结果的解释则必然要依托于地理空间进行,在很多情况下,分析的结果以地图方式来描述和表达的。因此,空间数据的统计分析尽管在分析过程中没有考虑数据抽样点的空间位置,但描述的仍然是空间过程,揭示的也是空间规律和空间机制。

数据的空间统计分析则是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性,都是数据的空间统计分析的研究内容。数据的空间统计分析不是抛弃了传统的统计学的理论和方法,它是在传统的统计学基础上发展起来的。数据的空间统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析,确定其空间分布格局与相关关系。数据的空间统计学区别于经典统计学的最大特点是:数据的空间统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关) 和空间非均质性(空间结构),扭曲了经典统计方法的假设条件,使得经典统计模型对空间数据的分析会产生虚假的解释。经典统计学模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和非独立的观测,它们与距离有关,并随着距离的增加而变化。这些问题为经典的统计学所忽视,但却成为数据的空间统计学的核心。

10.1.2主要分析内容

空间统计分析与经典统计学的内容往往是交叉的。空间统计分析使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。同时,它又具有自己独有的空

间自相关分析。主要分析内容包含以下几点:

1. 基本统计量

统计量是数据特征的反映,也是统计分析的基础。 2. 探索性数据分析

探索性数据分析能让用户更深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。探索性数据分析主要包括确定统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。

3. 分级统计分析

分级统计是对数据的进一步处理分析,以便于更好得揭示数据规律或在制图中获得更好的效果。 4. 空间插值

基于探索性数据分析结果,选择合适的数据内插模型,由已知样点来创建表面,研究空间分布。

5. 空间回归

研究两个或两个以上的变量之间统计关系,通过空间关系,包括考虑空间的自相关性,把属性数据与空间位置关系结合起来,更好的解释地理事物的空间关系。

6. 空间分类 基于地图表达,采用与变量聚类分析相类似的方法来产生新的综合性或者简洁性专题地图。包括多变量统计分析,如主成分分析、层次分析,以及空间分类统计分析,如系统聚类分析、判别分析等。

10.2 基本统计量

常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用(见图10.1)。

图10.1 基本统计量

10.2.1 代表数据集中趋势的统计量

代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。

表10.1中,列出了各统计量的含义以及在实际应用的作用。其中,第i 个变量,i=1,2,„„,n 。

x i 表示数据集中的

表10.1 代表集中趋势的统计量的含义、特点及作用

统计量

简 单

n 个数据的总和与数据的总个数n 的比值

算 术 平 均 数

可作为评价事物的客观标准。如一个地区某一年的

在求算术平均数时,考虑到数据集中的n 个

值有时会含有不同的比重,对平均数的影响

也就不同。所以用加权平均法来计算其算术

均 数

算 术 平 均 数 权

权重

平均数。

能代表该地区经济状况的平均水平,可以用来做比用该地区近几年的人均收入来比较,因为人均收入标;要比较该地区近几年的经济增长水平,也需要人均收入可以作为衡量该地区当年经济状况的指

平均数是最常用的表示数据集中趋势的指标,平均数可分为三种:算术平均数、几何平均数、调和平均数。其中,前两者在GIS 分析中最常用到。

算术平均数代表了数据集的平均水平,不受总体范围的影响,因此可以作为比较分析的指标,还

n

含义 特点及作用

∑x i

i =1

x =n

f i 为x i 出现的频数,加权平均数

较分析。

另外求取离差、平均离差、离差平方和、方差、

可以按下式计算:

f x +f 2x 2+...... +f n x n

=11

f i =

1n

∑f i x i n i =1

标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于图像处理中的平滑运算。

加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各数据点的贡献作用。

其中,

n =f 1+f 2+...... +f n =∑f i

几 何 平 均 数

若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。

当数据集中有奇数个数据时,数据按大

中 位 数

中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数

n 个数据的连乘积再开n 次方所得的方根数

几何平均数用于分析和研究平均改变率、平均

x g =x 1⋅x 2⋅... ⋅x i ⋅... x n

增长率、平均定比等,还在偏相关系数里有应用。

据集的分布形状呈左偏或右偏,以中位数表示它们n +1

小顺序排列,那么第2位数就是中位数;的集中趋势比算术平均数更合理。

n

当有偶数个数据时,中位数为第2项与第n (+1) 2项的平均数。

众数是数据集中最常出现的,因此一定是数据集中的某个值,代表了多少意见,不受极端值的影响,在频数分布曲线上位居最高点,即曲线的峰值。

众数常用于投票选举。若数据集的分布并不是明显集中在某个数值上,用众数来代表集中情形就

众 数

众数是数据集中出现频数(次数)最多

没有多大意义,甚至会有误导作用。

的某个(或某几个)数。

10.2.2 代表数据离散程度的统计量

平均数、中位数、众数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量

差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。

代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。表10.2列出了表示离散程度各个统计量的含义及在实际应用的作用。

表10.2 代表离散程度的统计量及其特点、作用

统计量 最大值与最小

极差 分 位 数

离差

平均离差

离差平方和

方差

标准差

含义

把数据从小到大排列,最前端的值

就是最小值,最后一个就是最大值一个数据集的最大值与最小值的

差值称为极差,它表示这个数据集的取值范围

将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。

离差表示各数值与其平均值的离

散程度,其值等于某个数值与该数

据集的平均值之差

d i = xi -

x

平均离差是把离差取决对值,然后

求和,再除以变量个数

∑x

i

-x

i

n

离差平方和是把离差求平方,然后

求和

∑(x

i

-x )

2

i

方差是均方差的简称。它是以离差平方和除以变量个数而得到的

2

=

(x

i

-x )

2

σ

n

对方差进行开方,即为标准差

=

(x

i

-x )

2

σ

n

特点及作用

通过最大、最小值和极差,可以了解数据的取值范围、分散程度,

易于计算,容易理解,但他们都易受极端数值的影响,漠视了其他值的

存在,无法精确地反映所有数据的分散情形,因此可能会有误导作用。

在地形分析中,极差主要用于求取一定区域内的高差。对于两个不同地区,虽然它们的平均高程相同,但最高点、最低点及高差不同,说明了这两个地区的高程分布状况有差异。

分位数剔除了数据集中极端值的影响,但计算麻烦,且没有用到数据集中的所有数据点。分位数在数据分级中应用较多。

两个数据集的均值相同,但其离差可以有很大的差别,这说明这两

个数据集与各自平均值的离散程度不同。

(x

平均离差和离差平方和可以克服

∑i

-)

i

恒等于零的缺点,还

可以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方

和得到的结果较大,使离散程度更明显。

离差平方和用于相关分析中求取相关系数

在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。

在趋势面分析中,对于趋势面的拟合程度可以用离差平方和来检

验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方

和两部分,回归平方和的值越大,表明拟合程度越高。

它们是表示一组数据对于平均值的离散程度的很重要的指标,为了

应用上的方便,常对方差进行开方,即为标准差。

方差和标准差都可应用于相关分析、回归分析、正态分布检验等,

还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。

标准差还可用于数据分级。

变差系数也称为离差系数或变异系数,是标准差与均值的比

值,以

C v 表示

变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。

变差系数可用来求算地形高程变异系数。

变差系数

S C v =

x ×100%

式中

C v 为变差系数,

其值为百分

率;S 是标准差;

x 为平均值。

10.2.3 代表数据分布形态的统计量

分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。

表10.3 代表分布形态的统计量及其作用

统计量

含义

偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。 标准偏度系数(g 1):

作用

偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小

g 1=

x -x 1

(i ) ∑6n S

3

x 或大于x )

峰度可以表示数据频数分布曲线峰形

的相对高耸程度或尖平程度。

这两个指标主要用于分析数据的频率

当g 10时,数据的分布情况如下图:

偏度

统计图以及评价正态分布性,当g 1=0且

g 2=0时,数据是标准正态分布。

x x x

f(x)是数据分布的密度函数,

x 是数据的平均值

峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。

标准峰度系数 g 2按下式计算:

g 2=

峰度

x -x n 1

(∑(i ) -3) 24n i S

4

f(x)是数据分布的密度函数,

x 是数据的平均值,S 是标准差

10.2.4 其它统计量

表10.4 其他统计量

统计量

含义

作用

总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总

总和

数据集中所有数据相加得到的值

长度与总面积,可以获得该流域的沟壑密度。

比率 两类物体或现象的数值之比

地表粗糙度即是以比率来表达的,它是地表单元的曲面面积与其在水平面上的投影面积之比。

比例 某类物体或现象的数值与其总数之比

高程变异系数以某区域高程标准差和平均值的比值来表示。

例如在不同高程区域内植物、动物或其它研究对象的种类的统计。

种类

一定区域内,出现多少种不同的值。

反映区域生物的多样性。

10.3探索性数据分析

数据分析包括探索阶段和证实阶段。探索性数据分析首先分离出数据的模式和特点,再

根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。探索性方法既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。

10.3.1基本分析工具

图10.2 直方图示意图

1. 直方图

直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。如图10.2为直方图示意图。 2. QQplot 图

(1) 正态QQPlot 分布图

正态QQPlot (Normal QQPlot)分布图主要用来评估具有n 个值的单变量样本数据是否服从正态分布。构建正态QQPlot 分布图的通用过程为(图10.3):

①首先对采样值进行排序;

②计算出每个排序后的数据的累积值(低于该值的数据的百分比); ③绘制累积值分布图;

④在累积值之间使用线性内插技术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值; ⑤以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图。

图10.3 正态QQPlot 示意图

如果采样数据服从正态分布,其正态QQPlot 分布图中采样点分布应该是一条直线。如

果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。此外,如果在正态QQ 图中数据没有显示出正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换,使之服从正态分布。

(2) 普通QQPlot 分布图 普通QQPlot (General QQPlot)分布图用来评估两个数据集的分布的相似性。普通QQPlot 分布图通过两个数据集中具有相同累积分布值作图来生成,如图10.4所示。累积分布值的作法参阅正态QQPlot 分布图内容。

图10.4 普通QQPlot 示意图

普通QQPlot 图揭示了两个物体(变量)之间的相关关系,如果在QQPlot 图中曲线呈直

线,说明两物体呈一种线性关系,可以用一元一次方程式来拟合。如果QQPlot 图中曲线呈抛物线,说明两物体的关系可以用个二次多项式来拟合。

3. 方差变异分析工具

半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相

似定理的定量化。图10.5和图10.6为一典型的半变异函数图和其对应的协方差函数图。

图10.5和图10.6显示,半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。

半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。它们对异常采样点具有很好的探测作用,在空间分析的地统计分析中可以使用两者中的任意一个,一般采用半变异函数。在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget )、变程(Range )、基台值(Sill )和偏基台值(Partial Sill)。

块金值(Nugget ):理论上,当采样点间的距离为0时,半变异函数值应为0;但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。

基台值(Sill ):当采样点间的距离h 增大时,半变异函数r(h)从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。

偏基台值(Partial Sill):基台值与块金值的差值。 变程(Range ):当半变异函数的取值由初始的块金值达到基台值时,采样点的间隔距离称为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。 4. V oronoi 图

V oronoi 地图是由在样点周围形成的一系列多边形组成的。某一样点的V oronoi 多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。V oronoi 多边形生成之后,相邻的点就被定义为具有相同连接边的样点。

V oronoi 图中多边形值可以采用多种分配和计算方法: ● 简化(Simple ):分配到某个多边形单元的值是该多边形单元的值; ● 平均(Mean ):分配到某个多边形单元的值是这个单元与其相邻单元的平均值; ● 模式(Mode ):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是

这个单元与其相邻单元的模式(即出现频率最多的区间);

● 聚类(Cluster ):所有的多边形单元被分配到这五级区间中,如果某个多边形单元

的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其它单元;

● 熵(Entropy ):所有单元都根据数据值的自然分组分配到这五级中。分配到某个多

边形单元的值是根据该单元和其相邻单元计算出来的熵;

● 中值(Median ):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算

的中值;

● 标准差(StDev ):分配给某多边形的值是根据该单元和其相邻单元计算出的标准

差;

● 四分位数间间隔(IQR ):第一和第三四分位数是根据某单元和其相邻单元的频率

分布得出的。分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。

图10.7 简化(Simple )V oronoi 地图 图10.8 熵(Entropy )V oronoi 地图

10.7为简化(Simple )Voronoi 地图,图10.8为熵( 图Entropy )Voronoi 地图,显然不同的多边形赋值方式,获取的V oronoi 地图提供信息也不同。简化(Simple )Voronoi 图可以了解到每个采样点控制的区域范围,也可以体现出每个采样点对区域内插的重要性。利用简化(Simple )V oronoi 地图中就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以将它剔除。用聚类和熵的方法生成的V onoroi 图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的一个指标。自然界中,距离相近的事物比距离远的事物具有更大的相似性,因此,局部离群值可以通过高熵值的区域识别出来。同样,一般认为某个特定单元的值至少应与它周围单元中的某一个的值相近。因此聚类方法也能将那些与周围单元不相同的单元识别出来。

10.3.2检验数据分布

在空间统计的分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值(如普通克里格法、简单克里格法和泛克里格法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此,在进行地统计分析前,检验数据分布特征,了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和正态QQPlot 分布图完成。如果数据服从正态分布,数据的直方图应该呈钟形曲线,在正态QQPlot 图中,数据的分布近似成为一条直线。

10.3.3寻找数据离群值

数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。

离群点的出现有可能就是真实异常值,也可能是由于不正确的测量或记录引起的。如果离群值是真实异常值,这个点可能就是研究和理解这个现象的最重要的点。反之,如果它是由于测量或数据输入的明显错误引起的,在生成表面之前,它们就需要改正或剔除。对于预测表面,离群值可能引起多方面的有害影响,包括影响半变异建模和邻域分析的取值。

离群值的寻找可以通过三种方式实现:

1. 利用直方图查找离群值

离群值在直方图上表现为孤立存在或被一群显著不同的值包围。但需注意的是,在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。

2. 用半变异/协方差函数云图识别离群值

如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。

3. 用Voronoi 图查找局部离群值

用聚类和熵的方法生成的V oronoi 图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常,距离近的事物比距离远的事物具有更大的相似性。因此,局部离群值可以通过高熵值的区域识别出来。同理,聚类方法也可将那些与它们周围单元不相同的单元识别出来。

图10.9 直方图查找离群值图

如图10.9,直方图最右边被选中的一个柱状条即是该数据的离群值。相应地,数据点层

面上对应的样点也被刷光。

10.3.4全局趋势分析

(a )

图10.10 趋势面分析透视面图 (b )

通常一个表面主要由两部分组成:确定的全局趋势和随机的短程变异。空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。它可分为趋势面和偏差两大部分,其中趋势面反映了空间数据总体的变化趋势,受全局性、大范围的因素影响。如果能够准确识别和量化全局趋势,在空间分析统计建模中就可以方便的剔除全局趋势,从而能更准确地模拟短程随机变异。

透视分析是探测全局趋势常用方法,准确的判定趋势特征关键在于选择合适的透视角度。同样的采样数据,透视角度不同,反映的趋势信息也不相同。图10.10(a )为显示某地区东西方向(X 轴)和南北方向(Y 轴)的高程趋势图。图10.10(b )逆时针旋转45度后,显示东南-西北方向和西南-东北方向的高程趋势图。趋势分析过程中,透视面的选择应尽可能使采样数据在透视面上的投影点分布比较集中,通过投影点拟合的趋势方程才具有代表性,才能有效反映采样数据集全局趋势。显然,图10.10(a )反映的趋势比图10.10(b )更为准确。

10.3.5空间自相关及方向变异

大部分的地理现象都具有空间相关特性,即距离越近的两事物越相似。这一特性也是空间地统计分析的基础。半变异/协方差函数云图就是这种相似性的定量化表示。空间自相关分析包括全程空间自相关分析和局部空间自相关分析,自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。 空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。

全程空间自相关用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的相似性。下面介绍两个常用的分析空间自相关的参数:Moran’sI 和GearyC 。

1. 空间权重矩阵

地理事物在空间上的此起彼伏和相互影响是通过它们之间的相互联系得以实现的,空间权重矩阵是传载这一作用过程的实现方法。因此,构建空间权重矩阵是研究空间自相关的基本前提之一。空间数据中隐含的拓扑信息提供了空间邻近的基本度量。通常定义一个二元对称空间权重矩阵W n ×n 来表达n 个空间对象的空间邻近关系,可根据邻接标准或距离标准来度量,还可以根据属性值x j 和二元空间权重矩阵来定义一个加权空间邻近度量方法。空间权重矩阵的表达形式为

⎡W 11W 12⎢W ⎢21W 22

⎢ ⎢⎣W n1W n2 W 1n ⎤ W 2n ⎥⎥ ⎥⎥ W nn ⎦ (10.1)

根据邻接标准,当空间对象i 和空间对象j 相邻时,空间权重矩阵的元素w ij 为1,其他情况为0,表达式如下:

1(i 与j 相邻)⎧W =⎨ij ⎩0(i =j 或i 与j 不相邻) (10.2)

根据距离标准,当空间对象i 和空间对象j 在给定距离d 之内时,空间权重矩阵的元素wij 为1,否则为0,表达式为

(对象i 与对象j 距离小于d 时)⎧1W =⎨ij ⎩0(其他) (10.3)

如果采用属性值x j 和二元空间权重矩阵来定义一个加权空间邻近度量方法,则对应的空间权重矩阵可以定义如下:

W ij =*W ij x j

j =1∑W ij x j n (10.4)

2. Moran’sI参数

Moran ’sI 是应用最广的一个参数。对于全程空间自相关,Moran ’sI 定义是: ∑∑w (x -x )(x ij i n

i n -j -x ) -

I =

Moran’sj ≠i S 2∑∑w i j ≠i n n ij

(10.5)

对于局部位置i 的空间自相关,Moran ’sI 定义是:

I i (d ) =Z i ∑w ij ' Z j

j ≠i n (10.6)

其中:n 是观察值的数目;x i 是在位置i 的观察值;Z i 是x i 的标准化变换,

-Z i =x i -x σ。-1n 1n 2x i =∑x i S i =∑(x i -x ) 2w n i n i ,。ij 是对称的空间权重矩阵,如果i 与j 相邻,取值为1,否则取值为0。

重矩阵。 w ij ' 按照行和归一化后的权重矩阵(每行的和为1),非对称的空间权

Moran ’sI 值介于-1到1之间,0为不相关。按照假定的空间数据分布可以计算Moran's I 的期望值和期望方差。

对于正态分布假设,

E (I )=-1

(n -1) (10.7)

n 2w 1-nw 2+3w 02Var (I ) =w 02(n 2-1) (10.8)

对于随机分布假设,

E (I )=-1

(n -1) (10.9)

n ((n 2-3n +3) w 1-nw 2+3w 02)-k 2((n 2-n ) w 1-2nw 2+6w 02Var (I )=w 02(n -1)(n -2)(n -3)

(10.10)

n 21n n 2w 0=∑∑w i j w 1=∑∑(w i j +w ji )w 2=∑(w i . +w . i )w 2i j i j i 其中,, ,i . 是第i n n

k 2=

行权重值之和,n ∑(x i -x ) 4i n w . i 是第i 列权重值之和。(∑(x i -x ) 2) 2

i n 。

原假设是没有空间自相关。根据下面标准化统计量参照正态分布表可以进行假设检验。

Z i =I -E (I )

Var (I ) (10.11)

Moran ’sI 如果是正的而且显著,表明具有正的空间相关性。即在一定范围内各位置的值是相似的,如果是负值而且显著的,则具有负的空间相关性,数据之间不相似。接近于0则表明数据的空间分布是随机的,没有空间相关性。

3. GerayC 参数

对于全局空间自相关:

(n -1) ∑∑w ij (x i -x j ) 2

C (d ) =i j n n

2nS 2∑∑w

i j n n ij

(10.12)

对于局部位置i 的空间自相关:

C i (d ) =∑w ij (x i -x j ) 2

j ≠i n (10.13)

其中,W ij 是空间权重矩阵。

C 的值总是正的。假设检验是如果没有空间自相关,C 的均值为1。显著性的低值(0和1之间)表明具有正的空间自相关,显著性的高值(大于1)表明具有负的空间自相关。

10.4分级统计分析

分级是对数据进行加工处理的一种重要方法,通过分级可以把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。

10.4.1 分级的概念与目的

数据分级根据一定的方法或标准把数据分成不同的级别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数据进行下一步的应用分析。

数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于用户读图;二是用不同的分级方法来突出显示制图区域内不同的地貌特征。

10.4.2 分级的原则

① 科学性原则:分级指标的确定要遵循一定的科学规律;

② 完整性原则:整个数据集中的所有数据都应被分到不同的级别中,没有遗漏,而且同一数据集中的每一数据只能被分到某一级别中,不能同时分到两个或多个级别中;

③ 适用性原则:对于一个数据集,应该根据研究或应用的需要选择合适的分级方法,使得分级结果能较好地满足目的;

④ 美观性原则:分级方法及分级数目的确定不但要依据研究目的,还要注重制图效果,制作专题地图不仅要体现数据的空间分布特征,还要使得图面色彩平衡,特征明显,易于理解。

10.4.3 分级统计的方法

分级方法多种多样,在应用时应根据研究的需要选择合适的方法来突出需要的数据信息。分级方法的种类也很多,本书主要介绍以下三种:

① 按使用分级方法的多少可分为单一分级法和复合分级法:

单一分级是指对于一个数据集只用了一种分级方法;复合分级是指由于数据自身的特点,需要对一部分数据使用某种分级方法,对另一部分数据使用另外一种分级方法,才能更好地满足研究的需要。如一组坡度数据,一部分较小(坡面平缓),而另一部分很大(地势陡峭),对这两部分数据,就应选用两种不同的分级方法,才能更好地突出变化特征。

② 按级差是否相等可分为等值分级法和不等值分级法:等值分级法又可以分为等面积分级、等间距分级、分位数分级等:不等值分级法可以分为自然裂点法、标准差分级、平均值嵌套分级等。

③ 按确定级差的方法可分为自定义分级法和模式分级法。本节就是按这种分类体系展开讨论的,其结构图如下:

图10.11 分级方法的类型

1. 自定义分级

自定义分级即对一个数据集,根据自己的应用目的设定各个级别的数值范围来实现分级的方法。这种方法适用于研究者对该数据集比较了解,能够找到合适的分级临界点。

在自定义分级中,临界点的选择非常重要,临界点选择得好,就能够增强同一级别区域间的同质性分级和各级之间的差异性,分级结果就能够很好地满足各种分析需求。如在对坡度进行分级的过程中,应根据应用目标的要求, 确定临界坡度。

2. 模式分级

模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。

① 等间距分级

等间距分级是一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据

最大值 最小值

分级数集里有最大值和最小值,那么间距D=。

图10.12 等间距分级示意图

图10.13 分位数分级示意图

等间距方法原理简单、易操作,但当数据集中在某一小范围内时,各分级之间数据个数的差别太大会造成图面配置不均衡,影响了制图效果。可见,当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析。图10.12为某一地区温度数据的等间距分级示意图。

② 分位数分级

分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位„„十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。图10.13为某地区温度数据的分位数分级示意图。

③ 等面积分级

对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。

等面积方法使得每一级在图上占据的面积相等(或大致相等)。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。

对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。

④ 标准差分级

标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值x 和标准差Std.Dev ,然后根据数据波动情况划分等级。以算术平均值作为中间级别的一个分界点,以一倍标准差参与分级时其余分界点为:x ±Std.Dev ,x ±2Std.Dev ,x ±3Std.Dev „„x ±iStd.Dev 。当然也可以采用1/2

倍标准差

参与分级,即x ±1/2Std.Dev,x ±2/2Std.Dev,x ±3/2Std.Dev„„x ±i/2Std.Dev的形式,也可以用1/3倍标准差或1/4倍标准差。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用1/4倍标准差时,分级数目最多。图10.14为某地区温度数据的标准差分级示意图。

⑤ 自然裂点法分级

任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。如果频率最低点与峰值构成一个近似正态分布曲线,可以把任意两个正态分布曲线交点作为分级界线。

图10.14 标准差分级示意图 图10.15 自然裂点法分级示意图

自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。图10.15为某地区温度数据的自然裂点法分级示意图。

⑥ 其他分级方法

a. 有规律的不等间距分级

这种方法与等间距分级法的区别在于它的间距是按一定规律变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。

b. 按嵌套平均值分级

该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为2个等级,即2的几何级数。n 是计算中的平均值的嵌套序数,用这种方法只能得到偶数个级别,而不可能得到奇数个级别。

c. 按面积正态分布分级

按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占的面积较大,n

往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。

总之,关于数据的统计分级的研究还很多,其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。

10.5 空间插值

空间数据插值是进行数据外推的基本方法。常用的插值方法有很多,分类并没有统一的标准,例如从数据分布规律来讲,有基于规则分布数据的内插方法、基于不规则分布的内插方法和适合于等高线数据的内插方法等;从内插函数与参考点的关系方面,又分为曲面通过所有采样点的纯二维插值方法和曲面不通过参考点的曲面拟合插值方法;从内插曲面的数学性质来讲,有多项式内插、样条内插、最小二乘配置内插等内插函数;从对地形曲面理解的角度,内插方法有克立金法、 多层曲面叠加法、加权平均法、分形内插等;从内插点的分布范围,内插方法分为整体内插、局部内插和逐点内插法。空间内插的根本是对空间曲面特征的认识和理解,具体到方法上,则是内插点邻域范围的确定、权值确定方法(自相关程度)、内插函数的选择等三方面的问题。

由于每一种内插方法都有其自身的特点和适用范围,了解方法的特点是本质所在。本书并不打算对各种内插算法从数学实现方法上进行分析讨论,而是从内插范围分类方法入手,对每一类内插方法的特点进行简要的分析归纳,同时为保证内容上的完整性和连续性,在本节只介绍概念上的东西,而具体的实现方法与相应内容请查阅相关文档。

10.5.1整体内插

整体内插,就是在整个区域用一个数学函数来表达地形曲面,如图10.16所示。整体内插函数通常是高次多项式,要求地形采样点的个数大于或等于多项式的系数数目。当地形采样点的个数与多项式的系数相等时,这时能得到一个唯一的解,多项式通过所有的地形采样点,属纯二维插值;而当采样点个数多于多项式系数时,没有唯一解,这时一般采用最小二乘法求解,即要求多项式曲面与地形采样点之间差值的平方和为最小,属曲面拟合插值或趋势面插值。从数学角度讲,任何复杂的曲面都可用多项式在任意精度上逼近,但由于以下原因,在空间内插中整体内插并不常用:

图10.16 整体内插

● 整体内插函数保凸性较差,高次多项式虽然能在任意精度上逼近地形曲面,并且能使数学曲面与实际地形曲面有更多的重合点,但由于多项式是自变量幂函数的和的形式,采样点的增减或移动都需要对多项式的系数作全面调整,从而采样点之间会出现难以控制的振荡现象,致使函数极不稳定,从而导致保凸性较差;

● 不容易得到稳定的数值解解,高次多项式的系数求解一般要解算较高阶的线性方程组,计算的舍入误差和数据采样误差(平面位置误差),都有可能引起多项式系数发生较大变化,使高次多项式不容易得到稳定的数值解。而且这种微小的数据扰动影响,在二元高次多项式中更为严重,因为在一元函数插值时,自变量误差仅在一个方向上(x 轴),而在二维平面上,采样点的偏移方向却是无限的。

● 多项式系数物理意义不明显,在低阶多项式中,各个系数的物理意义非常明确,例如线性多项是H =ax +by +c 中,a 、b 分别为两个坐标轴方向的斜率,而在高次多项式中,各个系数的物理意义一般不明确,容易导致无意义的地形起伏现象。

● 解算速度慢且对计算机容量要求较高。

a. 二次趋势拟合 b. 三次趋势拟合

图10.17 江苏某地区GDP 全局多项式趋势拟合

● 不能提供内插区域的局部地形特征;

整体内插虽然有如上的缺点,但其优点也是明显的,例如整个区域上函数的唯一性、能得到全局光滑连续的空间曲面、充分反映宏观地形特征等。整体内插函数常常用来揭示整个

区域内的地形宏观起伏态势。在空间内插中,一般是与局部内插方法配合使用,例如在使用局部内插方法前,利用整体内插去掉不符合总体趋势的宏观地物特征。图10.17(a )和图10.17(b )分别为江苏某地区GDP 二次拟合及三次拟合的全局多项式拟合图。显然,次数越低,拟合的表面越粗糙,实际表面拟合的效果越差,大致代表了此区域的宏观趋势;次数越高,拟合面越光滑,拟合的结果更接近实际的表面。但并不是次数越高越好,次数过高使得计算量大大增加而精度提高不大,一般选用到三次即可。

10.5.2局部分块内插

利用数学曲面来模拟实际地形表面,是地形表达的一个常用的手段。例如一阶线性平面可模拟具有单一坡度的斜坡地形表面,二次曲面方程可表达山头、洼地区域,而三次曲面则能描述较为复杂的地形曲面。然而低阶多项式虽然可表达各种地形曲面,但一个地区确常常包含各种复杂的地貌形态,简单的曲面并不能很好的表达这些地形曲面。理论上任何复杂的曲面都可用多项式进行逼近,但高阶多项式的上述缺点,也不是理想的地形描述工具。解决这类问题的办法就是采取分而治之的办法,即将复杂的地形地貌分解成一系列的局部单元,在这些局部单元内部地形曲面具有单一的结构,由于范围的缩小和曲面形态的简化,用简单曲面就可较好的描述地形曲面。

将地形区域按一定的方法进行分块,对每一块根据地形曲面特征单独进行曲面拟合和高程内插,称为空间分块内插(图10.18)。区域分块简化了地形的曲面形态,使得每一块都可用不同的曲面进行表达,但随之而来的是如何进行分块和如何保证各个分块之间的曲面的连续性。一般的可按地形结构线或规则区域进行分块,而分块大小取决于地形的复杂程度、地形采样点的密度和分布;为保证相邻分块之间的平滑连接,相邻分块之间要有一定宽度的重

图10.18 局部分块内插方法

叠,另外一种分块之间的平滑连接是对内插曲面补充一定的连续性条件。

不同的分块单元可用不同的内插函数,常用的内插数函数有线性内插、双线性内插、多项式内插、样条函数、多层曲面叠加法等。

线性内插和双线性内插

形如H =ax +by +c 的多项式称为线性平面,它将分块单元内部的地形曲面视为平面。

如果在线性多项式中增加了交叉项xy ,线性内插则变成双线性内插函数:H =ax +by +cxy +d ,之所以称为双线性内插,是因为当y 为常数时,表达的是x 方向的线性函数,而当x 为常数时,则为y 方向的线性函数。

线性内插函数中有三个未知数,需要三个采样点才能唯一确定,而双线性内插函数中有四个未知数,需要四个已知点。线性内插和双线性内插函数由于物理意义明确,计算简单,是基于TIN 和基于正方形格网分布采样数据的DEM 内插和分析应用的最常用的方法。

二元样条函数内插

所谓样条曲面,就是将一张具有弹性的薄板压定在各个采样点上,而其它的地方自由弯曲。从数学上讲,就是一个分段的低次多项式,多项式的次数一般不超过三阶。通过样条函数,可以获取在各个采样点上具有最小曲率的拟合曲面。

二元样条函数首先对采样区域进行分块,对每一块用一个多项式进行拟合,为保证各个分块之间的平滑过渡,按照弹性力学条件设立分块之间的连续性条件,即公共边界上的导数连续条件。虽然样条函数可适合的任意形状的分块单元,但一般还是将其应用在规则格网分布的采样数据中。

与整体内插函数相比较,样条函数不但保留了局部地形的细部特征,还能获取连续光滑的DEM 。同时样条函数在拟合时,由于多项式的阶数比较低,对数据误差的响应不敏感,具有较好的保凸性和逼真性,同时也有良好的平滑性。

图10.19为江苏某地区GDP 的张力样条函数插值结果,图10.19(A )取权重为0,图10.19(B )取权重为5,图10.19(C )为两次插值结果的差值的绝对值。可以看出,权重越高,表面越粗糙,权重不同,局部地区插值结果变化比较剧烈。

样条函数将地表分块视为弹性刚体,采取具有弹性力学条件的光滑连续条件。然后地形并不是一个狭义的刚体,也不具备满足弹性力学光滑性条件。因此虽然样条函数具有严密的理论基础,但未必是数字地形内插的理想数学模型。

A : Weight = 0 B : Weight = 5

C : Abs (A - B)

图10.19 张力样条函数插值结果

● Coons 曲面与

Geomap 曲面

Coons 曲面是基于任意四边形的曲面拟合方法。它把复杂的地形曲面用两组相交的曲线进行划分,构成一个曲线网络,其中的每一个网眼看作是由四条边界曲线围成的曲面片(曲边四边形),整个曲面则由各个曲面片拼接而成,曲面片的拼接可得到不同程度的连续性。地形曲面上的结构线如山脊线、山谷线为地形表面上的两类棱线,一般不呈横向坡角连续,因此Coons 曲面可用于由地性线围成的地貌形态单元。但要注意,Coons 曲面仅考虑的曲边四边形的边界曲线,而没有考虑曲面内部的信息,对于恰当描述地貌形态有一定缺陷。

Geomap 曲面是Bezier 曲面在不规则格网划分上的推广形式,它通过控制点的增加和只考虑每条边界与相邻曲面片之间的连续性条件,较为简单地解决了在不规则格网划分上的光滑曲面构造。本质上,Coons 和Geomap 属于同一类曲面拟合问题,因此Geomap 在地形曲面上应用具有与Coons 曲面类似的不足。

● 多层曲面叠加内插

多层曲面叠加法是美国依阿华州的Hardy 教授在1977年提出的,它认为任何一个规则或不规则的连续曲面都可看成由若干个简单的曲面来叠加逼近。具体实现是在每个数据点上建立一个曲面,然后在垂直方向上将各个曲面按一定比例进行叠加,形成一张整体连续的曲面,曲面严格通过每一个数据点。

多层曲面叠加法的核心是简单曲面的设计,也称为核函数。自该方法提出以来,已经发展了许多种核函数的设计方法,如锥面、双曲面、三次曲面、高斯曲面(以高斯曲线为母线的旋转曲面)、Authur 法、吕言法、Wild 法等。

多层曲面函数的优点是核函数设计的灵活性和可控性,用户可以根据自己的特定要求,在核函数中增加所需的各种信息,例如如果希望在内插过程中考虑地面坡度的信息,则可设计具有坡度特性的核函数。

大量的分析试验证明,多层曲面叠加法的插值质量比二元高次多项式、样条函数等要好

一些,Kraus 认为在DEM 内插中,当数据点密度比较小而数据点的精度又较高的情况下,宜优先采用多层曲面叠加法。

虽然多层曲面叠加法的核函数选择比较灵活,但地形比较复杂,难以通过一个确定的函数严格表示地形的各种变化,同时多层曲面叠加函数的处理过程比较繁琐,计算量大,因此在DEM 建立中并不常用。

● 最小二乘配置

最小二乘配置是一种基于统计的内插和测量数据处理方法,它认为一个测量数据一般由三部分构成,即趋势、信号和误差。趋势反映数据的整体变化走势,信号是局部数据之间的联系,误差则为不确定性因素的影响。最小二乘配置包括最小二乘内插、最小二乘滤波和最小二乘推估。

一般对分块的表面通过多项式来确定整体的变化趋势,去掉趋势后的表面数据仅包含信号和随机误差,信号反映局部数据点之间的相关性,即自相关性,一般用数据点之间的协方差函数表达。最后通过误差平方和为最小的原则求解各个参数。

最小二乘配置的核心问题是如何建立数据之间的协方差矩阵,换句话说,就是如何解决信号的相关性规律问题。在连续表面内插中,最小二乘配置认为,数据点之间的相关规律仅与距离有关,也就是说,距离越近,协方差越大,超过一定的距离,协方差趋于零。高斯函数正好满足这一特性,因此习惯上用高斯函数作为采样点之间相关程度度量的指标。

最小二乘配置理论基础严密,但大量的实验结果表明,它未必能在DEM 内插中取得良好的效果,主要原因在于:一是最小二乘的前提是处理对象必须属于遍历性平稳随机过程,但实际地形表面变化复杂,不一定满足这一条件,而且地形之间的自相关性不仅与距离有关,也与方向有关,即地形具有各向异性。前提条件不保证,则难得到较好的拟合效果;二是最小二乘方法的解算是一个循环迭代过程,计算量比较大。

● 克立金法

克立金法(Kriging )是法国地理数学家Gerges Matheron和南非矿业工程师D. G. Krige创立的地质统计学中矿品位的最佳内插方法,近年来已广泛用于GIS 中的空间内插。克立金法与最小二乘配置比较类似,也是将变量的空间变化分为趋势、信号与误差三个部分,求解过程也比较相似。不同之处在于所采用的相关性计算方法上,最小二乘采用协方差矩阵,而克立金法采用半方差,或者称为半变异函数。克立金法的内蕴假设条件是区域变量的可变性和稳定性,也就说,一旦趋势确定后,变量在一定范围内的随机变化是同性变化,位置之间的差异仅仅是位置间距离的函数。通过不同数据点之间半方差的计算,可作出半方差随距离的变化的半方差图,从而用来估计未采样点和采样点之间的相关系数,进而取出内差点的高程。

● 有限元内插

有限元法是以离散方式处理连续变化量的数学方法,其基本思路是将地形曲面分割成有限个单元的集合,单元形状可为三角形、正方形等。相邻单元边界的端点称为结点,通过解求各个结点处的物理量来描述对象的整体分布。有限元通常采用分片光滑的奇次样条函数作为单元的内插函数(也称为基函数)。

有限元的解是一系列基函数的线性组合。为了求取线性组合的全部未知数,一般要列出与所求问题等价的二次泛函数取极小值的条件。有限元法的计算量与前述方法不同的地方在于有限元取决于分块范围内单元结点的个数(格网点数),而不是采样点数据量的多少。另外有限元与样条函数类似,也将地表视为弹性刚体,从若干的实验分析结果来看,也非空间曲面理想的内插方法。

图10.20 空间逐点内插法

10.5.3逐点内插

所谓逐点内插,就是以内插点为中心,确定一个邻域范围,用落在邻域范围内的采样点计算内插点的高程值,如图10.20所示。逐点内插本质上是局部内插,但与局部分块内插有所不同,局部内插中的分块范围一经确定,在整个内插过程中其大小、形状和位置是不变的,凡是落在该块中的内插点,都用该块中的内插函数进行计算,而逐点内插法的邻域范围大小、形状、位置乃至采样点个数随内插点的位置而变动,一套数据只用来进行一个内插点的计算。 逐点内插法的基本步骤为:

● 定义内插点的邻域范围;

● 确定落在邻域内的采样点;

● 选定内插数学模型;

● 通过邻域内的采样点和内插计算模型计算内插点的高程。

为实现上述步骤,逐点内插法需要解决好以下几个问题:

● 内插函数,逐点内插法的内插函数决定着空间表面精度、连续性、内插点邻域的最小采样点个数和内插计算效率。内插函数常常与采样点的分布有关,目前常用内插函数有:适合于呈离散分布采样点的拟合曲面、反距离权内插法;适合于TIN 的线性内插法;以及适合于规则格网分布的双线性内插等。另外局部内插的各种数学模型也可应用到逐点内插法中。

● 邻域大小和形状,在逐点内插中,邻域的作用是选择参加内插的采样点。逐点内插法的邻域相当于局部内插的分块,但形状和位置随内插点的位置在变动。常用的邻域有圆形、方形等。

● 邻域内数据点的个数,邻域内数据点全部参加内插计算,用来进行内插计算的采样点不能太多也不能太少,太多影响计算精度(对内插计算的贡献程度太小)和处理效率,太少则不能满足内插函数的要求,邻域点的确定一般与具体的内插函数有关,通常认为4-10个点是比较合适的。邻域内数据点的个数常常决定着邻域范围的大小。邻域点内的点数也

与采样点的分布密度有关,如果采样点分布比较均匀,邻域点选择不必考虑方向性,而当数据点分布不均匀时,邻域点确定要考虑方向性。

● 采样点的权重,采样点的权重是指采样点对内插点的贡献程度,现今最常用的定权方法是按距离进行定权,即反距离权。

● 采样点的分布,由第三章知道,采样点分布有呈离散、规则和等高线分布几种,理论上内插函数对采样点的分布没有任何要求,例如双线性内插也可适合不规则分布的采样点(任意四边形),但以规则分布的点计算最为简单。

A : Power = 2 B : Power = 5

C : Abs (A - B)

图10.21 江苏某地区GDP 的IDW 插值结果

● 附加信息的考虑,如在地形表面内插过程中需考虑地形结构线、地物信息等各种附加信息,以保证地形表面模拟的真实性。

图10.21为江苏某地区GDP 的IDW 插值结果,图10.21(A )取距离的幂次数为2,图10.21(B )取距离的幂次数为2,图10.21(C )为两次插值结果的差值的绝对值。显然,即便同样的采样数据,插值函数参数的不同,插值结果会发生很大的变化。

各种内插方法在不同的地貌地区和不同采点方式下有不同的误差。具体选择时要考虑本章每种方法的适用前提及优缺点,同时考虑应用的特点,从内插精度、速度、计算量等方面选取合理的方法。一般说来,大范围内的地形比较复杂,用整体内插法若选取参考点个数较少时,不足以描述整个地形,而若选用较多的采样点则内插函数易出现振荡现象,很难获得稳定解。因此在空间曲面内插中通常不采用整体内插法。相对于整体内插,分块内插能够较好地保留地物细节,并通过块间一定重叠范围保持内插曲面的连续性。分块内插方法的一个主要问题是分块大小的确定。就目前技术而言,还没有一种运用智能法或自适应法进行地貌形态识别后自动确定分块大小,进行高程内插的算法。分块内插的另一个问题是要解求复杂的方程组,应用起来较为不便。逐点内插方法计算简单,应用比较灵活,是较为常用的一类空间内插方法。逐点内插方法的主要问题是内插点邻域的确定,它不仅影响到空间内插精度,也影响到内插速度。

10.6空间回归分析

一切客观事物都是相互联系和具有内部规律的,这些关系表现在量上,主要有两种类型:一是变量之间存在着完全确定性的关系,最简单和最常见的是微积分中遇到过的函数关系;另一类是统计关系,或称相关关系。回归分析是研究两个或两个以上的变量之间关系的一种统计方法,在进行分析、建模时,常选用其中一个为因变量,其余的作为解释变量,然后根据样本资料,研究解释变量与因变量之间的关系。空间回归在经典的统计回归分析中考虑了空间的自相关性,这种模型在上世纪七十年代后期开始出现并逐步成熟。由于在经典的回归中加入了空间关系,通过空间关系把属性数据与空间位置关系结合起来,空间回归可以更好的解释地理事物的空间关系。

10.6.1经典统计回归模型

如果认为因变量Y 与解释变量x 1,x 2,„,x p 之间具有线性相关关系,那么,它们的关系可以表示为线性回归预测模型。

ˆ=b 0+b 1x 1+b 2x 2+⋯⋯b p x p +εi y (10.14)

其中,b 0为常量,表示不能用其它自变量表示的部分,b 1,b 2,„,b p 为各解释变量的系数,其标准化值表示对因变量的影响大小,εi 为误差项,要求符合正态分布。

上面的模型简化表示为:

y =X β+ε, ε~N (0,σ2) (10.15)

y 是从n 个位置得到的一个因变量,为(n ⨯1) 的向量矩阵,X 是一个(n ⨯K ) 的解释变量矩阵,β是一个K ⨯1的模型参数向量矩阵,ε是一个(n ⨯1) 的干扰矩阵,K 为解释变量的个数。

10.6.2空间加权回归模型

经典统计回归有很强的假定条件,例如假定误差项独立且同方差。空间加权回归(GWR)模型减少了统计回归方程中同方差的假设,即误差项可以有不同的方差。空间加权回归模型的表达式:

y(g) = β0(g) + β1(g)x1 + β2(g)x2 +…+ ε (10.16)

其中,(g)指获取估计参数的空间坐标向量g 。

使用普通最小二乘法(OLS ),对于经典的线性回归而言,β参数使用下式估计:

β = (XT X) -1X T Y (10.17)

类似的,对于GWR 模型,可以使用空间权重的来计算β(g):

β(g) = (XT W(g)X)-1X T W(g)Y (10.18)

W(g)是位置g 的权重矩阵,与g 越近,权重值越高。计算权重的方法有很多,GWR 模型一般用高斯函数:

w i (g) = exp(-d/h)2 (10.19)

其中,d 是观测位置i 与位置g 之间的欧氏距离,h 是间隔距离。

10.6.3空间联立自回归模型

联立自回归(SAR )是最基本的空间回归模型。1995年后,Anselin 给出了实用的程序包“SpaceStat ”以辅助进行这一计算。考虑到空间相关性,可以提出两种假设:

① y 是空间自相关的,模型形式变化为空间滞后模型:

y =ρWy +X β+ε (10.20)

② 误差是空间自相关的,模型的形式变化为空间误差模型:

y =X β+u , u =λWu +ε (10.21)

这里,λ为空间误差参数,u 是一个空间自相关干扰向量矩阵,W 是空间权重矩阵。ρ是空间相关参数,表示空间自相关性对模型的影响程度。λ和ρ的值越高,表明空间自相关对模型的影响越大。对于空间数据,如果使用经典的线性回归模型,那么它等价于假设空间自回归模型中的参数ρ=λ=0,即假设没有空间自相关性。

如果滞后和误差的权重矩阵不同,也可以将空间滞后模型和空间误差模型结合起来使用。对于试验性分析来说,可以使用相同的权重矩阵。Ord (1975)给出了用于估计空间滞后和空间误差模型的最大似然方法,这是目前比较令人满意的方法。对于样点数目较大的权重矩阵,一种可行的解决方法是使用稀疏矩阵,既可以节省内存,又可以在合理的时间内进行实用的计算。

专业术语

空间统计分析

间内插 回归分析 直方图 协方差函数 半变异函数 Voronoi 图 空间自相关 空

第10章 空间统计分析

统计分析是空间分析的主要手段,贯穿于空间分析的各个主要环节。空间统计分析方法不仅仅限于常规统计方法,还包括利用空间位置的空间自相关分析。本章主要介绍常用统计量、数据特征分析(即探索性数据分析)、分级统计分析、空间插值和空间回归分析五方面内容。

10.1概述

10.1.1基本概念

空间统计分析可包括“空间数据的统计分析”及“数据的空间统计分析”,前者着重于空间物体和现象的非空间特性的统计分析,解决的一个中心议题就是如何以数学统计模型来描述和模拟空间现象和过程,即将地理模型转换成数学统计模型,以便于定量描述和计算机处理,着重于常规的统计分析方法,尤其是多元统计分析方法对空间数据的处理,而空间数据所描述的事物的空间位置在这些分析中不起制约作用。如趋势面拟合被广泛应用于地理数据的趋势分析中,但在这种分析中,仅考虑了样本值的大小,而并不考虑这些样本在地理空间的分布特征及其相互间的位置关系。从这个意义上讲,空间数据的统计分析在很多方面,与一般的数据分析并无本质差别,但是对空间数据的统计分析结果的解释则必然要依托于地理空间进行,在很多情况下,分析的结果以地图方式来描述和表达的。因此,空间数据的统计分析尽管在分析过程中没有考虑数据抽样点的空间位置,但描述的仍然是空间过程,揭示的也是空间规律和空间机制。

数据的空间统计分析则是直接从空间物体的空间位置、联系等方面出发,研究既具有随机性又具有结构性,或具有空间相关性和依赖性的自然现象。凡是与空间数据的结构性和随机性,或空间相关性和依赖性,或空间格局与变异有关的研究,并对这些数据进行最优无偏内插估计,或模拟这些数据的离散性、波动性,都是数据的空间统计分析的研究内容。数据的空间统计分析不是抛弃了传统的统计学的理论和方法,它是在传统的统计学基础上发展起来的。数据的空间统计学与经典统计学的共同之处在于:它们都是在大量采样的基础上,通过对样本属性值的频率分布、均值、方差等关系及其相应规则的分析,确定其空间分布格局与相关关系。数据的空间统计学区别于经典统计学的最大特点是:数据的空间统计学既考虑到样本值的大小,又重视样本空间位置及样本间的距离。空间数据具有空间依赖性(空间自相关) 和空间非均质性(空间结构),扭曲了经典统计方法的假设条件,使得经典统计模型对空间数据的分析会产生虚假的解释。经典统计学模型是在观测结果相互独立的假设基础上建立的,但实际上地理现象之间大都不具有独立性。数据的空间统计学研究的基础是空间对象间的相关性和非独立的观测,它们与距离有关,并随着距离的增加而变化。这些问题为经典的统计学所忽视,但却成为数据的空间统计学的核心。

10.1.2主要分析内容

空间统计分析与经典统计学的内容往往是交叉的。空间统计分析使用统计方法解释空间数据,分析数据在统计上是否是“典型”的,或“期望”的。同时,它又具有自己独有的空

间自相关分析。主要分析内容包含以下几点:

1. 基本统计量

统计量是数据特征的反映,也是统计分析的基础。 2. 探索性数据分析

探索性数据分析能让用户更深入了解数据,认识研究对象,从而对与其数据相关的问题做出更好的决策。探索性数据分析主要包括确定统计数据属性、探测数据分布、全局和局部异常值(过大值或过小值)、寻求全局的变化趋势、研究空间自相关和理解多种数据集之间相关性。

3. 分级统计分析

分级统计是对数据的进一步处理分析,以便于更好得揭示数据规律或在制图中获得更好的效果。 4. 空间插值

基于探索性数据分析结果,选择合适的数据内插模型,由已知样点来创建表面,研究空间分布。

5. 空间回归

研究两个或两个以上的变量之间统计关系,通过空间关系,包括考虑空间的自相关性,把属性数据与空间位置关系结合起来,更好的解释地理事物的空间关系。

6. 空间分类 基于地图表达,采用与变量聚类分析相类似的方法来产生新的综合性或者简洁性专题地图。包括多变量统计分析,如主成分分析、层次分析,以及空间分类统计分析,如系统聚类分析、判别分析等。

10.2 基本统计量

常用的基本统计量主要包括:最大值、最小值、极差、均值、中值、总和、众数、种类、离差、方差、标准差、变差系数、峰度和偏度等。这些统计量反映了数据集的范围、集中情况、离散程度、空间分布等特征,对进一步的数据分析起着铺垫作用(见图10.1)。

图10.1 基本统计量

10.2.1 代表数据集中趋势的统计量

代表数据集中趋势的统计量包括平均数、中位数、众数,它们都可以用来表示数据的分布位置和一般水平。

表10.1中,列出了各统计量的含义以及在实际应用的作用。其中,第i 个变量,i=1,2,„„,n 。

x i 表示数据集中的

表10.1 代表集中趋势的统计量的含义、特点及作用

统计量

简 单

n 个数据的总和与数据的总个数n 的比值

算 术 平 均 数

可作为评价事物的客观标准。如一个地区某一年的

在求算术平均数时,考虑到数据集中的n 个

值有时会含有不同的比重,对平均数的影响

也就不同。所以用加权平均法来计算其算术

均 数

算 术 平 均 数 权

权重

平均数。

能代表该地区经济状况的平均水平,可以用来做比用该地区近几年的人均收入来比较,因为人均收入标;要比较该地区近几年的经济增长水平,也需要人均收入可以作为衡量该地区当年经济状况的指

平均数是最常用的表示数据集中趋势的指标,平均数可分为三种:算术平均数、几何平均数、调和平均数。其中,前两者在GIS 分析中最常用到。

算术平均数代表了数据集的平均水平,不受总体范围的影响,因此可以作为比较分析的指标,还

n

含义 特点及作用

∑x i

i =1

x =n

f i 为x i 出现的频数,加权平均数

较分析。

另外求取离差、平均离差、离差平方和、方差、

可以按下式计算:

f x +f 2x 2+...... +f n x n

=11

f i =

1n

∑f i x i n i =1

标准差、变差系数、偏度系数和峰度系数等时,要先求得算术平均数;算术平均数也可用于图像处理中的平滑运算。

加权平均数与算术平均数的应用是大致相同的,但加权平均数要考虑各数据点的贡献作用。

其中,

n =f 1+f 2+...... +f n =∑f i

几 何 平 均 数

若将数据值按大小顺序排列,位于中间的那个值就是中位数或称中值。

当数据集中有奇数个数据时,数据按大

中 位 数

中位数不受极端数值的影响,如果数据集的分布形状是左右对称的,则中位数等于平均数;当数

n 个数据的连乘积再开n 次方所得的方根数

几何平均数用于分析和研究平均改变率、平均

x g =x 1⋅x 2⋅... ⋅x i ⋅... x n

增长率、平均定比等,还在偏相关系数里有应用。

据集的分布形状呈左偏或右偏,以中位数表示它们n +1

小顺序排列,那么第2位数就是中位数;的集中趋势比算术平均数更合理。

n

当有偶数个数据时,中位数为第2项与第n (+1) 2项的平均数。

众数是数据集中最常出现的,因此一定是数据集中的某个值,代表了多少意见,不受极端值的影响,在频数分布曲线上位居最高点,即曲线的峰值。

众数常用于投票选举。若数据集的分布并不是明显集中在某个数值上,用众数来代表集中情形就

众 数

众数是数据集中出现频数(次数)最多

没有多大意义,甚至会有误导作用。

的某个(或某几个)数。

10.2.2 代表数据离散程度的统计量

平均数、中位数、众数在反映总体一般数量水平的同时,也掩盖了总体中各单位的数量

差异。所以,只有这些统计量还不能充分说明一个数列中数值的分布情况和波动状态。有时虽然两个数据集的平均数相等,但各数据分布在平均数左右的疏密程度却不相同,也就是它们的离散程度不一样,为了把一个数据集的离散程度表现出来,就需要研究离散度。

代表数据离散程度的统计量包括最大值、最小值、分位数、极差、离差、平均离差、离差平方和、方差、标准差、变差系数等。离散程度越大,数据波动性越大,以小样本数据代表数据总体的可靠性越低;离散程度越小,则数据波动性小,以小样本数据代表数据总体的可靠性越高。表10.2列出了表示离散程度各个统计量的含义及在实际应用的作用。

表10.2 代表离散程度的统计量及其特点、作用

统计量 最大值与最小

极差 分 位 数

离差

平均离差

离差平方和

方差

标准差

含义

把数据从小到大排列,最前端的值

就是最小值,最后一个就是最大值一个数据集的最大值与最小值的

差值称为极差,它表示这个数据集的取值范围

将数列按大小排列,把数列划分为相等个数的分段,处于分段点上的值就是分位数。

离差表示各数值与其平均值的离

散程度,其值等于某个数值与该数

据集的平均值之差

d i = xi -

x

平均离差是把离差取决对值,然后

求和,再除以变量个数

∑x

i

-x

i

n

离差平方和是把离差求平方,然后

求和

∑(x

i

-x )

2

i

方差是均方差的简称。它是以离差平方和除以变量个数而得到的

2

=

(x

i

-x )

2

σ

n

对方差进行开方,即为标准差

=

(x

i

-x )

2

σ

n

特点及作用

通过最大、最小值和极差,可以了解数据的取值范围、分散程度,

易于计算,容易理解,但他们都易受极端数值的影响,漠视了其他值的

存在,无法精确地反映所有数据的分散情形,因此可能会有误导作用。

在地形分析中,极差主要用于求取一定区域内的高差。对于两个不同地区,虽然它们的平均高程相同,但最高点、最低点及高差不同,说明了这两个地区的高程分布状况有差异。

分位数剔除了数据集中极端值的影响,但计算麻烦,且没有用到数据集中的所有数据点。分位数在数据分级中应用较多。

两个数据集的均值相同,但其离差可以有很大的差别,这说明这两

个数据集与各自平均值的离散程度不同。

(x

平均离差和离差平方和可以克服

∑i

-)

i

恒等于零的缺点,还

可以把负数消除,只剩正值,这样更易于描述离散程度,而且离差平方

和得到的结果较大,使离散程度更明显。

离差平方和用于相关分析中求取相关系数

在回归分析中,对回归方程进行显著性检验时,需要对原始数据进行离差平方和的分解,即把离差平方和分解为剩余平方和与回归平方和两部分,这两部分的比值可以反映回归方程的显著性。

在趋势面分析中,对于趋势面的拟合程度可以用离差平方和来检

验,其方法也是将原始数据的离差平方和分解为剩余平方和与回归平方

和两部分,回归平方和的值越大,表明拟合程度越高。

它们是表示一组数据对于平均值的离散程度的很重要的指标,为了

应用上的方便,常对方差进行开方,即为标准差。

方差和标准差都可应用于相关分析、回归分析、正态分布检验等,

还可用于误差分析、评价数据精度、求取变差系数、偏度系数和峰度系数等。

标准差还可用于数据分级。

变差系数也称为离差系数或变异系数,是标准差与均值的比

值,以

C v 表示

变差系数是用相对数的形式来刻画数据离散程度的指标,它可以用来衡量数据在时间与空间上的相对变化(波动)的程度。

变差系数可用来求算地形高程变异系数。

变差系数

S C v =

x ×100%

式中

C v 为变差系数,

其值为百分

率;S 是标准差;

x 为平均值。

10.2.3 代表数据分布形态的统计量

分布形态可以从两个角度考虑,一是数据分布对称程度,另一个是数据分布集中程度。前者的测定参数称为偏度或偏斜度,后者的测定参数称为峰度。偏度和峰度是衡量数据分布特征的重要指标。

表10.3 代表分布形态的统计量及其作用

统计量

含义

偏度是刻画数据在均值两侧的对称程度的参数,用偏度系数来衡量。 标准偏度系数(g 1):

作用

偏度可以表示数据分布的不对称性,刻画出是向正的方向偏还是向负的方向偏(小

g 1=

x -x 1

(i ) ∑6n S

3

x 或大于x )

峰度可以表示数据频数分布曲线峰形

的相对高耸程度或尖平程度。

这两个指标主要用于分析数据的频率

当g 10时,数据的分布情况如下图:

偏度

统计图以及评价正态分布性,当g 1=0且

g 2=0时,数据是标准正态分布。

x x x

f(x)是数据分布的密度函数,

x 是数据的平均值

峰度是刻画数据在均值两侧的集中程度的参数,用峰度系数来衡量。

标准峰度系数 g 2按下式计算:

g 2=

峰度

x -x n 1

(∑(i ) -3) 24n i S

4

f(x)是数据分布的密度函数,

x 是数据的平均值,S 是标准差

10.2.4 其它统计量

表10.4 其他统计量

统计量

含义

作用

总和一般用于求取总值及各种比值。通过求取一定流域内的沟壑总

总和

数据集中所有数据相加得到的值

长度与总面积,可以获得该流域的沟壑密度。

比率 两类物体或现象的数值之比

地表粗糙度即是以比率来表达的,它是地表单元的曲面面积与其在水平面上的投影面积之比。

比例 某类物体或现象的数值与其总数之比

高程变异系数以某区域高程标准差和平均值的比值来表示。

例如在不同高程区域内植物、动物或其它研究对象的种类的统计。

种类

一定区域内,出现多少种不同的值。

反映区域生物的多样性。

10.3探索性数据分析

数据分析包括探索阶段和证实阶段。探索性数据分析首先分离出数据的模式和特点,再

根据数据特点选择合适的模型。探索性数据分析还可以用来揭示数据对于常见模型的意想不到的偏离。探索性方法既要灵活适应数据的结构,也要对后续分析步骤揭露的模式灵活反应。

10.3.1基本分析工具

图10.2 直方图示意图

1. 直方图

直方图指对采样数据按一定的分级方案(等间隔分级、标准差分等)进行分级,统计采样点落入各个级别中的个数或占总采样数的百分比,并通过条带图或柱状图表现出来。直方图可以直观的反映采样数据分布特征、总体规律,可以用来检验数据分布和寻找数据离群值。如图10.2为直方图示意图。 2. QQplot 图

(1) 正态QQPlot 分布图

正态QQPlot (Normal QQPlot)分布图主要用来评估具有n 个值的单变量样本数据是否服从正态分布。构建正态QQPlot 分布图的通用过程为(图10.3):

①首先对采样值进行排序;

②计算出每个排序后的数据的累积值(低于该值的数据的百分比); ③绘制累积值分布图;

④在累积值之间使用线性内插技术,构建一个与其具有相同累积分布的理论正态分布图,求出对应的正态分布值; ⑤以横轴为理论正态分布值,竖轴为采样点值,绘制样本数据相对于其标准正态分布值的散点图。

图10.3 正态QQPlot 示意图

如果采样数据服从正态分布,其正态QQPlot 分布图中采样点分布应该是一条直线。如

果有个别采样点偏离直线太多,那么这些采样点可能是一些异常点,应对其进行检验。此外,如果在正态QQ 图中数据没有显示出正态分布,那么就有必要在应用某种克里格插值法之前将数据进行转换,使之服从正态分布。

(2) 普通QQPlot 分布图 普通QQPlot (General QQPlot)分布图用来评估两个数据集的分布的相似性。普通QQPlot 分布图通过两个数据集中具有相同累积分布值作图来生成,如图10.4所示。累积分布值的作法参阅正态QQPlot 分布图内容。

图10.4 普通QQPlot 示意图

普通QQPlot 图揭示了两个物体(变量)之间的相关关系,如果在QQPlot 图中曲线呈直

线,说明两物体呈一种线性关系,可以用一元一次方程式来拟合。如果QQPlot 图中曲线呈抛物线,说明两物体的关系可以用个二次多项式来拟合。

3. 方差变异分析工具

半变异函数和协方差函数把统计相关系数的大小作为一个距离的函数,是地理学相近相

似定理的定量化。图10.5和图10.6为一典型的半变异函数图和其对应的协方差函数图。

图10.5和图10.6显示,半变异值的变化随着距离的加大而增加,协方差随着距离的加大而减小。这主要是由于半变异函数和协方差函数都是事物空间相关系数的表现,当两事物彼此距离较小时,它们是相似的,因此协方差值较大,而半变异值较小;反之,协方差值较小,而半变异值较大。

半变异函数曲线图和协方差函数曲线反映了一个采样点与其相邻采样点的空间关系。它们对异常采样点具有很好的探测作用,在空间分析的地统计分析中可以使用两者中的任意一个,一般采用半变异函数。在半变异曲线图中有两个非常重要的点:间隔为0时的点和半变异函数趋近平稳时的拐点,由这两个点产生四个相应的参数:块金值(Nugget )、变程(Range )、基台值(Sill )和偏基台值(Partial Sill)。

块金值(Nugget ):理论上,当采样点间的距离为0时,半变异函数值应为0;但由于存在测量误差和空间变异,使得两采样点非常接近时,它们的半变异函数值不为0,即存在块金值。测量误差是仪器内在误差引起的,空间变异是自然现象在一定空间范围内的变化。它们任意一方或两者共同作用产生了块金值。

基台值(Sill ):当采样点间的距离h 增大时,半变异函数r(h)从初始的块金值达到一个相对稳定的常数时,该常数值称为基台值。当半变异函数值超过基台值时,即函数值不随采样点间隔距离而改变时,空间相关性不存在。

偏基台值(Partial Sill):基台值与块金值的差值。 变程(Range ):当半变异函数的取值由初始的块金值达到基台值时,采样点的间隔距离称为变程。变程表示了在某种观测尺度下,空间相关性的作用范围,其大小受观测尺度的限定。在变程范围内,样点间的距离越小,其相似性,即空间相关性越大。当h>R时,区域化变量Z(x)的空间相关性不存在,即当某点与已知点的距离大于变程时,该点数据不能用于内插或外推。 4. V oronoi 图

V oronoi 地图是由在样点周围形成的一系列多边形组成的。某一样点的V oronoi 多边形的生成方法是:多边形内任何位置距这一样点的距离都比该多边形到其它样点的距离要近。V oronoi 多边形生成之后,相邻的点就被定义为具有相同连接边的样点。

V oronoi 图中多边形值可以采用多种分配和计算方法: ● 简化(Simple ):分配到某个多边形单元的值是该多边形单元的值; ● 平均(Mean ):分配到某个多边形单元的值是这个单元与其相邻单元的平均值; ● 模式(Mode ):所有的多边形单元被分为五级区间,分配到某个多边形单元的值是

这个单元与其相邻单元的模式(即出现频率最多的区间);

● 聚类(Cluster ):所有的多边形单元被分配到这五级区间中,如果某个多边形单元

的级区间与它的相邻单元的级区间都有不同,这个单元用灰色表示,以区别于其它单元;

● 熵(Entropy ):所有单元都根据数据值的自然分组分配到这五级中。分配到某个多

边形单元的值是根据该单元和其相邻单元计算出来的熵;

● 中值(Median ):分配给某多边形的值是根据该单元和其相邻单元的频率分布计算

的中值;

● 标准差(StDev ):分配给某多边形的值是根据该单元和其相邻单元计算出的标准

差;

● 四分位数间间隔(IQR ):第一和第三四分位数是根据某单元和其相邻单元的频率

分布得出的。分配给某多边形单元的值是用第三四分位数减去第一四分位数得到的差。

图10.7 简化(Simple )V oronoi 地图 图10.8 熵(Entropy )V oronoi 地图

10.7为简化(Simple )Voronoi 地图,图10.8为熵( 图Entropy )Voronoi 地图,显然不同的多边形赋值方式,获取的V oronoi 地图提供信息也不同。简化(Simple )Voronoi 图可以了解到每个采样点控制的区域范围,也可以体现出每个采样点对区域内插的重要性。利用简化(Simple )V oronoi 地图中就可以找出一些对区域内插作用不大且可能影响内插精度的采样点值,可以将它剔除。用聚类和熵的方法生成的V onoroi 图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的一个指标。自然界中,距离相近的事物比距离远的事物具有更大的相似性,因此,局部离群值可以通过高熵值的区域识别出来。同样,一般认为某个特定单元的值至少应与它周围单元中的某一个的值相近。因此聚类方法也能将那些与周围单元不相同的单元识别出来。

10.3.2检验数据分布

在空间统计的分析中,许多统计分析模型,如地统计分析,都是建立在平稳假设的基础上,这种假设在一定程度上要求所有数据值具有相同的变异性。另外,一些克里格插值(如普通克里格法、简单克里格法和泛克里格法等)都假设数据服从正态分布。如果数据不服从正态分布,需要进行一定的数据变换,从而使其服从正态分布。因此,在进行地统计分析前,检验数据分布特征,了解和认识数据具有非常重要的意义。数据的检验可以通过直方图和正态QQPlot 分布图完成。如果数据服从正态分布,数据的直方图应该呈钟形曲线,在正态QQPlot 图中,数据的分布近似成为一条直线。

10.3.3寻找数据离群值

数据离群值分为全局离群值和局部离群值两大类。全局离群值是指对于数据集中所有点来讲,具有很高或很低的值的观测样点。局部离群值值对于整个数据集来讲,观测样点的值处于正常范围,但与其相邻测量点比较,它又偏高或偏低。

离群点的出现有可能就是真实异常值,也可能是由于不正确的测量或记录引起的。如果离群值是真实异常值,这个点可能就是研究和理解这个现象的最重要的点。反之,如果它是由于测量或数据输入的明显错误引起的,在生成表面之前,它们就需要改正或剔除。对于预测表面,离群值可能引起多方面的有害影响,包括影响半变异建模和邻域分析的取值。

离群值的寻找可以通过三种方式实现:

1. 利用直方图查找离群值

离群值在直方图上表现为孤立存在或被一群显著不同的值包围。但需注意的是,在直方图中孤立存在或被一群显著不同的值包围的样点不一定是离群值。

2. 用半变异/协方差函数云图识别离群值

如果数据集中有一个异常高值的离群值,则与这个离群值形成的样点对,无论距离远近,在半变异/协方差函数云图中都具有很高的值。

3. 用Voronoi 图查找局部离群值

用聚类和熵的方法生成的V oronoi 图可用来帮助识别可能的离群值。熵值是量度相邻单元相异性的指标。通常,距离近的事物比距离远的事物具有更大的相似性。因此,局部离群值可以通过高熵值的区域识别出来。同理,聚类方法也可将那些与它们周围单元不相同的单元识别出来。

图10.9 直方图查找离群值图

如图10.9,直方图最右边被选中的一个柱状条即是该数据的离群值。相应地,数据点层

面上对应的样点也被刷光。

10.3.4全局趋势分析

(a )

图10.10 趋势面分析透视面图 (b )

通常一个表面主要由两部分组成:确定的全局趋势和随机的短程变异。空间趋势反映了空间物体在空间区域上变化的主体特征,它主要揭示了空间物体的总体规律,而忽略局部的变异。趋势面分析是根据空间抽样数据,拟合一个数学曲面,用该数学曲面来反映空间分布的变化情况。它可分为趋势面和偏差两大部分,其中趋势面反映了空间数据总体的变化趋势,受全局性、大范围的因素影响。如果能够准确识别和量化全局趋势,在空间分析统计建模中就可以方便的剔除全局趋势,从而能更准确地模拟短程随机变异。

透视分析是探测全局趋势常用方法,准确的判定趋势特征关键在于选择合适的透视角度。同样的采样数据,透视角度不同,反映的趋势信息也不相同。图10.10(a )为显示某地区东西方向(X 轴)和南北方向(Y 轴)的高程趋势图。图10.10(b )逆时针旋转45度后,显示东南-西北方向和西南-东北方向的高程趋势图。趋势分析过程中,透视面的选择应尽可能使采样数据在透视面上的投影点分布比较集中,通过投影点拟合的趋势方程才具有代表性,才能有效反映采样数据集全局趋势。显然,图10.10(a )反映的趋势比图10.10(b )更为准确。

10.3.5空间自相关及方向变异

大部分的地理现象都具有空间相关特性,即距离越近的两事物越相似。这一特性也是空间地统计分析的基础。半变异/协方差函数云图就是这种相似性的定量化表示。空间自相关分析包括全程空间自相关分析和局部空间自相关分析,自相关分析的结果可用来解释和寻找存在的空间聚集性或“焦点”。 空间自相关分析需要的空间数据类型是点或面数据,分析的对象是具有点/面分布特征的特定属性。

全程空间自相关用来分析在整个研究范围内指定的属性是否具有自相关性。局部空间自相关用来分析在特定的局部地点指定的属性是否具有自相关性。具有正自相关的属性,其相邻位置值与当前位置的值具有较高的相似性。下面介绍两个常用的分析空间自相关的参数:Moran’sI 和GearyC 。

1. 空间权重矩阵

地理事物在空间上的此起彼伏和相互影响是通过它们之间的相互联系得以实现的,空间权重矩阵是传载这一作用过程的实现方法。因此,构建空间权重矩阵是研究空间自相关的基本前提之一。空间数据中隐含的拓扑信息提供了空间邻近的基本度量。通常定义一个二元对称空间权重矩阵W n ×n 来表达n 个空间对象的空间邻近关系,可根据邻接标准或距离标准来度量,还可以根据属性值x j 和二元空间权重矩阵来定义一个加权空间邻近度量方法。空间权重矩阵的表达形式为

⎡W 11W 12⎢W ⎢21W 22

⎢ ⎢⎣W n1W n2 W 1n ⎤ W 2n ⎥⎥ ⎥⎥ W nn ⎦ (10.1)

根据邻接标准,当空间对象i 和空间对象j 相邻时,空间权重矩阵的元素w ij 为1,其他情况为0,表达式如下:

1(i 与j 相邻)⎧W =⎨ij ⎩0(i =j 或i 与j 不相邻) (10.2)

根据距离标准,当空间对象i 和空间对象j 在给定距离d 之内时,空间权重矩阵的元素wij 为1,否则为0,表达式为

(对象i 与对象j 距离小于d 时)⎧1W =⎨ij ⎩0(其他) (10.3)

如果采用属性值x j 和二元空间权重矩阵来定义一个加权空间邻近度量方法,则对应的空间权重矩阵可以定义如下:

W ij =*W ij x j

j =1∑W ij x j n (10.4)

2. Moran’sI参数

Moran ’sI 是应用最广的一个参数。对于全程空间自相关,Moran ’sI 定义是: ∑∑w (x -x )(x ij i n

i n -j -x ) -

I =

Moran’sj ≠i S 2∑∑w i j ≠i n n ij

(10.5)

对于局部位置i 的空间自相关,Moran ’sI 定义是:

I i (d ) =Z i ∑w ij ' Z j

j ≠i n (10.6)

其中:n 是观察值的数目;x i 是在位置i 的观察值;Z i 是x i 的标准化变换,

-Z i =x i -x σ。-1n 1n 2x i =∑x i S i =∑(x i -x ) 2w n i n i ,。ij 是对称的空间权重矩阵,如果i 与j 相邻,取值为1,否则取值为0。

重矩阵。 w ij ' 按照行和归一化后的权重矩阵(每行的和为1),非对称的空间权

Moran ’sI 值介于-1到1之间,0为不相关。按照假定的空间数据分布可以计算Moran's I 的期望值和期望方差。

对于正态分布假设,

E (I )=-1

(n -1) (10.7)

n 2w 1-nw 2+3w 02Var (I ) =w 02(n 2-1) (10.8)

对于随机分布假设,

E (I )=-1

(n -1) (10.9)

n ((n 2-3n +3) w 1-nw 2+3w 02)-k 2((n 2-n ) w 1-2nw 2+6w 02Var (I )=w 02(n -1)(n -2)(n -3)

(10.10)

n 21n n 2w 0=∑∑w i j w 1=∑∑(w i j +w ji )w 2=∑(w i . +w . i )w 2i j i j i 其中,, ,i . 是第i n n

k 2=

行权重值之和,n ∑(x i -x ) 4i n w . i 是第i 列权重值之和。(∑(x i -x ) 2) 2

i n 。

原假设是没有空间自相关。根据下面标准化统计量参照正态分布表可以进行假设检验。

Z i =I -E (I )

Var (I ) (10.11)

Moran ’sI 如果是正的而且显著,表明具有正的空间相关性。即在一定范围内各位置的值是相似的,如果是负值而且显著的,则具有负的空间相关性,数据之间不相似。接近于0则表明数据的空间分布是随机的,没有空间相关性。

3. GerayC 参数

对于全局空间自相关:

(n -1) ∑∑w ij (x i -x j ) 2

C (d ) =i j n n

2nS 2∑∑w

i j n n ij

(10.12)

对于局部位置i 的空间自相关:

C i (d ) =∑w ij (x i -x j ) 2

j ≠i n (10.13)

其中,W ij 是空间权重矩阵。

C 的值总是正的。假设检验是如果没有空间自相关,C 的均值为1。显著性的低值(0和1之间)表明具有正的空间自相关,显著性的高值(大于1)表明具有负的空间自相关。

10.4分级统计分析

分级是对数据进行加工处理的一种重要方法,通过分级可以把数据划分成不同的级别,体现数据自身的特征,为应用研究及专题制图提供基础。

10.4.1 分级的概念与目的

数据分级根据一定的方法或标准把数据分成不同的级别,也就是把一个数据集划分成不同的子集,在此过程中,还可设置分级精度和分级数目等。数据分级之后,仅使原来的数据重新归类,数据的属性没有发生改变,研究人员可以根据分级后的数据进行下一步的应用分析。

数据分级的根本目的在于区分数据集中个体的差别,分级统计的过程就是区别个体性质的过程。分级的应用目的有两点:一是为了分级后,图面制图效果好,有利于用户读图;二是用不同的分级方法来突出显示制图区域内不同的地貌特征。

10.4.2 分级的原则

① 科学性原则:分级指标的确定要遵循一定的科学规律;

② 完整性原则:整个数据集中的所有数据都应被分到不同的级别中,没有遗漏,而且同一数据集中的每一数据只能被分到某一级别中,不能同时分到两个或多个级别中;

③ 适用性原则:对于一个数据集,应该根据研究或应用的需要选择合适的分级方法,使得分级结果能较好地满足目的;

④ 美观性原则:分级方法及分级数目的确定不但要依据研究目的,还要注重制图效果,制作专题地图不仅要体现数据的空间分布特征,还要使得图面色彩平衡,特征明显,易于理解。

10.4.3 分级统计的方法

分级方法多种多样,在应用时应根据研究的需要选择合适的方法来突出需要的数据信息。分级方法的种类也很多,本书主要介绍以下三种:

① 按使用分级方法的多少可分为单一分级法和复合分级法:

单一分级是指对于一个数据集只用了一种分级方法;复合分级是指由于数据自身的特点,需要对一部分数据使用某种分级方法,对另一部分数据使用另外一种分级方法,才能更好地满足研究的需要。如一组坡度数据,一部分较小(坡面平缓),而另一部分很大(地势陡峭),对这两部分数据,就应选用两种不同的分级方法,才能更好地突出变化特征。

② 按级差是否相等可分为等值分级法和不等值分级法:等值分级法又可以分为等面积分级、等间距分级、分位数分级等:不等值分级法可以分为自然裂点法、标准差分级、平均值嵌套分级等。

③ 按确定级差的方法可分为自定义分级法和模式分级法。本节就是按这种分类体系展开讨论的,其结构图如下:

图10.11 分级方法的类型

1. 自定义分级

自定义分级即对一个数据集,根据自己的应用目的设定各个级别的数值范围来实现分级的方法。这种方法适用于研究者对该数据集比较了解,能够找到合适的分级临界点。

在自定义分级中,临界点的选择非常重要,临界点选择得好,就能够增强同一级别区域间的同质性分级和各级之间的差异性,分级结果就能够很好地满足各种分析需求。如在对坡度进行分级的过程中,应根据应用目标的要求, 确定临界坡度。

2. 模式分级

模式分级就是指按固定模式进行分级,在固定模式中,级差由特定的算法自动设定。模式分级分为等间距分级、分位数分级、等面积分级、标准差分级、自然裂点法分级等。

① 等间距分级

等间距分级是一种最简单的分级方法,它按某个恒定间隔来对数据进行分级。假定数据

最大值 最小值

分级数集里有最大值和最小值,那么间距D=。

图10.12 等间距分级示意图

图10.13 分位数分级示意图

等间距方法原理简单、易操作,但当数据集中在某一小范围内时,各分级之间数据个数的差别太大会造成图面配置不均衡,影响了制图效果。可见,当数据具有均匀变化的分布特征时,等间距分级法就简明实用;若数据分布差异过大,将会以响制图与对统计结果的分析。图10.12为某一地区温度数据的等间距分级示意图。

② 分位数分级

分位数分级是把数列划分为相等个数的分段,根据实际需要选择四分位、五分位、六分位„„十分位。为此,要先将数列按大小排列,从一端开始计算其分位数,把处于分位数上的那个值作为分级值。分位数分级可以使每一级别的数据个数接近一致,往往能产生较好的制图效果。图10.13为某地区温度数据的分位数分级示意图。

③ 等面积分级

对于矢量数据而言,对每个多边形都可以求出其面积,将面积的值按大小顺序排列并累加,把累加面积分为相等的几段,作为分级范围,这样,每个级别中包含的样本数目虽然不同,但总面积基本一致。

等面积方法使得每一级在图上占据的面积相等(或大致相等)。这种方法的特点是在图面上只反映各级占有相同的面积,制图效果好,但是没有充分利用图面表示级间的差异。

对于规则栅格数据而言,一定区域内的面积可由该区域内的栅格个数乘以栅格分辨率得到,所以按等面积分级只需考虑栅格个数即可。这时可以将数据按大小顺序排列,将数据个数累加,并把累加的个数分为相等的几段,这与分位数分级法得到的分级结果基本上是一致的。

④ 标准差分级

标准差可以反映各数据间的离散程度,按标准差分级,首先要保证数据的分布具有正态分布的规律,才可计算平均值x 和标准差Std.Dev ,然后根据数据波动情况划分等级。以算术平均值作为中间级别的一个分界点,以一倍标准差参与分级时其余分界点为:x ±Std.Dev ,x ±2Std.Dev ,x ±3Std.Dev „„x ±iStd.Dev 。当然也可以采用1/2

倍标准差

参与分级,即x ±1/2Std.Dev,x ±2/2Std.Dev,x ±3/2Std.Dev„„x ±i/2Std.Dev的形式,也可以用1/3倍标准差或1/4倍标准差。显然,分级数目是由数据本身所决定的,且对于同一数据集,采用一倍标准差时,分级数目最少,采用1/4倍标准差时,分级数目最多。图10.14为某地区温度数据的标准差分级示意图。

⑤ 自然裂点法分级

任何统计数列都存在一些自然转折点、特征点,用这些点可以把研究的对象分成性质相似的群组,因此,裂点本身就是分级的良好界限。将统计数据制成频率直方图、坡度曲线图、积累频率直方图,都有助于找出数据的自然裂点。如果频率最低点与峰值构成一个近似正态分布曲线,可以把任意两个正态分布曲线交点作为分级界线。

图10.14 标准差分级示意图 图10.15 自然裂点法分级示意图

自然裂点法基本上是基于让各级别中的变异总和达到最小的原则来选择分级断点的。由于自然裂点法是根据数据本身特征找出一些自然裂点进行分级的。图10.15为某地区温度数据的自然裂点法分级示意图。

⑥ 其他分级方法

a. 有规律的不等间距分级

这种方法与等间距分级法的区别在于它的间距是按一定规律变化的,而不是一个恒定的间隔。该方法采用的间隔或级差有算术级数和几何级数两种,每种又都可通过以下六种变化方法来确定各级的分级间隔:按某一恒定速率递增、按某一加速度递增、按某一减速度递增、按某一恒定速率递减、按某一加速度递减、按某一减速度递减。

b. 按嵌套平均值分级

该方法先计算整个数据集的平均值,它将数据集分为两部分,每部分中再计算平均值,又各自把所有的那一部分分成两段,以此类推,就可以把数据集区分为2个等级,即2的几何级数。n 是计算中的平均值的嵌套序数,用这种方法只能得到偶数个级别,而不可能得到奇数个级别。

c. 按面积正态分布分级

按数据的大小排列,累加其面积,然后按正态分布的规则使中间级别所占的面积较大,n

往高端和低端的级别中所占的面积都依次减小,并由此来确定每级的分界线。显然,这种方法不仅使每个级别中样本的数目不相等,而且各级别的累加面积呈正态分布。

总之,关于数据的统计分级的研究还很多,其目的都在于改善分级间隔的规则性、同级之中的同质性和不同级别之间的差异性等等。

10.5 空间插值

空间数据插值是进行数据外推的基本方法。常用的插值方法有很多,分类并没有统一的标准,例如从数据分布规律来讲,有基于规则分布数据的内插方法、基于不规则分布的内插方法和适合于等高线数据的内插方法等;从内插函数与参考点的关系方面,又分为曲面通过所有采样点的纯二维插值方法和曲面不通过参考点的曲面拟合插值方法;从内插曲面的数学性质来讲,有多项式内插、样条内插、最小二乘配置内插等内插函数;从对地形曲面理解的角度,内插方法有克立金法、 多层曲面叠加法、加权平均法、分形内插等;从内插点的分布范围,内插方法分为整体内插、局部内插和逐点内插法。空间内插的根本是对空间曲面特征的认识和理解,具体到方法上,则是内插点邻域范围的确定、权值确定方法(自相关程度)、内插函数的选择等三方面的问题。

由于每一种内插方法都有其自身的特点和适用范围,了解方法的特点是本质所在。本书并不打算对各种内插算法从数学实现方法上进行分析讨论,而是从内插范围分类方法入手,对每一类内插方法的特点进行简要的分析归纳,同时为保证内容上的完整性和连续性,在本节只介绍概念上的东西,而具体的实现方法与相应内容请查阅相关文档。

10.5.1整体内插

整体内插,就是在整个区域用一个数学函数来表达地形曲面,如图10.16所示。整体内插函数通常是高次多项式,要求地形采样点的个数大于或等于多项式的系数数目。当地形采样点的个数与多项式的系数相等时,这时能得到一个唯一的解,多项式通过所有的地形采样点,属纯二维插值;而当采样点个数多于多项式系数时,没有唯一解,这时一般采用最小二乘法求解,即要求多项式曲面与地形采样点之间差值的平方和为最小,属曲面拟合插值或趋势面插值。从数学角度讲,任何复杂的曲面都可用多项式在任意精度上逼近,但由于以下原因,在空间内插中整体内插并不常用:

图10.16 整体内插

● 整体内插函数保凸性较差,高次多项式虽然能在任意精度上逼近地形曲面,并且能使数学曲面与实际地形曲面有更多的重合点,但由于多项式是自变量幂函数的和的形式,采样点的增减或移动都需要对多项式的系数作全面调整,从而采样点之间会出现难以控制的振荡现象,致使函数极不稳定,从而导致保凸性较差;

● 不容易得到稳定的数值解解,高次多项式的系数求解一般要解算较高阶的线性方程组,计算的舍入误差和数据采样误差(平面位置误差),都有可能引起多项式系数发生较大变化,使高次多项式不容易得到稳定的数值解。而且这种微小的数据扰动影响,在二元高次多项式中更为严重,因为在一元函数插值时,自变量误差仅在一个方向上(x 轴),而在二维平面上,采样点的偏移方向却是无限的。

● 多项式系数物理意义不明显,在低阶多项式中,各个系数的物理意义非常明确,例如线性多项是H =ax +by +c 中,a 、b 分别为两个坐标轴方向的斜率,而在高次多项式中,各个系数的物理意义一般不明确,容易导致无意义的地形起伏现象。

● 解算速度慢且对计算机容量要求较高。

a. 二次趋势拟合 b. 三次趋势拟合

图10.17 江苏某地区GDP 全局多项式趋势拟合

● 不能提供内插区域的局部地形特征;

整体内插虽然有如上的缺点,但其优点也是明显的,例如整个区域上函数的唯一性、能得到全局光滑连续的空间曲面、充分反映宏观地形特征等。整体内插函数常常用来揭示整个

区域内的地形宏观起伏态势。在空间内插中,一般是与局部内插方法配合使用,例如在使用局部内插方法前,利用整体内插去掉不符合总体趋势的宏观地物特征。图10.17(a )和图10.17(b )分别为江苏某地区GDP 二次拟合及三次拟合的全局多项式拟合图。显然,次数越低,拟合的表面越粗糙,实际表面拟合的效果越差,大致代表了此区域的宏观趋势;次数越高,拟合面越光滑,拟合的结果更接近实际的表面。但并不是次数越高越好,次数过高使得计算量大大增加而精度提高不大,一般选用到三次即可。

10.5.2局部分块内插

利用数学曲面来模拟实际地形表面,是地形表达的一个常用的手段。例如一阶线性平面可模拟具有单一坡度的斜坡地形表面,二次曲面方程可表达山头、洼地区域,而三次曲面则能描述较为复杂的地形曲面。然而低阶多项式虽然可表达各种地形曲面,但一个地区确常常包含各种复杂的地貌形态,简单的曲面并不能很好的表达这些地形曲面。理论上任何复杂的曲面都可用多项式进行逼近,但高阶多项式的上述缺点,也不是理想的地形描述工具。解决这类问题的办法就是采取分而治之的办法,即将复杂的地形地貌分解成一系列的局部单元,在这些局部单元内部地形曲面具有单一的结构,由于范围的缩小和曲面形态的简化,用简单曲面就可较好的描述地形曲面。

将地形区域按一定的方法进行分块,对每一块根据地形曲面特征单独进行曲面拟合和高程内插,称为空间分块内插(图10.18)。区域分块简化了地形的曲面形态,使得每一块都可用不同的曲面进行表达,但随之而来的是如何进行分块和如何保证各个分块之间的曲面的连续性。一般的可按地形结构线或规则区域进行分块,而分块大小取决于地形的复杂程度、地形采样点的密度和分布;为保证相邻分块之间的平滑连接,相邻分块之间要有一定宽度的重

图10.18 局部分块内插方法

叠,另外一种分块之间的平滑连接是对内插曲面补充一定的连续性条件。

不同的分块单元可用不同的内插函数,常用的内插数函数有线性内插、双线性内插、多项式内插、样条函数、多层曲面叠加法等。

线性内插和双线性内插

形如H =ax +by +c 的多项式称为线性平面,它将分块单元内部的地形曲面视为平面。

如果在线性多项式中增加了交叉项xy ,线性内插则变成双线性内插函数:H =ax +by +cxy +d ,之所以称为双线性内插,是因为当y 为常数时,表达的是x 方向的线性函数,而当x 为常数时,则为y 方向的线性函数。

线性内插函数中有三个未知数,需要三个采样点才能唯一确定,而双线性内插函数中有四个未知数,需要四个已知点。线性内插和双线性内插函数由于物理意义明确,计算简单,是基于TIN 和基于正方形格网分布采样数据的DEM 内插和分析应用的最常用的方法。

二元样条函数内插

所谓样条曲面,就是将一张具有弹性的薄板压定在各个采样点上,而其它的地方自由弯曲。从数学上讲,就是一个分段的低次多项式,多项式的次数一般不超过三阶。通过样条函数,可以获取在各个采样点上具有最小曲率的拟合曲面。

二元样条函数首先对采样区域进行分块,对每一块用一个多项式进行拟合,为保证各个分块之间的平滑过渡,按照弹性力学条件设立分块之间的连续性条件,即公共边界上的导数连续条件。虽然样条函数可适合的任意形状的分块单元,但一般还是将其应用在规则格网分布的采样数据中。

与整体内插函数相比较,样条函数不但保留了局部地形的细部特征,还能获取连续光滑的DEM 。同时样条函数在拟合时,由于多项式的阶数比较低,对数据误差的响应不敏感,具有较好的保凸性和逼真性,同时也有良好的平滑性。

图10.19为江苏某地区GDP 的张力样条函数插值结果,图10.19(A )取权重为0,图10.19(B )取权重为5,图10.19(C )为两次插值结果的差值的绝对值。可以看出,权重越高,表面越粗糙,权重不同,局部地区插值结果变化比较剧烈。

样条函数将地表分块视为弹性刚体,采取具有弹性力学条件的光滑连续条件。然后地形并不是一个狭义的刚体,也不具备满足弹性力学光滑性条件。因此虽然样条函数具有严密的理论基础,但未必是数字地形内插的理想数学模型。

A : Weight = 0 B : Weight = 5

C : Abs (A - B)

图10.19 张力样条函数插值结果

● Coons 曲面与

Geomap 曲面

Coons 曲面是基于任意四边形的曲面拟合方法。它把复杂的地形曲面用两组相交的曲线进行划分,构成一个曲线网络,其中的每一个网眼看作是由四条边界曲线围成的曲面片(曲边四边形),整个曲面则由各个曲面片拼接而成,曲面片的拼接可得到不同程度的连续性。地形曲面上的结构线如山脊线、山谷线为地形表面上的两类棱线,一般不呈横向坡角连续,因此Coons 曲面可用于由地性线围成的地貌形态单元。但要注意,Coons 曲面仅考虑的曲边四边形的边界曲线,而没有考虑曲面内部的信息,对于恰当描述地貌形态有一定缺陷。

Geomap 曲面是Bezier 曲面在不规则格网划分上的推广形式,它通过控制点的增加和只考虑每条边界与相邻曲面片之间的连续性条件,较为简单地解决了在不规则格网划分上的光滑曲面构造。本质上,Coons 和Geomap 属于同一类曲面拟合问题,因此Geomap 在地形曲面上应用具有与Coons 曲面类似的不足。

● 多层曲面叠加内插

多层曲面叠加法是美国依阿华州的Hardy 教授在1977年提出的,它认为任何一个规则或不规则的连续曲面都可看成由若干个简单的曲面来叠加逼近。具体实现是在每个数据点上建立一个曲面,然后在垂直方向上将各个曲面按一定比例进行叠加,形成一张整体连续的曲面,曲面严格通过每一个数据点。

多层曲面叠加法的核心是简单曲面的设计,也称为核函数。自该方法提出以来,已经发展了许多种核函数的设计方法,如锥面、双曲面、三次曲面、高斯曲面(以高斯曲线为母线的旋转曲面)、Authur 法、吕言法、Wild 法等。

多层曲面函数的优点是核函数设计的灵活性和可控性,用户可以根据自己的特定要求,在核函数中增加所需的各种信息,例如如果希望在内插过程中考虑地面坡度的信息,则可设计具有坡度特性的核函数。

大量的分析试验证明,多层曲面叠加法的插值质量比二元高次多项式、样条函数等要好

一些,Kraus 认为在DEM 内插中,当数据点密度比较小而数据点的精度又较高的情况下,宜优先采用多层曲面叠加法。

虽然多层曲面叠加法的核函数选择比较灵活,但地形比较复杂,难以通过一个确定的函数严格表示地形的各种变化,同时多层曲面叠加函数的处理过程比较繁琐,计算量大,因此在DEM 建立中并不常用。

● 最小二乘配置

最小二乘配置是一种基于统计的内插和测量数据处理方法,它认为一个测量数据一般由三部分构成,即趋势、信号和误差。趋势反映数据的整体变化走势,信号是局部数据之间的联系,误差则为不确定性因素的影响。最小二乘配置包括最小二乘内插、最小二乘滤波和最小二乘推估。

一般对分块的表面通过多项式来确定整体的变化趋势,去掉趋势后的表面数据仅包含信号和随机误差,信号反映局部数据点之间的相关性,即自相关性,一般用数据点之间的协方差函数表达。最后通过误差平方和为最小的原则求解各个参数。

最小二乘配置的核心问题是如何建立数据之间的协方差矩阵,换句话说,就是如何解决信号的相关性规律问题。在连续表面内插中,最小二乘配置认为,数据点之间的相关规律仅与距离有关,也就是说,距离越近,协方差越大,超过一定的距离,协方差趋于零。高斯函数正好满足这一特性,因此习惯上用高斯函数作为采样点之间相关程度度量的指标。

最小二乘配置理论基础严密,但大量的实验结果表明,它未必能在DEM 内插中取得良好的效果,主要原因在于:一是最小二乘的前提是处理对象必须属于遍历性平稳随机过程,但实际地形表面变化复杂,不一定满足这一条件,而且地形之间的自相关性不仅与距离有关,也与方向有关,即地形具有各向异性。前提条件不保证,则难得到较好的拟合效果;二是最小二乘方法的解算是一个循环迭代过程,计算量比较大。

● 克立金法

克立金法(Kriging )是法国地理数学家Gerges Matheron和南非矿业工程师D. G. Krige创立的地质统计学中矿品位的最佳内插方法,近年来已广泛用于GIS 中的空间内插。克立金法与最小二乘配置比较类似,也是将变量的空间变化分为趋势、信号与误差三个部分,求解过程也比较相似。不同之处在于所采用的相关性计算方法上,最小二乘采用协方差矩阵,而克立金法采用半方差,或者称为半变异函数。克立金法的内蕴假设条件是区域变量的可变性和稳定性,也就说,一旦趋势确定后,变量在一定范围内的随机变化是同性变化,位置之间的差异仅仅是位置间距离的函数。通过不同数据点之间半方差的计算,可作出半方差随距离的变化的半方差图,从而用来估计未采样点和采样点之间的相关系数,进而取出内差点的高程。

● 有限元内插

有限元法是以离散方式处理连续变化量的数学方法,其基本思路是将地形曲面分割成有限个单元的集合,单元形状可为三角形、正方形等。相邻单元边界的端点称为结点,通过解求各个结点处的物理量来描述对象的整体分布。有限元通常采用分片光滑的奇次样条函数作为单元的内插函数(也称为基函数)。

有限元的解是一系列基函数的线性组合。为了求取线性组合的全部未知数,一般要列出与所求问题等价的二次泛函数取极小值的条件。有限元法的计算量与前述方法不同的地方在于有限元取决于分块范围内单元结点的个数(格网点数),而不是采样点数据量的多少。另外有限元与样条函数类似,也将地表视为弹性刚体,从若干的实验分析结果来看,也非空间曲面理想的内插方法。

图10.20 空间逐点内插法

10.5.3逐点内插

所谓逐点内插,就是以内插点为中心,确定一个邻域范围,用落在邻域范围内的采样点计算内插点的高程值,如图10.20所示。逐点内插本质上是局部内插,但与局部分块内插有所不同,局部内插中的分块范围一经确定,在整个内插过程中其大小、形状和位置是不变的,凡是落在该块中的内插点,都用该块中的内插函数进行计算,而逐点内插法的邻域范围大小、形状、位置乃至采样点个数随内插点的位置而变动,一套数据只用来进行一个内插点的计算。 逐点内插法的基本步骤为:

● 定义内插点的邻域范围;

● 确定落在邻域内的采样点;

● 选定内插数学模型;

● 通过邻域内的采样点和内插计算模型计算内插点的高程。

为实现上述步骤,逐点内插法需要解决好以下几个问题:

● 内插函数,逐点内插法的内插函数决定着空间表面精度、连续性、内插点邻域的最小采样点个数和内插计算效率。内插函数常常与采样点的分布有关,目前常用内插函数有:适合于呈离散分布采样点的拟合曲面、反距离权内插法;适合于TIN 的线性内插法;以及适合于规则格网分布的双线性内插等。另外局部内插的各种数学模型也可应用到逐点内插法中。

● 邻域大小和形状,在逐点内插中,邻域的作用是选择参加内插的采样点。逐点内插法的邻域相当于局部内插的分块,但形状和位置随内插点的位置在变动。常用的邻域有圆形、方形等。

● 邻域内数据点的个数,邻域内数据点全部参加内插计算,用来进行内插计算的采样点不能太多也不能太少,太多影响计算精度(对内插计算的贡献程度太小)和处理效率,太少则不能满足内插函数的要求,邻域点的确定一般与具体的内插函数有关,通常认为4-10个点是比较合适的。邻域内数据点的个数常常决定着邻域范围的大小。邻域点内的点数也

与采样点的分布密度有关,如果采样点分布比较均匀,邻域点选择不必考虑方向性,而当数据点分布不均匀时,邻域点确定要考虑方向性。

● 采样点的权重,采样点的权重是指采样点对内插点的贡献程度,现今最常用的定权方法是按距离进行定权,即反距离权。

● 采样点的分布,由第三章知道,采样点分布有呈离散、规则和等高线分布几种,理论上内插函数对采样点的分布没有任何要求,例如双线性内插也可适合不规则分布的采样点(任意四边形),但以规则分布的点计算最为简单。

A : Power = 2 B : Power = 5

C : Abs (A - B)

图10.21 江苏某地区GDP 的IDW 插值结果

● 附加信息的考虑,如在地形表面内插过程中需考虑地形结构线、地物信息等各种附加信息,以保证地形表面模拟的真实性。

图10.21为江苏某地区GDP 的IDW 插值结果,图10.21(A )取距离的幂次数为2,图10.21(B )取距离的幂次数为2,图10.21(C )为两次插值结果的差值的绝对值。显然,即便同样的采样数据,插值函数参数的不同,插值结果会发生很大的变化。

各种内插方法在不同的地貌地区和不同采点方式下有不同的误差。具体选择时要考虑本章每种方法的适用前提及优缺点,同时考虑应用的特点,从内插精度、速度、计算量等方面选取合理的方法。一般说来,大范围内的地形比较复杂,用整体内插法若选取参考点个数较少时,不足以描述整个地形,而若选用较多的采样点则内插函数易出现振荡现象,很难获得稳定解。因此在空间曲面内插中通常不采用整体内插法。相对于整体内插,分块内插能够较好地保留地物细节,并通过块间一定重叠范围保持内插曲面的连续性。分块内插方法的一个主要问题是分块大小的确定。就目前技术而言,还没有一种运用智能法或自适应法进行地貌形态识别后自动确定分块大小,进行高程内插的算法。分块内插的另一个问题是要解求复杂的方程组,应用起来较为不便。逐点内插方法计算简单,应用比较灵活,是较为常用的一类空间内插方法。逐点内插方法的主要问题是内插点邻域的确定,它不仅影响到空间内插精度,也影响到内插速度。

10.6空间回归分析

一切客观事物都是相互联系和具有内部规律的,这些关系表现在量上,主要有两种类型:一是变量之间存在着完全确定性的关系,最简单和最常见的是微积分中遇到过的函数关系;另一类是统计关系,或称相关关系。回归分析是研究两个或两个以上的变量之间关系的一种统计方法,在进行分析、建模时,常选用其中一个为因变量,其余的作为解释变量,然后根据样本资料,研究解释变量与因变量之间的关系。空间回归在经典的统计回归分析中考虑了空间的自相关性,这种模型在上世纪七十年代后期开始出现并逐步成熟。由于在经典的回归中加入了空间关系,通过空间关系把属性数据与空间位置关系结合起来,空间回归可以更好的解释地理事物的空间关系。

10.6.1经典统计回归模型

如果认为因变量Y 与解释变量x 1,x 2,„,x p 之间具有线性相关关系,那么,它们的关系可以表示为线性回归预测模型。

ˆ=b 0+b 1x 1+b 2x 2+⋯⋯b p x p +εi y (10.14)

其中,b 0为常量,表示不能用其它自变量表示的部分,b 1,b 2,„,b p 为各解释变量的系数,其标准化值表示对因变量的影响大小,εi 为误差项,要求符合正态分布。

上面的模型简化表示为:

y =X β+ε, ε~N (0,σ2) (10.15)

y 是从n 个位置得到的一个因变量,为(n ⨯1) 的向量矩阵,X 是一个(n ⨯K ) 的解释变量矩阵,β是一个K ⨯1的模型参数向量矩阵,ε是一个(n ⨯1) 的干扰矩阵,K 为解释变量的个数。

10.6.2空间加权回归模型

经典统计回归有很强的假定条件,例如假定误差项独立且同方差。空间加权回归(GWR)模型减少了统计回归方程中同方差的假设,即误差项可以有不同的方差。空间加权回归模型的表达式:

y(g) = β0(g) + β1(g)x1 + β2(g)x2 +…+ ε (10.16)

其中,(g)指获取估计参数的空间坐标向量g 。

使用普通最小二乘法(OLS ),对于经典的线性回归而言,β参数使用下式估计:

β = (XT X) -1X T Y (10.17)

类似的,对于GWR 模型,可以使用空间权重的来计算β(g):

β(g) = (XT W(g)X)-1X T W(g)Y (10.18)

W(g)是位置g 的权重矩阵,与g 越近,权重值越高。计算权重的方法有很多,GWR 模型一般用高斯函数:

w i (g) = exp(-d/h)2 (10.19)

其中,d 是观测位置i 与位置g 之间的欧氏距离,h 是间隔距离。

10.6.3空间联立自回归模型

联立自回归(SAR )是最基本的空间回归模型。1995年后,Anselin 给出了实用的程序包“SpaceStat ”以辅助进行这一计算。考虑到空间相关性,可以提出两种假设:

① y 是空间自相关的,模型形式变化为空间滞后模型:

y =ρWy +X β+ε (10.20)

② 误差是空间自相关的,模型的形式变化为空间误差模型:

y =X β+u , u =λWu +ε (10.21)

这里,λ为空间误差参数,u 是一个空间自相关干扰向量矩阵,W 是空间权重矩阵。ρ是空间相关参数,表示空间自相关性对模型的影响程度。λ和ρ的值越高,表明空间自相关对模型的影响越大。对于空间数据,如果使用经典的线性回归模型,那么它等价于假设空间自回归模型中的参数ρ=λ=0,即假设没有空间自相关性。

如果滞后和误差的权重矩阵不同,也可以将空间滞后模型和空间误差模型结合起来使用。对于试验性分析来说,可以使用相同的权重矩阵。Ord (1975)给出了用于估计空间滞后和空间误差模型的最大似然方法,这是目前比较令人满意的方法。对于样点数目较大的权重矩阵,一种可行的解决方法是使用稀疏矩阵,既可以节省内存,又可以在合理的时间内进行实用的计算。

专业术语

空间统计分析

间内插 回归分析 直方图 协方差函数 半变异函数 Voronoi 图 空间自相关 空


相关内容

  • GIS技术在环境科学中的应用
  • GIS 技术在环境科学中的应用 摘要:本文介绍了GIS 技术在环境科学多领域的应用,并具体列举了GIS 在环境质量评价和土壤侵蚀方面的方法和原理,最后阐述了GIS 技术目前的不成熟方面. 关键词:GIS 技术 环境科学 方法 一.序言 1.1 GIS技术简介 GIS 是以测绘测量为基础,以数据库作为 ...

  • 4地理信息系统教程与地理信息系统概论课后题
  • 地理信息系统概论 第一章 1:什么是地理信息系统?它与一般的计算机应用系统有哪些异同点? 答:geographicalhical information system ,它是一种特定的十分重要的空间信息系统,是在计算机软硬件支持下,对整个或部分地球表层(包括大气层)的有关地理分布数据进行采集.存储. ...

  • 城市规划论文
  • 题目:GIS在城市规划管理中的应用 姓名: 班级:地理信息系统 学号: 33333 00000 2012.11.6 日期: GIS在城市规划管理中的应用 摘要 近年来,地理信息系统技术在城市规划中的应用受到我国城市规划业务部门和学术界的广泛关注.本文从GIS在城市规划中的应用现状出发,针对地理信息系 ...

  • 文献综述GIS在大气扩散模型中的应用
  • GIS在大气污染扩散模型中的应用分析 摘要 GIS与大气扩散模型的整合是当前重要的发展趋势,两者的结合不仅发挥了GIS强大的空间信息可视化管理和分析功能, 也能将环境模型的分析预测功能直观应用于对各类污染源的宏观与微观模拟表达, 实现了对大气污染扩散模型的可视化管理, 为工程决策者和管理人员提供了一 ...

  • 地理信息系统的一些相关概念
  • 地理信息系统的一些相关概念 • • 1. 信息和数据 (1)信息:是向人们或系统提供的关于现实世界的事实的知识,换句话说,信息是用数字.文字.符号.语言等介质表示的事件.事物.现象的内容.数量或特征. 从信息科学角度看信息的四大特点 适用性.客观性.共享性.传输性 • 意义. (2)数据:是用于载荷 ...

  • 地理信息系统_考研整理思考题
  • 四.简答题 81.GIS 元数据的基本概念与作用? 答:元数据是描述数据的数据, 信息资源的编目信息, 它通过描述资源的属性, 使得使用者不需要直接浏览资源就获得资源的主要特征信息. 在地理信息系统应用中,元数据的主要作用可以归纳为如下几个方面: (1)帮助数据生产单位有效地管理和维护空间数据,建立 ...

  • 地理信息系统的发展历史及发展趋势
  • 地理信息系统的发展历程及发展趋势 摘要:地理信息系统作为一种以采集.贮存.管理.分析和描述整个地球表面与地理分布有关数据的空间信息系统,与人类生存.地区的发展和进步密切关联,本文从GIS 的产生.GIS 的发展现况及GIS 未来的发展趋势和应用空间三方面内容对GIS 的发展变化做了简单的介绍和阐述. ...

  • 地理信息技术前沿
  • 地理信息系统的发展和前沿问题 地理信息系统(GeographicInformationSystems,简称GIS)是20世纪60年代发展起来的一门空间信息分析技术,是多学科交叉的产物,它以地理空间为基础,采用地理模型分析方法,实施提供多种空间和动态的地理信息,是一种为地理研究和地理决策服务的计算机技 ...

  • 论文外文翻译
  • 下一代GIS / LIS-GIS集成测量信息系统 迈克尔f .韦尔,美国 摘要:GIS技术已经发展到终于可以用于准确的测量地点(测量员提供的数据).测量结果能够存储在地理信息系统数据库中,在地理信息系统内进行测量和计算测量的结果,能够作为一个新的图层集成到同一个地图绘图环境代表测量地点,能够连接现有 ...

  • 武汉大学考研地理信息系统试题库
  • 武测地理信息系统考试题库 注:本题库后注释的考过的题仅代表遥感院考过.资源环境学院的试题本人没有看过,没有标注. "地理信息系统教程"习题 第一章 绪论 1.什么是地理信息系统?与地图数据库有什么异同?与地理信息的关系是什么? 2.地理信息系统由哪些部分组成?与其他信息系统的主要 ...