中国人口空间分布分析
潘景梅
摘要:利用2000年人口普查信息,介绍了在人口地理信息系统中,通过三维模型显示,罗伦斯曲线,人口重心和人口潜力等方法,分析中国人口分布的特征。在此基础上,用空间相关方法对人口分布的现象进行分析,揭示了其空间地理分布的内在联系。
关键词:人口分布;空间自相关;人口潜力;人口重心
人口信息是重要的国情信息,它对行政管理、人口研究、了解市场供求、制订社会和经济发展计划等都具有重要意义。人口普查是在国家统一规定的时间内,按照统一的方法、统一的项目、统一的普查表格和统一的标准时间,对全国人口普遍地、逐户逐人进行的调查登记。通过这种普查的调查登记,查清全国人口的数量、结构和分布情况;同时,还查清这些人口的社会、经济和文化特征。这些信息的深层次开发和应用将提高我国政府行政管理和决策的科学水平。
在一般的地理信息系统中,通常表现像人口等一些社会经济信息的方法是利用其专题地图表示功能,用质底法普染颜色或以饼图、柱状图等比例符号法表示人口的地理分布。在人口地理信息系统中,如何结合人口地理分布的特征和地理信息系统强大的数据处理和可视化功能,更形象地反映人口的空间分布现象,用可视化技术挖掘人口空间分布的内涵,是用地理信息系统展示人口普查结果的重要研究内容。使用人口分布的三维模型、罗伦斯曲线、人口重心和人口潜力等方法,结合传统的人口专题地图表示方
法,能更好地反映人口分布的特征。
1、人口分布三维模型
数字地形模型是地形表面形态
属性信息的数字表达,是带有空间位
置特征和地形属性特征的数字描述,
数字地形模型中的地形属性为高程
时称为数字高程模型。高程是地理空
间中的第三维坐标,应用产生和显示
数字高程模型的数学方法,用人口信
息作为第三维坐标,可生成人口信息
的三维立体模型。
2、罗伦斯曲线
罗伦斯曲线也叫频率累积曲线,它最早是在经济学中用来测度财富分配差异的工具,是美国经济学家罗伦斯提出的一种关于研究工业集中化的统计方法。我们将它用在人口地理信息系统中,用来分析人口分布的格局。制作人口罗伦斯曲线,需先确定区域等级,求出各区域某一指标(如面积)所占总量的百分比,再将百分比数由低向高累加,得到一个累积百分比等列Y1,Y2,Y3„„Yn,再求出
相对于这一指标累积序列的另一指标(如
人口)百分比的累积百分比X1,X2,X3„„
Xn,将每对X,Y值绘到坐标图上,各点
的连线即得到所需主题的罗伦斯曲线。坐
标轴的对角线表示沿两种分布之间是完
全均衡的,有相同的百分比和累积百分
比。曲线到对角线的离差就是两种分布的
差异性测度。如果分布是均衡的,则罗伦
斯曲线与对角线重合。图2是地市级行政
区域总人口和土地面积两指标的罗伦斯
曲线。从曲线上可以看出,我国人口的分
布具有很强的不均衡性。9o% 以上的人
口集中在占土地面积50% 的行政区域中。
3、人口重心
重心这个概念在物理学是指一个物件各部分所受重力产生合力的作用点。人口重心是假设人口所在区域为一同质的平面,而每一个人都是平面上的一个质点,具有相同的重量,则重心应为区域中距离的平方和最小的一点,即一定空间平面上力矩达到平衡的一点。计算方法为:
其中X,Y分别为人口重心的横坐标和纵坐标,x,y分别为把这一地域划分为无限小的各区域的位置,dp为相应的人口数。在实际应用中,为便于计算,通常使用如下计算方法:
其中:X,Y分别为人口重心的横坐标和纵坐标,xi,yi
分别为各小区域中心点的坐标,Pi为相应区域的人口数。
显然人口重心位置取决于人口分布状态,如果人口分布是均匀的,重心则应处于该区域的几何重心,偏移均衡状态的人口分布则将导致人口重心旁移。在人口地理信息系统中运用人口重心分析的意义在于:从人口重心在一段历史时期的移动轨迹中,可以看出人口分布的变动情况和变动速度。
图3为从1953年至2000年中国人口重心的变动情况,表1为相应的人口重心移动的速度。从中可以看出:
1)建国以来,我国的人口重心基
本在河南省南部或与其相邻的湖
北省北部区域,清楚地显示出我
国人口分布从总体上偏向东南的
特点;2)我国的人口重心是在不
断移动中,其移动的轨迹反映了
国家人口分布的格局的变动,而
这种变动则与国家的政治、经济
重心的转移有密切的关系。1953
年至1964年人口重心向东偏北
移动,原因在于这一时期我国的
建设重点主要在东北、华北地区,南方基本上没有大规模的建设,西南处于开发准备阶段,东北、京、津与华北的人口增长也快于南方;1964 年至1982年人口重心又有向西偏南逆转的趋势,原因是1964 年后西南和西北陕、甘两省为“三线” 建设的重点地区,有大批的建设者迁入,人口增长快于其他区域;1982年至1990年,我国处于改革开放的第一阶段,随着计划生育这一基本国策的实施,东南各省的人口出生率低于西北各省的人口出生率,同时,这一时期,虽然南方经济发展迅速,由于受户籍制度的制约,人口向南方流动也受到较大的制约;1990年至2000年,我国改革开放进入第二阶段,东南各省经济高速发展,与西北差异进一不加大,东南各省吸引大量的流动人口,使人口重心向南移动。3)从人口重心移动的速度分析,1953年至1964年的建国初期和1982年至1990年的改革开放初期,移动速度明显快于其他时期(如表1所示),这也与我国经济建设在这两个时期进行的重大战略调整相吻合。
3、人口潜力
潜力一词同重心一样都是从物理学借用的概念。其意义是:任意两个物体之间都存在引力,距离越近,引力越强。同样,人口间也存在着相互联系和相互作用,作用强度与距离成反比。因此,在区域的每一点都存在一个人口潜力,这是区内所有人与这个点的距离的反商的和。在实际计算中,显然应该用面代替点,用人口数取代单个人。计算方法为:
其中:Wa为人口潜力值,Pi为i点的人口数,Di为i点距欲计算人口潜力a点的距离。
人口潜力受人口分布状况的影响,
如果分布极端均匀,则区域内任何
一点的人口潜力都是一样的;反
之,人口愈稠密的点,人口潜力越
大。同时,应用上式进行计算时,
没有必要计算区域内每一点的人
口潜力值。通常的做法是:选取若
干控制点计算人口潜力值,再内插
形成人口潜力等值线。图4为中国
人口潜力等值线图(缺台湾省数
据),从该图可清晰地反映中国人
口分布的态势。
4、人口分布空间自相关分析
以上通过不同的数据可视化技术,可清晰地反映隐藏在大量人口信息中的人口分布特征,但尚不能说明人口空间分布差异性的内在联系,无法揭示人口在不同地区之间的相似性。传统的数量统计模型要么只注重数值之间的相关性,如一元相关分析和多元相关分析等,要么只注重二维空间上的联系,如地理信息系统中的空间关系和空间叠加分析等。要科学地揭示人口现象空间联系的空间统计模型应该二者兼顾,在分析空间关系的基础上进行数值的相关分析。空间自相关模型Moran I和Local Moran I能很好地解决这一问题。
1)空间自相关模型
地理空间上的变量区别于数学变量的显著特征在于其在空间分布上的相关性,它们既具随机性,又有规律性。只要变量在空间上表现出一定的规律性,那么它就是自相关的。空间自相关是指同一个变量在不同空间位置上的相关性。它也是空间域中的值聚集程度的一种量度。
全局空间自相关分析模型(Moran I)
其中:Xi,Xj分别为位置i和位置j的人口数;S2=1/n∑(Xi-X)2;Wij表示空间权重矩阵的任一元素,其目的是定义空间对象的相互邻接关系,便于把人口地理信息系统中的有关人口数据放到所研究的地理空间上来对比分析。该矩阵表示如下:
上述权重矩阵的相邻规则和距离规则分别为:
式中i=1,2,⋯ ,n;j=1,2,⋯ ,m;m=n或者m≠n。
局地空间自相关分析模型(Local Moran I)
每一个观测值I的局地Moran统计量计算如下:
其中:Zi和Zj为观测值的标准化形式。
2) 空间自相关分析结果
利用Moran I对全国人口进行全局空间相关性分析,采用随机条件下近似正态分布假设的标准差对指标进行标准
化,得结果3.69。以正态分布90%
置信区间双侧检验阈值1.65为界
限,判断空间自相关是否显著。
可见其值大于1.65,人口分布具
有显著的空间自相关,从而表明
其具有良好的空间结构。中国人
口在空间上的分布具有一定的相
关性,不是随机分布的,人口分
布在地理空间上存在内在联系,
具有一定的规律性。以人口密度
为观测值,再由局地空间自相关
分析,得出中国人口分布局地空
间自相关结果,如图5所示。
从图上可以看出:① 自相关系数大于0.8的地区总面积占全国的0.23% ,人口占全国总人口的5.46% 。表现出高度的空间自相关,是我国人口最为集中的地区,主要包括包括京津地区、长江三角洲和珠江三角洲地区,西安、成都等特大城市。其内部人口密度普遍很高,周围地区虽有差异但也较高。② 自相关系数在0.6-0.8之间的地区,面积占全国总面积的5.09%,人口占全国总人口的30.07%。表现也较强的正空间自相关,是仅次于一类地区的人口聚集区,包括华北平原、黄淮地区、东南沿海地区、四川盆地、汉中盆地、江汉平原、太湖平原和湘株潭地区等,这些区域中内部相似性也较大。③自相关系数在0.2-0.6之间的地区,面积占全国总面积的54.22%,人口占全国总人口的22.05%。表现出弱的正空间自相关,也就是人口密度近似的区域有较弱的“相互吸引”。包括两种地区:一是人口密度普遍较低的西部地区包括西藏、新疆、甘肃、内蒙等省区,人口密度低的区域表现也“吸引”趋向;二是人口密度高低错落,以高值区
占相对优势的区域,包括山东半岛、四川盆地外围地区等。④自相关系数在0-0.2之间的地区,面积占全国总面积的37.71%,人口占全国总人口的34.95%。人口密度错落分布,既不表现“吸引”集聚的趋势,也不表现“排斥”分散的趋向。⑤自相关系数小于0的地区,面积占全国总面积的2.75%,人口占全国总人口的
7.47%。这类地区又分三种情况,一是西部人口集中的突出地区包括一些区域中心(如乌鲁木齐、呼和浩特市等)和工矿业城市(如攀枝花、石河子等);二是处于我国地势第一阶梯向第二阶梯过度的地区,这些地区人口密度本身不高,但他们正好处于人口低密度地区向高密度过度的地带,包括云南、四川、甘肃、内藏、黑龙江等省区的部分县(市);三是处于人口集中分布区中的低值区,包括西南云贵高原、西北秦岭附近和东南山地丘陵地带的一些县(市),这些区域中内部差异性较大。
参考文献:
1、祝卓,人口地理学[M],北京:中国人民大学出版社,1990.
2、邬伦等,地理信息系统-原理、方法和应用[M],北京:科学出版社,2001.
3、郭仁忠,空间分析[M],武汉:武汉测绘科技大学出版社,2000.
4、郝虹生等,人口分析与市场研究[M],北京:中国人民大学出版社,1996.
5、朱传耿等,中国流动人口的影响要素与空间分布[J],地理学报,2001.5.
中国人口空间分布分析
潘景梅
摘要:利用2000年人口普查信息,介绍了在人口地理信息系统中,通过三维模型显示,罗伦斯曲线,人口重心和人口潜力等方法,分析中国人口分布的特征。在此基础上,用空间相关方法对人口分布的现象进行分析,揭示了其空间地理分布的内在联系。
关键词:人口分布;空间自相关;人口潜力;人口重心
人口信息是重要的国情信息,它对行政管理、人口研究、了解市场供求、制订社会和经济发展计划等都具有重要意义。人口普查是在国家统一规定的时间内,按照统一的方法、统一的项目、统一的普查表格和统一的标准时间,对全国人口普遍地、逐户逐人进行的调查登记。通过这种普查的调查登记,查清全国人口的数量、结构和分布情况;同时,还查清这些人口的社会、经济和文化特征。这些信息的深层次开发和应用将提高我国政府行政管理和决策的科学水平。
在一般的地理信息系统中,通常表现像人口等一些社会经济信息的方法是利用其专题地图表示功能,用质底法普染颜色或以饼图、柱状图等比例符号法表示人口的地理分布。在人口地理信息系统中,如何结合人口地理分布的特征和地理信息系统强大的数据处理和可视化功能,更形象地反映人口的空间分布现象,用可视化技术挖掘人口空间分布的内涵,是用地理信息系统展示人口普查结果的重要研究内容。使用人口分布的三维模型、罗伦斯曲线、人口重心和人口潜力等方法,结合传统的人口专题地图表示方
法,能更好地反映人口分布的特征。
1、人口分布三维模型
数字地形模型是地形表面形态
属性信息的数字表达,是带有空间位
置特征和地形属性特征的数字描述,
数字地形模型中的地形属性为高程
时称为数字高程模型。高程是地理空
间中的第三维坐标,应用产生和显示
数字高程模型的数学方法,用人口信
息作为第三维坐标,可生成人口信息
的三维立体模型。
2、罗伦斯曲线
罗伦斯曲线也叫频率累积曲线,它最早是在经济学中用来测度财富分配差异的工具,是美国经济学家罗伦斯提出的一种关于研究工业集中化的统计方法。我们将它用在人口地理信息系统中,用来分析人口分布的格局。制作人口罗伦斯曲线,需先确定区域等级,求出各区域某一指标(如面积)所占总量的百分比,再将百分比数由低向高累加,得到一个累积百分比等列Y1,Y2,Y3„„Yn,再求出
相对于这一指标累积序列的另一指标(如
人口)百分比的累积百分比X1,X2,X3„„
Xn,将每对X,Y值绘到坐标图上,各点
的连线即得到所需主题的罗伦斯曲线。坐
标轴的对角线表示沿两种分布之间是完
全均衡的,有相同的百分比和累积百分
比。曲线到对角线的离差就是两种分布的
差异性测度。如果分布是均衡的,则罗伦
斯曲线与对角线重合。图2是地市级行政
区域总人口和土地面积两指标的罗伦斯
曲线。从曲线上可以看出,我国人口的分
布具有很强的不均衡性。9o% 以上的人
口集中在占土地面积50% 的行政区域中。
3、人口重心
重心这个概念在物理学是指一个物件各部分所受重力产生合力的作用点。人口重心是假设人口所在区域为一同质的平面,而每一个人都是平面上的一个质点,具有相同的重量,则重心应为区域中距离的平方和最小的一点,即一定空间平面上力矩达到平衡的一点。计算方法为:
其中X,Y分别为人口重心的横坐标和纵坐标,x,y分别为把这一地域划分为无限小的各区域的位置,dp为相应的人口数。在实际应用中,为便于计算,通常使用如下计算方法:
其中:X,Y分别为人口重心的横坐标和纵坐标,xi,yi
分别为各小区域中心点的坐标,Pi为相应区域的人口数。
显然人口重心位置取决于人口分布状态,如果人口分布是均匀的,重心则应处于该区域的几何重心,偏移均衡状态的人口分布则将导致人口重心旁移。在人口地理信息系统中运用人口重心分析的意义在于:从人口重心在一段历史时期的移动轨迹中,可以看出人口分布的变动情况和变动速度。
图3为从1953年至2000年中国人口重心的变动情况,表1为相应的人口重心移动的速度。从中可以看出:
1)建国以来,我国的人口重心基
本在河南省南部或与其相邻的湖
北省北部区域,清楚地显示出我
国人口分布从总体上偏向东南的
特点;2)我国的人口重心是在不
断移动中,其移动的轨迹反映了
国家人口分布的格局的变动,而
这种变动则与国家的政治、经济
重心的转移有密切的关系。1953
年至1964年人口重心向东偏北
移动,原因在于这一时期我国的
建设重点主要在东北、华北地区,南方基本上没有大规模的建设,西南处于开发准备阶段,东北、京、津与华北的人口增长也快于南方;1964 年至1982年人口重心又有向西偏南逆转的趋势,原因是1964 年后西南和西北陕、甘两省为“三线” 建设的重点地区,有大批的建设者迁入,人口增长快于其他区域;1982年至1990年,我国处于改革开放的第一阶段,随着计划生育这一基本国策的实施,东南各省的人口出生率低于西北各省的人口出生率,同时,这一时期,虽然南方经济发展迅速,由于受户籍制度的制约,人口向南方流动也受到较大的制约;1990年至2000年,我国改革开放进入第二阶段,东南各省经济高速发展,与西北差异进一不加大,东南各省吸引大量的流动人口,使人口重心向南移动。3)从人口重心移动的速度分析,1953年至1964年的建国初期和1982年至1990年的改革开放初期,移动速度明显快于其他时期(如表1所示),这也与我国经济建设在这两个时期进行的重大战略调整相吻合。
3、人口潜力
潜力一词同重心一样都是从物理学借用的概念。其意义是:任意两个物体之间都存在引力,距离越近,引力越强。同样,人口间也存在着相互联系和相互作用,作用强度与距离成反比。因此,在区域的每一点都存在一个人口潜力,这是区内所有人与这个点的距离的反商的和。在实际计算中,显然应该用面代替点,用人口数取代单个人。计算方法为:
其中:Wa为人口潜力值,Pi为i点的人口数,Di为i点距欲计算人口潜力a点的距离。
人口潜力受人口分布状况的影响,
如果分布极端均匀,则区域内任何
一点的人口潜力都是一样的;反
之,人口愈稠密的点,人口潜力越
大。同时,应用上式进行计算时,
没有必要计算区域内每一点的人
口潜力值。通常的做法是:选取若
干控制点计算人口潜力值,再内插
形成人口潜力等值线。图4为中国
人口潜力等值线图(缺台湾省数
据),从该图可清晰地反映中国人
口分布的态势。
4、人口分布空间自相关分析
以上通过不同的数据可视化技术,可清晰地反映隐藏在大量人口信息中的人口分布特征,但尚不能说明人口空间分布差异性的内在联系,无法揭示人口在不同地区之间的相似性。传统的数量统计模型要么只注重数值之间的相关性,如一元相关分析和多元相关分析等,要么只注重二维空间上的联系,如地理信息系统中的空间关系和空间叠加分析等。要科学地揭示人口现象空间联系的空间统计模型应该二者兼顾,在分析空间关系的基础上进行数值的相关分析。空间自相关模型Moran I和Local Moran I能很好地解决这一问题。
1)空间自相关模型
地理空间上的变量区别于数学变量的显著特征在于其在空间分布上的相关性,它们既具随机性,又有规律性。只要变量在空间上表现出一定的规律性,那么它就是自相关的。空间自相关是指同一个变量在不同空间位置上的相关性。它也是空间域中的值聚集程度的一种量度。
全局空间自相关分析模型(Moran I)
其中:Xi,Xj分别为位置i和位置j的人口数;S2=1/n∑(Xi-X)2;Wij表示空间权重矩阵的任一元素,其目的是定义空间对象的相互邻接关系,便于把人口地理信息系统中的有关人口数据放到所研究的地理空间上来对比分析。该矩阵表示如下:
上述权重矩阵的相邻规则和距离规则分别为:
式中i=1,2,⋯ ,n;j=1,2,⋯ ,m;m=n或者m≠n。
局地空间自相关分析模型(Local Moran I)
每一个观测值I的局地Moran统计量计算如下:
其中:Zi和Zj为观测值的标准化形式。
2) 空间自相关分析结果
利用Moran I对全国人口进行全局空间相关性分析,采用随机条件下近似正态分布假设的标准差对指标进行标准
化,得结果3.69。以正态分布90%
置信区间双侧检验阈值1.65为界
限,判断空间自相关是否显著。
可见其值大于1.65,人口分布具
有显著的空间自相关,从而表明
其具有良好的空间结构。中国人
口在空间上的分布具有一定的相
关性,不是随机分布的,人口分
布在地理空间上存在内在联系,
具有一定的规律性。以人口密度
为观测值,再由局地空间自相关
分析,得出中国人口分布局地空
间自相关结果,如图5所示。
从图上可以看出:① 自相关系数大于0.8的地区总面积占全国的0.23% ,人口占全国总人口的5.46% 。表现出高度的空间自相关,是我国人口最为集中的地区,主要包括包括京津地区、长江三角洲和珠江三角洲地区,西安、成都等特大城市。其内部人口密度普遍很高,周围地区虽有差异但也较高。② 自相关系数在0.6-0.8之间的地区,面积占全国总面积的5.09%,人口占全国总人口的30.07%。表现也较强的正空间自相关,是仅次于一类地区的人口聚集区,包括华北平原、黄淮地区、东南沿海地区、四川盆地、汉中盆地、江汉平原、太湖平原和湘株潭地区等,这些区域中内部相似性也较大。③自相关系数在0.2-0.6之间的地区,面积占全国总面积的54.22%,人口占全国总人口的22.05%。表现出弱的正空间自相关,也就是人口密度近似的区域有较弱的“相互吸引”。包括两种地区:一是人口密度普遍较低的西部地区包括西藏、新疆、甘肃、内蒙等省区,人口密度低的区域表现也“吸引”趋向;二是人口密度高低错落,以高值区
占相对优势的区域,包括山东半岛、四川盆地外围地区等。④自相关系数在0-0.2之间的地区,面积占全国总面积的37.71%,人口占全国总人口的34.95%。人口密度错落分布,既不表现“吸引”集聚的趋势,也不表现“排斥”分散的趋向。⑤自相关系数小于0的地区,面积占全国总面积的2.75%,人口占全国总人口的
7.47%。这类地区又分三种情况,一是西部人口集中的突出地区包括一些区域中心(如乌鲁木齐、呼和浩特市等)和工矿业城市(如攀枝花、石河子等);二是处于我国地势第一阶梯向第二阶梯过度的地区,这些地区人口密度本身不高,但他们正好处于人口低密度地区向高密度过度的地带,包括云南、四川、甘肃、内藏、黑龙江等省区的部分县(市);三是处于人口集中分布区中的低值区,包括西南云贵高原、西北秦岭附近和东南山地丘陵地带的一些县(市),这些区域中内部差异性较大。
参考文献:
1、祝卓,人口地理学[M],北京:中国人民大学出版社,1990.
2、邬伦等,地理信息系统-原理、方法和应用[M],北京:科学出版社,2001.
3、郭仁忠,空间分析[M],武汉:武汉测绘科技大学出版社,2000.
4、郝虹生等,人口分析与市场研究[M],北京:中国人民大学出版社,1996.
5、朱传耿等,中国流动人口的影响要素与空间分布[J],地理学报,2001.5.