目 录
0、引言 . ........................................... 3 1、问题的提出 . ..................................... 4 2、模型选择 . ....................................... 4 2、1主成分分析 ................................. 4 2、2聚类分析 ................................... 6 3、工业污染和经济发展协调水平建模 . ................. 7 3、1数据的选取 ................................. 7 3、2污染因子的提取 ............................. 8 3、3聚类分析模型的求解及分析 .................. 10 4、小结 . .......................................... 12 参考文献 . ......................................... 13
我国工业污染与经济发展协调水平研究
李金龙
南京信息工程大学统计系 210044
摘要:人类社会与经济持续发展的同时是环境污染的日益加重,而其中工业的污染占据了相当大的比例,
占到了70%。本文选取全国各地区2007年中工业污染的相关数据,探讨中国工业与环境约束的关系。首先进行主成分分析,得到污染因子,然后结合各地区2007年的人均GDP ,再做聚类分析,分析区域工业污染和经济发展的协调水平,最后给相关地区提出建设性的意见。 关键字:工业污染 人均GDP 主成分分析 聚类分析
0、引言
正如《人类环境宣言》所表述的那样:“现在已达到历史上这样一个时刻:我们在决定在世界各地的任何行动的时候,必须更加审慎地考虑它们对环境产生的后果。由于无知或不关心,我们可能给我们的生活和幸福所依靠的地球环境造成巨大的无法挽回的损害。反之,有了比较充分的知识和采取比较明智的行动,我们就可能使我们自己和我们的后代在一个比较符合人类需要和希望的环境中过着较好的生活。” 从因果关系来推理,并不是环境对社会产生了问题,而是人类社会自身由于不了解如何与环境和谐共处、人类对其自身与自然关系的片面理解和一意孤行而使环境产生了问题。如果人类对现行的生产和生活方式以及消费模式不作出重大改变,人类赖以生存的环境将会继续恶化而不可持续发展。
改革开放以来我国经济经历了一个持续的高速增长阶段,然而快速的经济增长不可避免地加剧了对资源消耗、环境保护的压力,生态环境恶化与经济发展之间的两难冲突已经日益受到关注。事实上,正如大多数发展中国家及新兴工业化国家的发展实践所表明的,环境恶化、资源耗竭是经济起飞阶段所面临的重要难题;一方面由于对自然资源的开采利用、工业污染物排放的不断增加,经济增长导致了环境质量下降的负面效应;另一方面资源的可耗竭性、环境退化反过来也抑制了经济的长期持续增长。
针对经济的发展和环境之间的关系,国内外很多学者进行了大量研究。早在20世纪70年代初期著名的罗马俱乐部就已提出了“增长极限说”,[1]即认为经济增长受可利用自然资源的制约而不可长期持续,因而为了达到保护环境资源的目的必须人为地降低经济增长速度。1992年,美国经济学家Grossman 和Krueger [2]对此提出了环境库兹涅茨曲线(environment Kuznets curve,EKC )的假设。该假设试图说明,如果没有一定的环境政策干预,一个国家的整体环境质量或污染水平是随着经济增长和经济实力的积累呈先恶化后改善的趋势。在国内,马树才和李国柱[3](2006)通过对我国经济增长与环境污染之间关系的EKC 研究表明,我国的环境污染是不会随经济增长而自动改善的。吴玉萍等选取北京数据建立经济增长与环境污染水平计量模型,发现了显著的倒U 形曲线特征,而且比发达国家
[4]
更早地达到了转折点,认为北京施行了比较有效的环境政策。沈满洪[5]等用浙江省经济与环境数据得到各类指标的N 形曲线,认为我国到20世纪90年代中后期EKC 研究达到鼎盛。
1、问题的提出
对于那些国内的研究,虽然得到了我国整体上或个别地区的经济发展和环境污染的关系,但由于中国各地区的发展不平衡,并不能因此说明其他地区同样存在这样的关系,对于各地区制定相应的经济发展策略作用不大。
而本文旨在对全国各地区的经济发展和环境污染状况进行研究,得出相应的关系,对我国各地区制定更有效的环境经济政策十分有益。在数据方面,经济的相应指标是2007我国各地区的人均GDP ,环境方面则选择的是各地区的工业污染的数据,包括工业废水、工业固体排放物和工业废气三个方面。而之所以选择拿工业污染和经济的发展做比较,是因为工业增长是人类社会和技术进步的重要标志,同时工业也是制造环境污染的重要力量,自然界中70%~80%的污染物来自工业企业。据我国环保总局估计,工业污染占全国污染总量最高的时候达70%,其中包括70%的有机水体污染,72%的二氧化硫排放量,75%的烟尘。烟尘是空气悬浮颗粒物的主要成分,在重庆、北京、上海和沈阳四个城市中,每年有很多人由于颗粒物污染而致病甚至致死[6],工业污染造成的环境污染对人体健康及经济活动已造成严重的危害。
本文主要采用的是多元统计分析方法中的主成分分析和聚类分析。首先对工业环境污染中的工业废水、工业固体排放物和工业废气三个变量运用主成分分析方法,得到一个新的污染因子,以此来反映污染的情况。然后将新的污染因子和各地区的人均GDP 做比较,做聚类分析,得出一张亲疏关系谱图,然后结合这张分类图和相应的数据,分析出各地区的环境和经济发展状况,对于我国各地区做出正确的环境经济发展方针能提供一定得帮助。
2、模型选择
2、1主成分分析
主成分分析法是一种常用的多元统计分析方法,是一种化繁为简,将指标尽可能压缩的降维技术。该方法通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的先行组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下,起到降维与简化问题的作用。 步骤一,输入样本观测值:
X (x ij ) nxp
;
步骤二,计算各个指标的样本均值和样本标准差:
X j =
X ij
1
n
ij
X ∑n
i =1
, S j =
j =1, 2,```,P
步骤三,对标准化,计算样本相关阵: Y ij =
X ij -X S j
j
, i =1, 2```,P
令
Y =(Yij )nxp
得标准化数据阵
r ij =
=
Y Y ∑n -1
ij
i =1
1
n
ik
∙
X ik -X k
S k
1n -1
n
∑
i =1
X ij -X j
S j
r jj =1, r ik =r ki ,
由于
⎛r 21⎫
⎪ ⎪ r r ⎪
p , p -1⎭⎝p 1
即R 为对称阵,对角线上元素全为1。故只需计算
步骤四,求R 的特征之际特征向量。
若能通过正交换Q ,使得 ⎛λ1 `
Q RQ =
⎝
⎫⎪⎪λP ⎪⎭
则
λ1
,
λ2
,
λP
即为R 的P 个特征值。
⎛l ij
l j =
l ⎝pj
⎫⎪
⎪, j =1, 2, , p , ⎪λ⎭即为j 所对
不妨设
λ1≥λ2≥ ≥λP
〉0,则Q 的各列
应得正则化特征向量。 步骤五,建立主成分。
k
j
p
ij
k
∑λ/∑r
按累计方差贡献率
j =1
j =1
=
∑λ
j =1
j
/p 85%
(本文中选择90%)的 准则,
确定K ,从而建立前K 个主成分:
Z j =l j Z =l 1j Y 1+ +L pj Y p , j =1, , k
其中
Y 1, , Y p
为标准化指标变量。
步骤六,计算前K 个主成分的样本值。
p
Z ij =
∑Y
i =1
it ij
l
i =1, 2, , n , j =1, 2, , k
(Z ij ) nxp
从而可得到新指标(主成分)样本值便可将问题简化。
以之代替原样本值
(X ij ) nxp
作统计分析,
2、2聚类分析
一般研究事物分类问题的时候,如果我们事先不知道总体到底有几种类型无从知晓,则要想知道观测到得个体的具体分类情况,这时候我们就需要用到聚类分析。 基本思想:
首先定义能度量的样品(或变量)间的相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成以个由小到大的分类系统;最后根据整个分类系统画出一幅分群图,称之为亲疏关系谱图。 聚类统计量:
在对样品(或变量)进行分类时,样品(或变量)之间的相似性是由距离、匹配系数和相似系数三种相似性度量的。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:
1. 定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。
2. 定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为: ⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一 等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。
⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例 如性别分为男、女,职业分为工人、教师、干部、农民等。
很明显本文中的变量是属于定量变量的,而描述具有这类变量的样品间的亲疏程度我们最常用的是距离
本文主要是运用系统聚类法中的类平均法。首先将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并成一类。
设d ij 表示样品i 与样品j 之间的距离,G 1, G 2, 表示类,D KL 表示G K 与G L 的距离。把类与类之间的距离定义为所有样品对之间的平均距离,即定义G K 和G L 之间的距离为
D KL =
1n K n L
∑d
ij
i ∈G K , j ∈G L
其中n K 和n L 分别为类G K 和G L 的样品个数,d ij 为 G K 中样品i 与G L 中样品j 之间距离. 用METHOD=AVE 指示SAS 执行
当某类G K 与G L 合并成一个新类G M ,计算G M 与任一类G J 的距离,其递推公式为 D MJ =
1n M n J
∑d
i ∈G M , j ∈G
ij
j
=
1n M n J
(
∑d
ij
+
∑d
ij
)
i ∈G K , j ∈G J i ∈G L , j ∈G J
3、工业污染和经济发展协调水平建模
3、1数据的选取
作为城市污染主要创造源,工业污染主要由工业废水、工业固体排放物和工业废气三个部分组成。这里我们选取《中国统计年鉴2008》中各地区的工业污染的情况的数据,以这三点做为变量作主成分分析:
表1:2008年各地区的工业经济和污染相关数据
(来自中国统计年鉴2008)
3、2污染因子的提取
在这个表中,我们设工业废水排放总量、工业固体废物排放总量、工业废气排放总量分别为x 1、x2、x3。x 1、x2、x3为模型中的三个变量,应用数学分析软件SAS 对x1、x2、x3做主成分分析,得到下面特征表:
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 2 3
5355917580 5271824839 0.984 0.984
84092741 81039947 0.0154 0.9994 3052794 0.0006 1.0
上表中1、2、3表示三个主成分,第五列给出的是方差贡献率累计,由于第一个主成分的方差贡献率累计为0.984,超过了0.90,因此我们只要取1个主成分就可以了,即用一个主成分来代替原来的三个变量。 再有特征向量表:
Eigenvectors
Prin1 Prin2 Prin3
X1 0.996602 -.080613 0.016915 X2 0.020109 0.437271 0.899105
X3 0.079876 0.895710 -.437406
得到我们所需要的那个即第一个主成分为:
f=0.996602x1+0.020109x2+0.079876x3
在这个主成分中对应x 1、x2、x2的分量值都是正的,f 的值都随着x1、x2、x3的增长而增长,其中x1的系数变化非常大有0.996602,反映了这个主成分主要表示的是工业环境污染中的工业废水污染的程度。我们把这个f 定义为新的环境污染因子,用他可以很好的反应环境污染的程度。
对于每个地区我们利用EXCEL 把相应的f 都算出来,并且合并到前面表中得到一个新表
表2:2008年各地区的工业环境污染因子
虽然改革开放之后我国的经济水平有了巨大的提高,但从国内来看,各地区的经济发展水平还是不一样的。下面我们就利用数学软件SAS 对全国各地区做个聚类分析,根据他们的环境污染和经济发展状况做个分类。
3、3聚类分析模型的求解及分析
我们运用表2中的地区w 、人均地区生产总值f 、环境污染因子y 的全部数据做聚类分析。
在用SAS 软件做聚类分析之前我们根据表2中的数据,可以先把北京、天津、上海这三个地区归为一类,在中国一共有四大直辖市,北京、上海、天津、重庆,其中前三个都是中国老牌的直辖市,都已经有了超过50年的历史,这三个地区的工业发展水平要远高于全国其他的地方,而重庆是1997年才增设为直辖市的,其发展要远落后于前三个地区。从历年的各地区人均国内生产总值来看,北京、上海、天津的人均国内生产总值都要远高于全国平均水平,同时他们的工业环境污染控制的很好 。而表中的数据也很好的反应了这个,三个地区的工业环境污染因子分别为9532.21162、21832.79234、48207.32054,相比于其他地方算是比较小的,而他们的人均GDP 为58204、46122、66367都是要远高于全国其他地方的,我们把这三个地方归为一类。
然后我们再把剩下的28个地区的人均GDP 和环境污染因子的数据用SAS 软件做下聚类分析,我们得到一张亲疏关系图
图1:聚类分析亲疏关系图
通过这张亲疏关系图,可以明显的把剩下的地区分为三大类:
第一类:河北、河南、福建、四川、辽宁、湖北、湖南、安徽、江西、重庆。
第二类:山西、吉林、黑龙江、云南、陕西、内蒙古、海南、青海、西藏、贵州、甘肃、
宁夏、新疆。
第三类:江苏、广东、浙江、山东、广西。
第四类:北京、天津、上海。
我们运用数学软件画图,以各地区人均GDP(y)为X 轴、工业环境污染因子(f)为Y 轴作
一个整体的散点分布图,如下:
图2;分地区人均GDP--工业环境污染因子散点分布图
工业污染是经济发展的产物。经济发展的同时,工业环境污染的问题也日益加重,但由
于各地区的经济发展水平和在发展经济的同时对于工业污染所采取的措施力度的不一样,出现了不同的发展现象,如果我们把各地区经济水平(按人均GDP )、工业环境污染因子分别按照低、高、很高和轻、严重、很严重来进行区分。那么再结合前面的环境污染因子数据,通过图2分地区人均GDP--工业环境污染因子散点分布图,我们可以分析出各分类地区的经济水平和工业污染状况,得到的结果与聚类结果非常一致,具体分为四类:
第一类:经济发展水平低,工业污染严重。这些地区的经济水平不是很高,却有着严重的工业污染问题,这应该是最不理想的经济发展模式了。
第二类:经济发展水平低,工业污染轻。在这类的有13个省,它们大多在中国的西部,属于欠发达地区,这些地方的科技水平相对比较落后,经济发展缺少工业的大力支持,也正好说明了它们的工业污染情况轻的现象。
第三类:经济发展水平高,工业污染很严重。如江苏、广东、浙江、山东等这些强省是全国经济发展比较好的地方,但它们在大力发展经济的同时带来的却是很严重的工业污染问题。而这里有一个地区比较反常,就是广西省,其经济水平不高,污染却是很严重的,若增加分类,可以将其划为新的一类。广西省是所有地区中环境和经济协调水平最差的一个,应引起本地区相关部门的重视,促使其工业污染和经济发展协调发展。
第四类:经济发展水平很高,工业污染轻。他们的经济发展模式是目前最理想的,既能保持经济水平遥遥领先于全国其他的地方,同时还能有效的控制工业的污染,这些省份工业的发展经验值得其它省份研究及学习。
4、小结
从模型的四个发展模式,很明显第四类的是我们所最求的理想的发展模式,既能保持经济的高速增长,同时又能很好的控制工业的污染。当然,由于我国各地区发展的不平衡,不可能要求所有的地方都这样。像第二类的那些地区,不能因为自己工业污染现象不严重而感觉很好,要知道我们的首要任务是要发展经济,在发展经济同时不能忽略工业污染的排放,在第三类的那些地区,经济水平是上去了,但带来的却是严重工业污染问题,这同样不可取。而对于第一类当中那些经济水平低,工业污染却严重的地区,要引起足够的重视,一方面要提高自己的经济水平,另一方面要加大力度处理好工业污染所带来的一系列的问题。总之,我们是要尽可能的降低工业污染的排放,实现经济效益的最大化。
我国提倡和谐、持续的经济发展。发展经济当然是首要的任务,但是各地区的在发展经济的时候不能只注重眼前、重视当代人的利益,而忽视了工业所带来的污染、忽视了污染带来的一系列问题、忽视了后代人的发展要求。在发展经济的同时一定要采取有力的措施来处理工业污染所带来的负面影响,走上正确的科学的经济发展道路。
参考文献
[1](美)丹尼斯·米都斯 等著,李宝恒 译《增长的极限》1997-12-1
[2]Grossman Gene M, Krueger, AlanB. Environmental impacts of a North Am e r i c a n F r e e T r a d e A g r e e m e n t [ R ] .National Bureau of Economic ResearchWorking Paper, NBER, Cambridge MA,1991
[3]马树才 李国柱 《中国经济增长与环境污染关系的Kuznets 曲线》辽宁大学出版社 2006
[4]吴玉萍, 董锁成, 宋键峰. 北京市经济增长与环境污染水平计量模型研究[J].地理研究,2003,21(2):239~245
[5]沈满洪 许云华 《一种新型的环境库兹涅茨曲线———浙江省工业化进程中经济增长与环境变迁的关系研究》. 浙江社会科学.2000.4.53~57
[6]世界银行. 绿色工业——社区、市场和政府的新职能[M].中国财政经济出版社,译. 北京:中国财政经济出版社,2001.
[7]中国统计年鉴2008 http;//bbs.jjxj.org/统计年鉴/中国统计年鉴2008/index.html
[8]吴诚鸥 秦伟良 《近代实用多元统计分析》气象出版社
[9]黄心韵 《我国社会经济发展与资源环境协调水平研究》现代商贸工业 2008年第10期
[10]齐 力 梅林海 《工业经济增长与环境污染的关系研究》暨南大学出版社 2008
[11]李达《经济增长与环境质量-基于长三角的实证研究》2007
China's industrial pollution and economic development level
of coordination
Jinlong li
Statistics Department, College of Math and Physics, Nanjing University of Information Science &
Technology, Nanjing,210044
Abstract:
Environmental pollution increased day by day when human social and economic sustainable development, and industrial pollution accounted for 70%. In this paper, we select industrial pollution data about areas of the country's 2007, discuss the relationship between China's economic and industrial environment. First, we get a new pollution factor by the method of principal components analysis, then we make use of GDP per capita to do cluster analysis, analyze the development trend about regional environmental and economic development, finally, we put forward constructive to Related areas.
Key words: Industrial pollution; GDP per capita; Principal Component Analysis; Cluster Analysis
目 录
0、引言 . ........................................... 3 1、问题的提出 . ..................................... 4 2、模型选择 . ....................................... 4 2、1主成分分析 ................................. 4 2、2聚类分析 ................................... 6 3、工业污染和经济发展协调水平建模 . ................. 7 3、1数据的选取 ................................. 7 3、2污染因子的提取 ............................. 8 3、3聚类分析模型的求解及分析 .................. 10 4、小结 . .......................................... 12 参考文献 . ......................................... 13
我国工业污染与经济发展协调水平研究
李金龙
南京信息工程大学统计系 210044
摘要:人类社会与经济持续发展的同时是环境污染的日益加重,而其中工业的污染占据了相当大的比例,
占到了70%。本文选取全国各地区2007年中工业污染的相关数据,探讨中国工业与环境约束的关系。首先进行主成分分析,得到污染因子,然后结合各地区2007年的人均GDP ,再做聚类分析,分析区域工业污染和经济发展的协调水平,最后给相关地区提出建设性的意见。 关键字:工业污染 人均GDP 主成分分析 聚类分析
0、引言
正如《人类环境宣言》所表述的那样:“现在已达到历史上这样一个时刻:我们在决定在世界各地的任何行动的时候,必须更加审慎地考虑它们对环境产生的后果。由于无知或不关心,我们可能给我们的生活和幸福所依靠的地球环境造成巨大的无法挽回的损害。反之,有了比较充分的知识和采取比较明智的行动,我们就可能使我们自己和我们的后代在一个比较符合人类需要和希望的环境中过着较好的生活。” 从因果关系来推理,并不是环境对社会产生了问题,而是人类社会自身由于不了解如何与环境和谐共处、人类对其自身与自然关系的片面理解和一意孤行而使环境产生了问题。如果人类对现行的生产和生活方式以及消费模式不作出重大改变,人类赖以生存的环境将会继续恶化而不可持续发展。
改革开放以来我国经济经历了一个持续的高速增长阶段,然而快速的经济增长不可避免地加剧了对资源消耗、环境保护的压力,生态环境恶化与经济发展之间的两难冲突已经日益受到关注。事实上,正如大多数发展中国家及新兴工业化国家的发展实践所表明的,环境恶化、资源耗竭是经济起飞阶段所面临的重要难题;一方面由于对自然资源的开采利用、工业污染物排放的不断增加,经济增长导致了环境质量下降的负面效应;另一方面资源的可耗竭性、环境退化反过来也抑制了经济的长期持续增长。
针对经济的发展和环境之间的关系,国内外很多学者进行了大量研究。早在20世纪70年代初期著名的罗马俱乐部就已提出了“增长极限说”,[1]即认为经济增长受可利用自然资源的制约而不可长期持续,因而为了达到保护环境资源的目的必须人为地降低经济增长速度。1992年,美国经济学家Grossman 和Krueger [2]对此提出了环境库兹涅茨曲线(environment Kuznets curve,EKC )的假设。该假设试图说明,如果没有一定的环境政策干预,一个国家的整体环境质量或污染水平是随着经济增长和经济实力的积累呈先恶化后改善的趋势。在国内,马树才和李国柱[3](2006)通过对我国经济增长与环境污染之间关系的EKC 研究表明,我国的环境污染是不会随经济增长而自动改善的。吴玉萍等选取北京数据建立经济增长与环境污染水平计量模型,发现了显著的倒U 形曲线特征,而且比发达国家
[4]
更早地达到了转折点,认为北京施行了比较有效的环境政策。沈满洪[5]等用浙江省经济与环境数据得到各类指标的N 形曲线,认为我国到20世纪90年代中后期EKC 研究达到鼎盛。
1、问题的提出
对于那些国内的研究,虽然得到了我国整体上或个别地区的经济发展和环境污染的关系,但由于中国各地区的发展不平衡,并不能因此说明其他地区同样存在这样的关系,对于各地区制定相应的经济发展策略作用不大。
而本文旨在对全国各地区的经济发展和环境污染状况进行研究,得出相应的关系,对我国各地区制定更有效的环境经济政策十分有益。在数据方面,经济的相应指标是2007我国各地区的人均GDP ,环境方面则选择的是各地区的工业污染的数据,包括工业废水、工业固体排放物和工业废气三个方面。而之所以选择拿工业污染和经济的发展做比较,是因为工业增长是人类社会和技术进步的重要标志,同时工业也是制造环境污染的重要力量,自然界中70%~80%的污染物来自工业企业。据我国环保总局估计,工业污染占全国污染总量最高的时候达70%,其中包括70%的有机水体污染,72%的二氧化硫排放量,75%的烟尘。烟尘是空气悬浮颗粒物的主要成分,在重庆、北京、上海和沈阳四个城市中,每年有很多人由于颗粒物污染而致病甚至致死[6],工业污染造成的环境污染对人体健康及经济活动已造成严重的危害。
本文主要采用的是多元统计分析方法中的主成分分析和聚类分析。首先对工业环境污染中的工业废水、工业固体排放物和工业废气三个变量运用主成分分析方法,得到一个新的污染因子,以此来反映污染的情况。然后将新的污染因子和各地区的人均GDP 做比较,做聚类分析,得出一张亲疏关系谱图,然后结合这张分类图和相应的数据,分析出各地区的环境和经济发展状况,对于我国各地区做出正确的环境经济发展方针能提供一定得帮助。
2、模型选择
2、1主成分分析
主成分分析法是一种常用的多元统计分析方法,是一种化繁为简,将指标尽可能压缩的降维技术。该方法通过对原始变量相关矩阵或协方差矩阵内部结构关系的研究,利用原始变量的先行组合形成几个综合指标(主成分),在保留原始变量主要信息的前提下,起到降维与简化问题的作用。 步骤一,输入样本观测值:
X (x ij ) nxp
;
步骤二,计算各个指标的样本均值和样本标准差:
X j =
X ij
1
n
ij
X ∑n
i =1
, S j =
j =1, 2,```,P
步骤三,对标准化,计算样本相关阵: Y ij =
X ij -X S j
j
, i =1, 2```,P
令
Y =(Yij )nxp
得标准化数据阵
r ij =
=
Y Y ∑n -1
ij
i =1
1
n
ik
∙
X ik -X k
S k
1n -1
n
∑
i =1
X ij -X j
S j
r jj =1, r ik =r ki ,
由于
⎛r 21⎫
⎪ ⎪ r r ⎪
p , p -1⎭⎝p 1
即R 为对称阵,对角线上元素全为1。故只需计算
步骤四,求R 的特征之际特征向量。
若能通过正交换Q ,使得 ⎛λ1 `
Q RQ =
⎝
⎫⎪⎪λP ⎪⎭
则
λ1
,
λ2
,
λP
即为R 的P 个特征值。
⎛l ij
l j =
l ⎝pj
⎫⎪
⎪, j =1, 2, , p , ⎪λ⎭即为j 所对
不妨设
λ1≥λ2≥ ≥λP
〉0,则Q 的各列
应得正则化特征向量。 步骤五,建立主成分。
k
j
p
ij
k
∑λ/∑r
按累计方差贡献率
j =1
j =1
=
∑λ
j =1
j
/p 85%
(本文中选择90%)的 准则,
确定K ,从而建立前K 个主成分:
Z j =l j Z =l 1j Y 1+ +L pj Y p , j =1, , k
其中
Y 1, , Y p
为标准化指标变量。
步骤六,计算前K 个主成分的样本值。
p
Z ij =
∑Y
i =1
it ij
l
i =1, 2, , n , j =1, 2, , k
(Z ij ) nxp
从而可得到新指标(主成分)样本值便可将问题简化。
以之代替原样本值
(X ij ) nxp
作统计分析,
2、2聚类分析
一般研究事物分类问题的时候,如果我们事先不知道总体到底有几种类型无从知晓,则要想知道观测到得个体的具体分类情况,这时候我们就需要用到聚类分析。 基本思想:
首先定义能度量的样品(或变量)间的相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成以个由小到大的分类系统;最后根据整个分类系统画出一幅分群图,称之为亲疏关系谱图。 聚类统计量:
在对样品(或变量)进行分类时,样品(或变量)之间的相似性是由距离、匹配系数和相似系数三种相似性度量的。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:
1. 定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。
2. 定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为: ⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一 等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。
⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例 如性别分为男、女,职业分为工人、教师、干部、农民等。
很明显本文中的变量是属于定量变量的,而描述具有这类变量的样品间的亲疏程度我们最常用的是距离
本文主要是运用系统聚类法中的类平均法。首先将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并成一类。
设d ij 表示样品i 与样品j 之间的距离,G 1, G 2, 表示类,D KL 表示G K 与G L 的距离。把类与类之间的距离定义为所有样品对之间的平均距离,即定义G K 和G L 之间的距离为
D KL =
1n K n L
∑d
ij
i ∈G K , j ∈G L
其中n K 和n L 分别为类G K 和G L 的样品个数,d ij 为 G K 中样品i 与G L 中样品j 之间距离. 用METHOD=AVE 指示SAS 执行
当某类G K 与G L 合并成一个新类G M ,计算G M 与任一类G J 的距离,其递推公式为 D MJ =
1n M n J
∑d
i ∈G M , j ∈G
ij
j
=
1n M n J
(
∑d
ij
+
∑d
ij
)
i ∈G K , j ∈G J i ∈G L , j ∈G J
3、工业污染和经济发展协调水平建模
3、1数据的选取
作为城市污染主要创造源,工业污染主要由工业废水、工业固体排放物和工业废气三个部分组成。这里我们选取《中国统计年鉴2008》中各地区的工业污染的情况的数据,以这三点做为变量作主成分分析:
表1:2008年各地区的工业经济和污染相关数据
(来自中国统计年鉴2008)
3、2污染因子的提取
在这个表中,我们设工业废水排放总量、工业固体废物排放总量、工业废气排放总量分别为x 1、x2、x3。x 1、x2、x3为模型中的三个变量,应用数学分析软件SAS 对x1、x2、x3做主成分分析,得到下面特征表:
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 2 3
5355917580 5271824839 0.984 0.984
84092741 81039947 0.0154 0.9994 3052794 0.0006 1.0
上表中1、2、3表示三个主成分,第五列给出的是方差贡献率累计,由于第一个主成分的方差贡献率累计为0.984,超过了0.90,因此我们只要取1个主成分就可以了,即用一个主成分来代替原来的三个变量。 再有特征向量表:
Eigenvectors
Prin1 Prin2 Prin3
X1 0.996602 -.080613 0.016915 X2 0.020109 0.437271 0.899105
X3 0.079876 0.895710 -.437406
得到我们所需要的那个即第一个主成分为:
f=0.996602x1+0.020109x2+0.079876x3
在这个主成分中对应x 1、x2、x2的分量值都是正的,f 的值都随着x1、x2、x3的增长而增长,其中x1的系数变化非常大有0.996602,反映了这个主成分主要表示的是工业环境污染中的工业废水污染的程度。我们把这个f 定义为新的环境污染因子,用他可以很好的反应环境污染的程度。
对于每个地区我们利用EXCEL 把相应的f 都算出来,并且合并到前面表中得到一个新表
表2:2008年各地区的工业环境污染因子
虽然改革开放之后我国的经济水平有了巨大的提高,但从国内来看,各地区的经济发展水平还是不一样的。下面我们就利用数学软件SAS 对全国各地区做个聚类分析,根据他们的环境污染和经济发展状况做个分类。
3、3聚类分析模型的求解及分析
我们运用表2中的地区w 、人均地区生产总值f 、环境污染因子y 的全部数据做聚类分析。
在用SAS 软件做聚类分析之前我们根据表2中的数据,可以先把北京、天津、上海这三个地区归为一类,在中国一共有四大直辖市,北京、上海、天津、重庆,其中前三个都是中国老牌的直辖市,都已经有了超过50年的历史,这三个地区的工业发展水平要远高于全国其他的地方,而重庆是1997年才增设为直辖市的,其发展要远落后于前三个地区。从历年的各地区人均国内生产总值来看,北京、上海、天津的人均国内生产总值都要远高于全国平均水平,同时他们的工业环境污染控制的很好 。而表中的数据也很好的反应了这个,三个地区的工业环境污染因子分别为9532.21162、21832.79234、48207.32054,相比于其他地方算是比较小的,而他们的人均GDP 为58204、46122、66367都是要远高于全国其他地方的,我们把这三个地方归为一类。
然后我们再把剩下的28个地区的人均GDP 和环境污染因子的数据用SAS 软件做下聚类分析,我们得到一张亲疏关系图
图1:聚类分析亲疏关系图
通过这张亲疏关系图,可以明显的把剩下的地区分为三大类:
第一类:河北、河南、福建、四川、辽宁、湖北、湖南、安徽、江西、重庆。
第二类:山西、吉林、黑龙江、云南、陕西、内蒙古、海南、青海、西藏、贵州、甘肃、
宁夏、新疆。
第三类:江苏、广东、浙江、山东、广西。
第四类:北京、天津、上海。
我们运用数学软件画图,以各地区人均GDP(y)为X 轴、工业环境污染因子(f)为Y 轴作
一个整体的散点分布图,如下:
图2;分地区人均GDP--工业环境污染因子散点分布图
工业污染是经济发展的产物。经济发展的同时,工业环境污染的问题也日益加重,但由
于各地区的经济发展水平和在发展经济的同时对于工业污染所采取的措施力度的不一样,出现了不同的发展现象,如果我们把各地区经济水平(按人均GDP )、工业环境污染因子分别按照低、高、很高和轻、严重、很严重来进行区分。那么再结合前面的环境污染因子数据,通过图2分地区人均GDP--工业环境污染因子散点分布图,我们可以分析出各分类地区的经济水平和工业污染状况,得到的结果与聚类结果非常一致,具体分为四类:
第一类:经济发展水平低,工业污染严重。这些地区的经济水平不是很高,却有着严重的工业污染问题,这应该是最不理想的经济发展模式了。
第二类:经济发展水平低,工业污染轻。在这类的有13个省,它们大多在中国的西部,属于欠发达地区,这些地方的科技水平相对比较落后,经济发展缺少工业的大力支持,也正好说明了它们的工业污染情况轻的现象。
第三类:经济发展水平高,工业污染很严重。如江苏、广东、浙江、山东等这些强省是全国经济发展比较好的地方,但它们在大力发展经济的同时带来的却是很严重的工业污染问题。而这里有一个地区比较反常,就是广西省,其经济水平不高,污染却是很严重的,若增加分类,可以将其划为新的一类。广西省是所有地区中环境和经济协调水平最差的一个,应引起本地区相关部门的重视,促使其工业污染和经济发展协调发展。
第四类:经济发展水平很高,工业污染轻。他们的经济发展模式是目前最理想的,既能保持经济水平遥遥领先于全国其他的地方,同时还能有效的控制工业的污染,这些省份工业的发展经验值得其它省份研究及学习。
4、小结
从模型的四个发展模式,很明显第四类的是我们所最求的理想的发展模式,既能保持经济的高速增长,同时又能很好的控制工业的污染。当然,由于我国各地区发展的不平衡,不可能要求所有的地方都这样。像第二类的那些地区,不能因为自己工业污染现象不严重而感觉很好,要知道我们的首要任务是要发展经济,在发展经济同时不能忽略工业污染的排放,在第三类的那些地区,经济水平是上去了,但带来的却是严重工业污染问题,这同样不可取。而对于第一类当中那些经济水平低,工业污染却严重的地区,要引起足够的重视,一方面要提高自己的经济水平,另一方面要加大力度处理好工业污染所带来的一系列的问题。总之,我们是要尽可能的降低工业污染的排放,实现经济效益的最大化。
我国提倡和谐、持续的经济发展。发展经济当然是首要的任务,但是各地区的在发展经济的时候不能只注重眼前、重视当代人的利益,而忽视了工业所带来的污染、忽视了污染带来的一系列问题、忽视了后代人的发展要求。在发展经济的同时一定要采取有力的措施来处理工业污染所带来的负面影响,走上正确的科学的经济发展道路。
参考文献
[1](美)丹尼斯·米都斯 等著,李宝恒 译《增长的极限》1997-12-1
[2]Grossman Gene M, Krueger, AlanB. Environmental impacts of a North Am e r i c a n F r e e T r a d e A g r e e m e n t [ R ] .National Bureau of Economic ResearchWorking Paper, NBER, Cambridge MA,1991
[3]马树才 李国柱 《中国经济增长与环境污染关系的Kuznets 曲线》辽宁大学出版社 2006
[4]吴玉萍, 董锁成, 宋键峰. 北京市经济增长与环境污染水平计量模型研究[J].地理研究,2003,21(2):239~245
[5]沈满洪 许云华 《一种新型的环境库兹涅茨曲线———浙江省工业化进程中经济增长与环境变迁的关系研究》. 浙江社会科学.2000.4.53~57
[6]世界银行. 绿色工业——社区、市场和政府的新职能[M].中国财政经济出版社,译. 北京:中国财政经济出版社,2001.
[7]中国统计年鉴2008 http;//bbs.jjxj.org/统计年鉴/中国统计年鉴2008/index.html
[8]吴诚鸥 秦伟良 《近代实用多元统计分析》气象出版社
[9]黄心韵 《我国社会经济发展与资源环境协调水平研究》现代商贸工业 2008年第10期
[10]齐 力 梅林海 《工业经济增长与环境污染的关系研究》暨南大学出版社 2008
[11]李达《经济增长与环境质量-基于长三角的实证研究》2007
China's industrial pollution and economic development level
of coordination
Jinlong li
Statistics Department, College of Math and Physics, Nanjing University of Information Science &
Technology, Nanjing,210044
Abstract:
Environmental pollution increased day by day when human social and economic sustainable development, and industrial pollution accounted for 70%. In this paper, we select industrial pollution data about areas of the country's 2007, discuss the relationship between China's economic and industrial environment. First, we get a new pollution factor by the method of principal components analysis, then we make use of GDP per capita to do cluster analysis, analyze the development trend about regional environmental and economic development, finally, we put forward constructive to Related areas.
Key words: Industrial pollution; GDP per capita; Principal Component Analysis; Cluster Analysis