201409014111-胡川-聚类分析论文

用聚类分析方法

对各地区城市交通情况进行分析

胡川

（华北科技学院基础部北京东燕郊）

摘要随着我国经济的快速发展，私家车的数量越来越多，给大家的出行带来严重的不便。所以现在公共交通工具给大家以及环境带来很大的方便。所以要现在通过对各个城市不同交通的使用程度进行整理，通过聚类分析对这些城市进行分类汇总。通过系统聚类分析通过不同的自变量将一些主要城市进行聚类。比如有公共汽、电车还有轨道类的交通工具一年的运营数量，一年之内运行的总的路程，以及一共的载客数量，总的行驶路程对交通部门和交通工具的管理部门产生很大的影响。

关键词交通工具运营数总行程客运量聚类分析

一、前言

随着经济的发展，人民生活水平的提高，道路交通情况也越来越复杂。然而各个城市发展情况不同，交通的发达情况也不同，因此对道路交通的研究就有一定的必要性。

本文拟采用聚类分析的方法对道路交通情况进行分析，把相似的东西放在一起，从而使得类别内部的“差异”尽可能小，而类别之间的“差异”尽可能大，使得交通情况相似的城市为一类，以此区分各个城市的发达程度。

二、数据的收集和整理

本文以2013年全国31个省份的客运情况为研究对象进行聚类分析，具体数据如表1（数据来源于《国家统计年鉴》）。

三、聚类分析操作步骤

进入SPSS ，打开Variable View视区定义“姓名”为字符串型的变量，“成绩”为数据型的变量，然后在Data View 视区输入原始数据。

在“Analyze ”主菜单中选择“Classify ”菜单项，然后点击“Hierarchial Cluster ”菜单进入“Hierarchial Cluster:Analysis”对话框。在输出结果进行设置：单击“Plots ”按钮，选择最后输出的图形为树形图（Dendrogram 选项）对话框；单击“Method ”按钮进入对话框，选择数值标准到Z 分数；其他选项本文一律采用默认值。设置完毕后，点击“OK ”完成操作。

四、聚类结果分析

图1

图1表示数据的有效个数，31个省份的数据均为有效数据，无缺失情况。

图2

图2表示聚类分析的树状结果图，根据上图可知，将湖南，宁夏，青海，西藏分为一类，记为C1类；内蒙古，甘肃，广西，贵州，江西，山西，云南，新疆，吉林，天津，河南，湖南，河北，安徽，黑龙江，福建，陕西，重庆为一类，记为C2类；湖北，四川，浙江，辽宁，山东，江苏为一类，记为C3

类；上海，北京，广东分别记为

C4，C5，C6；将类C1， C2，C3合并为C7；将C4和C7合并成C8；将C5和C8合并成C9；最后将C6和C9合并成C10, 这时所有的31个样品聚为一类，其过程终止。

图3

图3表示聚类分析的簇状结果图，纵坐标表示类别数，依据纵坐标的大小做横坐标轴的平行线，就可以得出相应群集数的分类情况。

表2 聚类表

这个表反映每一阶段聚类的结果，Coefficients 表示聚合系数，第二列和第三列表示聚合的类，比如第一阶段，广东和甘肃聚为一类，以此类推出不同的阶段。这样我们即可清楚地看清楚各个的分类情况。

五、结语

通过研究不同城市交通工具的使用情况，通过对运行结果的分析，得出了不同城市之间的相关系数，以及不同的分类情况，使我们的观察更加方便。

聚类最大的好处就是将不同的地区通过他们的共同点将他们再次分类，方便我们的研究。用欧式距离将其分为2到5类，发现得出广东和其他地区分为一类，位置越偏僻，城市越发达，公共交通工具的使用应该越充分，对环境和交通压力的缓解有很大的帮助。

参考文献

【1】方开泰，实用多元统计分析，上海：华东师范大学出版社，1989 【2】张尧庭，方开泰，多元统计分析引论，北京：科学出版社，1982 【3】王国梁，何晓群，多变量经济数据统计分析，西安：陕西科学

技术出版社，1993.