多元统计论文
题目:中国不同地区市政设施水平研究
作者: 刘艳艳
学院专业: 统计学院13级统计班
学号: 32013120052 指导教师: 董寒青
二〇一五年十一月
第1页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
多元统计论文................................................................................................................... 1 摘要................................................................................................................................. 2 关键词 ............................................................................................................................. 2 概述................................................................................................................................. 2 1. 指标的选择与样本的确定 .......................................................................................... 3
1.1 1.2
样本选择..................................................................................................... 3 原始数据标准化 .......................................................................................... 3
2. 聚类分析................................................................................................................... 4 3. 判别分析................................................................................................................... 4 4. 多元方差分析............................................................................................................ 7
4.1.
数据的前提性检验....................................................................................... 7
5. 主成分分析 ............................................................................................................. 10 6.市政设施建设水平与经济发展息息相关 ....................................................................... 11 7.结论 ............................................................................................................................ 12 参考文献........................................................................................................................ 13
摘要
城市市政设施作为城市正常运转的基础,是人口聚集和产业发展的重要物质载体,是城市文明和现代化的重要标志,对于研究一个国家城市化进程具有很重要的意义,目前各个国家纷纷制定合理的来加强城市市政设施水平建设。为了探究中国不同地区市政设施水平,本文基于《中国统计年鉴》“分地区城市市政设施2013年”的数据,对不同地区市政设施水平进行系统聚类分析和判别分析检验,将31个地区分为不同类别,依据分类结果研究中国城市市政设施发展状况,对不同类别之间的地区数据进行多元方差分析,以判断不同类别的地区在六项发展指标上是否存在显著性差异,然后利用主成分分析法找出影响城市市政设施建设的关键综合指标,并以此数据分析作为理论指导对加强不同地区市政设施水平建设提供有益借鉴。
关键词
城市市政设施 聚类分析 判别分析 多元方差分析 主成分分析
概述
城市市政设施作为城市正常运转的基础,是人口聚集和产业发展的重要物质载体,是城市文明和现代化的重要标志,对于研究一个国家城市化进程具有很重要的意义。我国作为最大的发展中国家,与发达国家相比,城市市政设施建设各方面还不是很完善,需要进一步的提升与改进,而中国国土面积广,各地区城市基础设施状况会有很大不同,因此,对中国地区进行分类,分别研究不同水平的城市市政设施建设,从而对不同层级城市水平进行分类指导。本文基于《中国统计年鉴》“分地区城市市政设施2013年”的数据,城市市政设施建设水平用年末实有道路长度(公里),年末实有道路面积(万平方米),城市桥梁(座),城市排水管道长度(公里),城市污水日处理能力(万立方米),城市道理照明灯(千盏)六项指标来衡量,以中国31个地区作为研究对象,先对不同地区做聚类分析,再对聚类分析后的结果作判别分析进一步检验分类结果,将31个地区分为不同类别,依据分类结果研
第2页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
究中国城市市政设施发展状况,对不同类别之间的地区数据进行多元方差分析,以判断不同类别的地区在六项发展指标上是否存在显著性差异,然后利用主成分分析法找出影响城市市政设施建设的关键综合指标,。这对于我国不同地区市政设施水平研究提供了有益的借鉴,以期为我国城市市政设施建设提供一定的理论参考。
1. 指标的选择与样本的确定 1.1 样本选择
基于中国31个地区不同城市市政设施建设水平是由城市发展的各项基本指标来决定的,也是判断不同地区能否可持续发展的根本所在,同时对于制定因地制宜的发展具有很重要的现实意义。所以在中国31个地区中,决策者选取了能反映建设水平的六项重要指标。列表如下:
注:文中指标将以a,b,c,d,e,f代替。
样本以中国统计年鉴公布的2013年31个地区城市市政设施数据为准。
1.2 原始数据标准化
为消除原始数据量纲和数量级别的差异所带来的影响,以便进行聚类分析和判别分析,我们利用spss对原始数据指标进行标准化处理。
第3页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
2. 聚类分析
应用 SPSS 软件中的 Hierarchical Cluster 过程对31个样本地区进行系统聚类分析,计算样品之间的距离采用欧氏距离的平方,通过Ward’s method进行系统聚类。得到该样本的聚类系谱图如下:
Figure 1
根据聚类系谱图,把31个地区分为4类,第一类:第21,30,26,29,24,28,8,18,
20,13,1,2,7,14,4,31,25,27,22,5,12个样本,即:北京,天津,山西,内蒙古,吉林,黑龙江,福建,江西,湖南,广西,海南,重庆,贵州,云南,,陕西,甘肃,青海,宁夏,。第二类:第12,16,3,23,17,9,6个样本。即:河北,辽宁,上海,安徽,河南,湖北,四川。第三类:第15,19,11个样本,即:浙江,山东,广东。第四类:第10个样本,即:江苏。
此分类是否正确,需要用判别分析对其结果进行检验。
3. 判别分析
典型判别函数的特征函数的特征值表Function Eigenvalue % of Variance Canonical Correlation 表3 Eigenvalues Cumulative % 1 2 1.092a .321a 77.3 22.7 77.3 100.0 .722 .493 a. First 2 canonical discriminant functions were used in the analysis. 第4页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
表4所示是典型判别函数的特征值表,只有两个判别函数,所以特征值只有2个。函数1的特征值为1.092,函数2的特征值为0.321,判别函数的特征值越大,说明函数越具有区别判断力。函数1方差的累积贡献率为77.3%,典型相关系数为0.722,而函数2方差的贡献率仅为22.7%,典型相关系数为0.493。由此,说明函数1的区别判断力比函数2的强,函数1更具有区别判断力。
Wilks' Lambda检验结果 表4 Wilks' Lambda Test of Function(s) 1 through 2 2 Wilks' Lambda .362 .757 Chi-square 25.923 7.104 df 12 5 Sig. .011 .213
上表中判别函数1和判别函数2的Wilks’Lambda值为0.362,判别函数2的Wilks’Lambda值为0.757。“1到2”表示两个判别函数的平均数在三个类间的差异情况,P值=0.011<0.05表示差异达到显著水平,“2”表示在排除了第一个判别函数后,第二个判别函数在三个组别间的差异情况,P值=0.213>0.05表示判别函数2未达到显著水平。
Fisher判别分析 表5 Classification Function Coefficients 1 Zscore(VAR00002) Zscore(VAR00003) Zscore(VAR00004) Zscore(VAR00005) Zscore(VAR00006) Zscore(VAR00007) (Constant) -.856 1.533 1.099 -2.014 -.440 .745 -1.207 dis 2 4.293 -1.550 -.741 .4 -1.377 -1.063 -1.627 3 -4.025 -7.111 -5.966 12.826 6.290 -2.733 -5.699 Fisher's linear discriminant functions 利用Fisher判别法,得到Fisher判别函数:
F1=-1.207 -0.856 X1 +1.533 X2+1.099 X3-2.014 X4-0.440 X5+0.745 X6 F2=-1.627+ 4.293 X1-1.550 X2-0.741 X3+0.4 X4-1.377 X5-1.063 X6 F3=-5.699-4.025 X1-7.111 X2-5.966 X3+12.826 X4+6.290 X5-2.733 X6
将31个地区各变量的取值代入三个Fisher判别函数中,比较各个函数值,哪一结果大,该地区就属于哪一类,得到判别分析的结果为:
第5页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
district北 京天 津河 北山 西内蒙古辽 宁吉 林黑龙江上 海江 苏浙 江安 徽福 建江 西山 东ID1234567101112131415u112112112432113dis112112112132113district河 南湖 北湖 南广 东广 西海 南重 庆四 川贵 州云 南西 藏陕 西甘 肃青 海宁 夏新 疆表3 ID16171819202122232425262728293031u2213111211111111dis2213111211111111 表6
其中u 表示经Hierarchical Cluster 分析后的分类结果;Dis 表示经Discriminant 分析后
的判别结果.对比两个分析结果可以发现:第10个样本,也就是江苏省应该属于第1类,那么最终分类结果只有三类,没有第四类。
通过判别分析,对聚类结果进行了修正和完善,得到最终的分类结果:第一类:北京,天津,山西,内蒙古,吉林,黑龙江,江苏,福建,江西,湖南,广西,海南,重庆,贵州,云南,,陕西,甘肃,青海,宁夏,。第二类:河北,辽宁,上海,安徽,河南,湖北,四川。第三类:浙江,山东,广东。
为了得到更加直观的结果,三种地区类别的典则变量值把一个典则变量组成的坐标平面分成三个区域.如图:
Territorial MapCanonical DiscriminantFunction 2 -8.0 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 +---------+---------+---------+---------+---------+---------+---------+--- 8.0 + 31 I 31 I 31 I I 31 I I 31 I I 31 I 6.0 + + + +31 + + + + + I 31 I I 31 I I 31 I I 31 I I 31 I 4.0 + + + +31 + + + + + I 31 I I 31 I I 31 I I 31 I I 31 I 2.0 + + + + 31 + + + + + I 31 I I 31 I I 31 I I 31 I I 31 * I .0 + + + * + 31 + + + + + I 31111111111111111111111111111111111111 I I 322222222222222222222222222222222222221111111111I I 32 * 2222222222I I 32 I I 32 I -2.0 + + + +32 + + + + + I 32 I I 32 I I 32 I I 32 I I 32 I -4.0 + + + 32+ + + + + + I 32 I I 32 I I 32 I I 32 I I 32 I -6.0 + + + 32 + + + + + + I 32 I I 32 I I 32 I I 32 I I 32 I -8.0 + 32 + +---------+---------+---------+---------+---------+---------+---------+---------+ -8.0 -6.0 -4.0 -2.0 .0 2.0 4.0 6.0 8.0 Canonical Discriminant Function 1 第6页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
4. 多元方差分析
再进一步探究不同类别的地区在年末实有道路长度、年末实有道路面积、城市桥梁、城市排水管道长度、城市污水处理能力以及城市道路照明灯这六项评价指标上的建设程度是否有显著性差异,对数据进行多元方差分析。 多变量方差分析的前提性假设: 𝜇11
𝜇12 𝜇 𝐻0: 𝜇13 =
14 𝜇15 [𝜇16] Between-Subjects Factors 1 dis 2 3 Value Label 第一类地区 第二类地区 第三类地区 N 21 7 3 𝜇21𝜇31 𝜇22 𝜇32 𝜇 𝜇
23 = 33 H1:其中至少有一个不相等 𝜇24 𝜇34 𝜇25 𝜇35 [𝜇26][𝜇36]
如上表,将31个地区分为了3类,第一类有21个地区,第二类有7个地区,第3类有3个地区。
4.1. 数据的前提性检验
残差正态性检验
在做方差分析的时候,残差的分布必须是正态分布,否则就会使得多元方差分析没有任何实际的意义。在检验残差的分布是否为正态的时候,我们用到pp图和直方图,下面是pp图和直方图的结果.
我们首先来看PP图,PP图要看点和线的关系,如果点都围绕在线的周围,如图所示,就可以认为数据是符合正态分布的。再来看直方图,残差大体符合正态分布。这表明我们的数据的残差是符合正态性检验的。
第7页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
方差齐性检验:
Box's Test of Equality
of Covariance Matricesa Box's M F df1 df2 Sig.
77.332 2.126 21 465.6
.003
Box’s test检验的p值为0.03<0.05,所以拒绝方差齐向的原假设,即数据存在异方差性,表明此数据不适合做多元方差分析。 Multivariate Testsa Effect Pillai's Trace Intercept Wilks' Lambda Hotelling's Trace Roy's Largest Root Pillai's Trace dis Wilks' Lambda Hotelling's Trace Roy's Largest Root a. Design: Intercept + dis b. Exact statistic c. The statistic is an upper bound on F that yields a lower bound on the significance level. Value .296 .704 .421 .421 .765 .362 1.413 1.092 F 1.614b 1.614b 1.614b 1.614b 2.478 2.539b 2.590 4.367c Hypothesis df 6.000 6.000 6.000 6.000 12.000 12.000 12.000 6.000 Error df 23.000 23.000 23.000 23.000 48.000 46.000 44.000 24.000 Sig. .188 .188 .188 .188 .013 .012 .011 .004 利用SPSS对数据进行多元方差分析可以发现,自变量的四种统计量的P值均小于0.05,自变量已达到显著性水平,表明不同地区类别在六项建设指标上的平均数存在显著性差异,但是截距项的四种检验统计量均不能通过检验,数据有待进一步探究。 Tests of Between-Subjects Effects Source Dependent Variable Type III Sum of Squares 年末实有道路长度 年末实有道路面积 Corrected Model 城市桥梁 城市排水管道长度 城市污水处理能力 1.3a 1.716b .244c .437d .200e 第8页 共13页
2 2 2 2 2 .821 .858 .122 .218 .100 .811 .849 .115 .207 .094 .455 .438 .2 .814 .911 df Mean Square F Sig. 多元统计论文 13级统计班刘艳艳 32013120052
城市道路照明灯 年末实有道路长度 年末实有道路面积 Intercept 城市桥梁 城市排水管道长度 城市污水处理能力 城市道路照明灯 年末实有道路长度 年末实有道路面积 dis 城市桥梁 城市排水管道长度 城市污水处理能力 城市道路照明灯 年末实有道路长度 年末实有道路面积 Error 城市桥梁 城市排水管道长度 城市污水处理能力 城市道路照明灯 年末实有道路长度 年末实有道路面积 Total 城市桥梁 城市排水管道长度 城市污水处理能力 城市道路照明灯 年末实有道路长度 年末实有道路面积 城市桥梁 Corrected Total 城市排水管道长度 城市污水处理能力 城市道路照明灯 a. R Squared = .055 (Adjusted R Squared = -.013) b. R Squared = .057 (Adjusted R Squared = -.010) c. R Squared = .008 (Adjusted R Squared = -.063) d. R Squared = .015 (Adjusted R Squared = -.056) e. R Squared = .007 (Adjusted R Squared = -.0) f. R Squared = .018 (Adjusted R Squared = -.052) .5f .038 .041 .107 .048 .0 .185 1.3 1.716 .244 .437 .200 .5 28.357 28.284 29.756 29.563 29.800 29.455 30.000 30.000 30.000 30.000 30.000 30.000 30.000 30.000 30.000 30.000 30.000 30.000 2 1 1 1 1 1 1 2 2 2 2 2 2 28 28 28 28 28 28 31 31 31 31 31 31 30 30 30 30 30 30 .273 .038 .041 .107 .048 .0 .185 .821 .858 .122 .218 .100 .273 1.013 1.010 1.063 1.056 1.0 1.052 .259 .038 .041 .101 .046 .084 .175 .811 .849 .115 .207 .094 .259 .773 .847 .842 .753 .832 .775 .679 .455 .438 .2 .814 .911 .773 单变量one-way anova检验结果表明,六项指标均不能通过显著性检验,p均大于0.05,表明要拒绝原假设,即不同类别地区在六项城市基础设施评价指标上的平均数没有显著差异。
第9页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
5. 主成分分析
利用spss对31个地区的六个变量进行主成分分析,以找出影响中国不同地区市政设施水平的主要综合评价因素,具体结果如下:
可以发现,前两个主成分贡献百分比已达到94.%,因此影响一个城市市政水平的主要是第一主成分和第二主成分两个综合指标,这两个综合指标几乎涵盖了自变量的所有特征,因此取第一主成分和第二主成分作为衡量自变量的综合指标。
根据主成分因子载荷阵,以每个主成分所对应的特征值占所提取主成分总的特征值之和的比例作为权重计算主成分综合模型, 我们可得到综合主成分模型。
所以主成分函数为:
F1=0.418 X1 +0.414 X2 +0.387 X3 +0.418 X4 +0.399 X5 +0.414 X6 F2=-0.394 X1 -0.425 X2 +0.793 X3 +0.155 X4 -0.115 X5 +0.035 X6
然后根据主成分函数F1(因为F1的方差贡献率已经达到.749%,所以可以用F1这一综合指标来衡量各地区的市政设施水平),可以对31个地区市政设施水平建设进行排序,结果如下:
第10页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
表6 对31个地区的市政设施水平的综合评价降序排序district江 苏广 东山 东浙 江辽 宁湖 北安 徽四 川河 南河 北上 海黑龙江湖 南福 建广 西F17.951412.518811.05666.99843.09491.451.1810.90140.67150.5558-0.3676-0.4261-0.7042-0.9718-1.3332district北 京内蒙古吉 林天 津江 西陕 西重 庆山 西新 疆云 南贵 州甘 肃海 南宁 夏青 海西 藏F-1.5776-1.13-1.9213-2.0514-2.2049-2.5799-2.5925-2.8507-2.97-3.2103-3.856-4.0758-4.8326-4.9002-5.4532-5.86 从表6中可以发现,在地区市政设施水平综合评价中,江苏、广东、山东、
浙江、辽宁、湖北六个省份市政设施综合评价得分较高,这表明这六个地区市政设施水平建设在31个地区中表现最好,然后观察这六个地区的地理位置,可以发现他们大都在东部沿海地区,经济较发达,而得分较低的、青海、宁夏、海南、甘肃均位于偏西部地区,中部地区与东北地区居中。
6.市政设施建设水平与经济发展息息相关
为了探究地区间市政设施建设水平差异是否和地区经济程度发展息息相关,从中国统计年鉴上获取2013年31个地区生产总值,见下表:
2013年地区生产总值及排序地 区江 苏 北 京广 东山 东浙 江 辽 宁 吉 林 黑龙江 上 海河 北山 西 安 徽 福 建 江 西天 津 河 南
地区生产总值(亿元)28301.4119500.5616832.3814370.1612602.2427077.6512981.4614382.9321602.1259161.7537568.4919038.8721759.14338.50684.3332155.86排序123456710111213141516地 区 湖 北 湖 南内蒙古 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆地区生产总值(亿元)24668.4924501.6762163.9714378.003146.4612656.6926260.778006.7911720.91807.6716045.216268.012101.052565.068360.24排序171819202122232425262728293031第11页 共13页 多元统计论文 13级统计班刘艳艳 32013120052
可以发现地区生产总值最高的江苏、广东、山东、浙江、辽宁的城市基建水平最高,而地区生产总值最低的、宁夏、青海、甘肃、的城市基建水平也同样最低,数据完全吻合。这表明一个地区的城市基建水平与该地区经济发展水平息息相关,经济发展快,生产总值高的地区城市基础设施建设水平一定高,反之,经济落后的地区城市基建水平同样跟不上步伐。所以说城市基建要提高,还得靠经济。
如果把城市市政基础设施建设水平分为五等进行地域评级,结果如上图。从图中可以清楚地看出中国不同地区市政设施建设水平的地域差异。大致呈现出东中西三大阶梯状分布。水平较高的地区集中分布于东部沿海地区,尤其是环渤海湾地区、长三角地区、珠三角地区,而西部地区地级市市政设施建设水平在不同省份存在显著差异,成渝地区、关中-天水地区、内蒙古沿黄地区的市政设施建设水平相对较高。
7.结论
不同地区城市市政设施水平有所不同,依据市政设施水平建设的不同,
把全国31个地区分为了3类,市政市政设施综合评价得分较高的几个地区大都是东部沿海经济发达区。地级城市市政基础设施水平的差异明显:东部地区最高,西部地区最低,中部地区与东北地区居中,中西部地区建设水平差异要远高于东部沿海地区。因此,若要加强地区市政设施基础设施建设水平,最重要的还是要加强地区经济发展,因为经济的发达与否直接关系到市政基建水平,经济发展快,生产总值高的地区城市基础设施建设水平一定高,反之,经济落后的地区城市基建水平同样跟不上步伐。我们国家应该加大力度发展中中西部经济较为贫困地区的经济,从而带动中西部基建水平的发展,保证各地区城市基建水平达到要求。城市市政设施作为城市正常运转的基础,是人口聚集和产业发展的重要物质载体,是城市文明和现代化的重要标志,
第12页 共13页
多元统计论文 13级统计班刘艳艳 32013120052
对于研究一个国家城市化进程具有很重要的意义,因此这项研究能在一定程度上帮助研究中国不同地区城市化进程以及加强不同地区城市市政设施建设水平提供了理论指导。
参考文献
[1]. 吴冲,王栋, 基于聚类分析和判别分析方法的股票投资价值研究.2005, 哈尔滨工业大学管理学院(150001)
[2].严盛, 虎李宇等,中国城市市政基础设施水平综合评价,1002—1329(2014)04-0023-05,F299 24;TU984
第13页 共13页
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- awee.cn 版权所有 湘ICP备2023022495号-5
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务