搜索
您的当前位置:首页正文

多元统计分析论文

2024-01-21 来源:步旅网
因子分析和聚类分析在全国省会城市经济

实力分析中的应用

摘要:本文利用SPSS中的因子分析和聚类分析功能对全国26个省会城市经济实力进行分析。先用因子分析,再对因子分析的结果进行聚类分析。本文选取2012年上半年26个省会城市的9个经济指标,通过因子分析提取两个因子计算出26个省会城市的综合得分函数,再根据因子分析得出的得分函数对这些城市进行聚类分析,分类结果为:

然后再对分类后的城市进行分析说明,最后针对分类的结果进而得出经济综合实力的结论。

关键词: 因子分析 聚类分析 SPSS 经济实力

1

一、引言

城市的发展是经济发展和社会进步的重要标志。目前,我国正处于加快推进现代化的历史阶段。现代城市既要有发达的经济,也要有发达的文明。文明城市是指在全面建设小康社会、推进社会主义现代化建设新的发展阶段,物质文明、政治文明与精神文明协调发展,经济和社会事业全面进步,精神文明建设取得显著成就,市民整体素质和城市文明程度较高的城市。文明城市,是反映一个地区现代文明程度、城市综合竞争实力的重要标志。创建文明城市对经济社会发展所产生的现实意义和深远影响,已经远远超出了原来一般意义上的群众性精神文明建设活动。我们要从战略高度来看待创建文明城市的重要意义,提高对创建文明城市重要性的认识。

随着改革开放的脚步,全国各地经济都有着飞速的发展,人们越来越关注各个省会城市经济实力。经济是衡量一个地区综合实力的重要指标,而依照经济实力对城市进行分类可以看出一个地区综合实力以及发展潜力,利用经济分类,我们也可以得出该地区的发展状况,以及在哪些方面做得不够,哪些方面可以得到改进。基于以上原因,本文运用SPSS对全国26个省会城市,合肥, 武汉, 长沙, 郑州, 南昌, 太原, 西安, 福州, 石家庄, 沈阳, 哈尔滨, 长春, 南京, 杭州, 济南, 南宁, 成都, 贵阳, 昆明, 兰州, 西宁, 银川, 海口, 广州, 乌鲁木齐, 呼和浩特2012年上半年的9类经济指标进行因子分析,聚类分析。根据这两种分析的结果,对该26个省会城市进行2012上半年的经济分类。这样能让广大人们群众更清楚的认识此26个省会城市的经济状况,上级部门也可以通过这些分类对这26个地区下达给类发展命令,让这26个城市在经济上能更进一步。

选取的这九个经济指标是地区生产总值(X1),社会消费品零售总额(X2),规模以上工业增加值(x3),出口总额(x4),固定资产投资(x5),人民币储蓄存款余额(x6),地方财政收入(x7),农民人均现金收入(x8),城镇居民人均收入(x9)。

二、模型假设

1、假设经济指标数据真实、准确;

2、假设选取的经济指标能基本上全面反映城市的经济信息; 3、假设各个经济指标信息之间存在重叠; 4、假设特殊因子~N(0,2)。

2

三、符号说明

符号表示 x1 x2 x3 x4 x5 x6 x7 x8 x9 符号说明 城市生产总值 社会消费品零售总额 规模以上工业增加值 出口总额 固定资产投资 人民币储蓄存款余额 地方财政收入 农民人均现金收入 城镇居民人均可支配收入 特殊因子 

四、模型分析与建立

4.1 模型分析 4.1.1 因子分析 (1)因子分析基本思想

因子分析的基本思想是通过变量(或样品)的相关系数矩阵(对样品是相似系数矩阵)内部结构的研究,找出能控制所有变量(或样品)的少数几个随机变量去描述多个变量(或样品)之间的相关(相似)关系,但在这里,这少数几个随机变量是不可观测的,通常成为因子。然后根据相关性(或相似性)的大小把变量(或样品)分组,使得同组内的变量(或样品)之间相关性(或相似性)较高,但不同组的变量相关性(或相似性)较低。

从全部计算过程来看做R型因子分析与作Q型因子分析都是一样的,只不过出发点不同,R型从相关系数矩阵出发,Q型从相似系数矩阵出发都是对同一批观测数据,可以根据其所要求的母的决定用哪一类型的因子分析。 (2)因子分析模型 1.基本概念

因子分析是一种通过显在变量测评潜在变量测评,通过具体指标测评抽象因子的分析方法,最早是由心理学家Chales Spearman在1904年提出的,他的基本思想是将实测的多个指标,用少数几个潜在的指标(因子)的线性组合表示。因子主要应用到两个方面:一是寻求基本结构,简化观测系统;二是对变量或样本进行分类。

3

2.统计原理

因子分析的核心是用奇偶少的相互独立的因子反映原有变量的绝大部分信息,可以通过下面的数学模型来表示。设原有p个变量x1,x2,x3,,xp,且每个变量(或经标准化处理后)的均值为0,标准差均为1。现将每个原有变量用k (kp)个因子f1,f2,f3,,fk的线性组合来表示,即有

x1a11f1a12f2a13f3a1kfk1x2a21f1a22f2a23f3a2kfk2x3a31f1a32f2a33f3a3kfk3 (4.1) xpaf1ap2f2ap3f3apkfkpp1式(4.1 )便是因子分析的数学模型,也可用矩阵的形式表示为XAF.其中F称为因子,由于它们出现在每个原有变量的线性表达式中,因此又称为公共因子。因子可理解为高维空间中互相垂直的k个坐标轴;A称为因子载荷矩阵,aij (i1,2,,p;j1,2,k ) 称为因子载荷,是第i个原有变量在第j个因子上的负荷。如果把变量xi看成k维因子空间的一个变量,则aij表示xi在坐标轴fj上的投影,相当于多元线性回归模型中的标准化回归系数;称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为0,相当于多元线性回归模型中的残差。由式(4.1) 可知因子是不可见的。

•因子载荷

在因子不相关的前提下,因子载荷aij是变量xi与因子fj的相关系数,反映了变量xi与因子fj的相关程度。因子载荷aij值小于等于1,绝对值越接近1,表明因子fj与变量xi的相关系数越强。同时,因子载荷aij也反映了因子fj对解释变量xi的重要作用和程度。

4

•变量共同度

变量共同度也即变量方差,变量xi的共同度hi2的数学定义为

2 (4.2) haij2ij1k 式(4.2)表明,变量xi的共同度是因子载荷矩阵A中第i行元素的平方和。在变量xi标准化时,由于变量xi的方差可以表示成hi2i21,因此原有变量xi的方差可由两个部分解释:第一部分为变量共同度hi2,是全部因子对变量xi方差解释说明的比例,体现了因子全体对变量xi的解释贡献程度。变量共同度hi2越接近1,说明因子全体解释说明了变量xi的较大部分方差,如果用因子全体刻画变量xi,则变量xi的信息丢失较少;第二部分为特殊因子i的平方,反应了变量

xi方差中不能由因子全体解释说明的比例,i2越小则说明变量xi的信息丢失越少。

总之,变量xi的共同度刻画了因子全体对变量xi信息解释的程度,是评价变量xi信息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于0.8),则说明提取的因子能够反映原有变量的大部分(80%以上)信息,仅有较少的信息丢失,因子分析的效果较好。因此,变量共同度是衡量因子分析效果的重要依据。

•因子的方差贡献

因子fi的方差贡献的数学定义为

2 (4.3) Saij2ji1p式(4.3)表明,因子fj的方差贡献是因子载荷阵A中第j列元素的平方和。因子fj的方差贡献反映了因子fj对原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方差贡献和方差贡献率事衡量因子重要性的关键指标。

5

4.1.2 聚类分析

(1)系统聚类的基本思想

系统聚类方法的基本思想是首先定义样品间的距离(或相似系数)和类与类之间的距离。初始将n个样品看成n类(每一类包含一个样品),这是类间的距离与样品间的距离是等价的,然后将距离最近的两类合并成为新类,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每侧缩小一类,直到所有的样品都并成一类为止。 (2)聚类分析计算方法

系统聚类法的聚类原则决定于样品间的距离(或相似系数)及类间距离的定义,类间距离的不同定义就产生了不同的系统聚类分析方法。 1、最短距离法

A. 类与类之间的距离定义为两类中相距最近的样品之间的距离,即列为Gp和

Gq之间的距离Dpq定义为Dpq=mind

iGP,jGQijB. 当某步骤类Gp和类Gq合并为和Gr后,按最短距离法计算新类Gr与其他类

Gk的类间距离,其递推公式为:DrkminDpk,Dqk,kp,q

2、最长距离法

A. 类与类之间的距离定义为两类中相距最远的样品之间的距离,即列为Gp和

Gq之间的距离Dpq定义为Dpq=maxd

iGP,jGQijB. 当某步骤类Gp和类Gq合并为和Gr后,按最长距离法计算新类Gr与其他类

Gk 的类间距离,其递推公式为:DrkmaxDpk,Dqk,kp,q

3、中间距离法

A. 如果类与类之间的距离既不采用两同类之间的最近距离,也不采用最远的距离,而是采用介于这两者间的距离,这种方法称为中间距离法。

B. 当某步骤类Gp和类Gq合并为和Gr后,按中间距离法计算新类Gr与其他类

Gk的类间距离,其递推公式为

2 Drk12122DpkDqkDpq,0,kp,q 24

6

4、重心法

A. 如果将两类间的距离定义为两类中心间的距离,这种方法称为重心法。 B. 当某步骤类Gp和类Gq合并为和Gr后,它们所包含的样品个数分别为np,nq和nr,并定义样品间的距离为欧式距离,按重心法计算新类Gr与其他类Gk的类间距离,其递推公式为: D5、类平均法

A.用两类样品两辆之间平方距离的平均作为类之间的距离,这种方法叫作类平均法

B.当某步骤类Gp和类Gq合并为和Gr后,它们所包含的样品个数分别为np,nq和

2rknpnrD2pknqnrD2qknpnqnrnr2Dpq,kp,q

nr,按类平均法计算新类Gr与其他类Gk的类间距离,其递推公式为:

2Drknpnr2Dpknqnr2Dqk,kp,q

6、可变类平均法

可变类平均法是将合并后的新类Gr与其他类Gk的距离平方公式进一步推广为:

n2nq222Drk1pDpkDqkDpq,kp,q

nrnr7、可变法纪McQuitty相似分析法

当某步骤类Gp和类Gq合并为和Gr后,可变法把Gr与其他类Gk的距离平方公式

1222DpkDqkDpq,kp,q,若0,则把此方法称2为McQuitty相似分析法三

2进一步定义为:Drk8、离差平方和法 (Ward法)

A. Ward法是先将n个样品各自成一类,每次选择使所有类的总离差平方和增

加最小的两类进行合并,直至所有样品合并为一类为止。Ward法把某俩国内类合并后增加的离差平方和看成为类间的平方距离。

B.当样品间距离采用欧式距离时,步骤类Gp和类Gq合并为和Gr后,它们所包含的样品个数分别为np,nq和nr,新类Gr与其他类Gk的类间距离的递推公式为:

7

2Drknknpnknr2Dpknknqnknr2Dqknk2Dpq,kp,q

nknr五、模型求解

5.1数据处理

原始数据(附录1)选取2012年上半年全国26个省会城市地区生产总值(x1)、社会消费品零售总额(x2)、规模以上工业增加值(x3)、出口总额(x4)、固定资产投资(x5)、人民币储蓄存款余额(x6)、地方财政收入(x7)、农民人均现金收入(x8)和城镇居民人均收入(x9)九个经济指标,其中缺失值用均值处理。 5.2 因子分析

5.2.1考察原有变量是否适合做因子分析

表1 原有变量的相关系数矩阵

表1是原有变量的相关系数矩阵。可以看到,大部分的相关系数都较高,各变量呈较强的线性关系,能够从中提取公共因子,适合因子分析。

8

表2 巴特利特球度检验和KMO检验

KMO and Bartlett's Test

Kaiser-Meyer-Olkin Measure of Sampling Adequacy. Bartlett's Test of Sphericity Approx. Chi-Square df Sig. .837 269.641 36 .000 由表2可知,巴特利特球度检验统计量的观测值为278.552,相应的概率P接近0。如果显著性水平为0.05,由于概率P小于显著性水平,应拒绝零假设,认为相关系数矩阵与单位阵有显著差异。同时,KMO值为0.836,根据Kaiser给出了KMO度量标准可知原有变量适合做因子分析。 5.2.2 提取因子

这里首先进行尝试性分析。根据原有变量的相关系数矩阵,采用主成分分析法提取2个因子,因子分析初始解如表3。

表3 因子分析初始解

Communalities

地区生产总值 社会消费品零售总额 规模以上工业增加值

出口总额 固定资产投资 人民币储蓄存款余额 地方财政收入 农民人均现金收入 城镇居民人均可支配收入

Initial 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000

Extraction .959 .922 .883 .855 .948 .779 .953 .708 .757

表3是指定提取两个特征根时的因子分析的初始解。由第二列可知,此时所有变量的共同度均较高,各个变量的信息丢失都较少。因此本次因子提取的总体效果较理想。

表4 因子解释原有变量总方差的情况

9

表4是对因子解的描述,其中包括特征根值,方差贡献率和累积贡献率。从上表可知,前两个特征值累计贡献率达到86.28%>85%,说明前两个主成分基本包含了全部指标具有的信息,所以,提取两个主成分是合理的。

图1横坐标为因子数目,纵坐标为特征跟。可以看到:第一个因子的特征根值很高,对解释原有变量的贡献最大;第三个以后的因子特征值都较小,对解释原有变量的贡献很小,因此提取两个因子是合适的。

图1 因子的碎石图

表5显示了因子载荷矩阵,是因子分析的核心内容。

表5 因子载荷矩阵

10

Component Matrixa

Component 1 地区生产总值 地方财政收入 社会消费品零售总额 规模以上工业增加值 人民币储蓄存款余额 出口总额 城镇居民人均可支配收入 农民人均现金收入 固定资产投资 .979 .965 .960 .928 .875 .857 .835 .817 .719 2 .032 .145 -.015 .151 -.118 -.348 -.246 -.199 .657 根据该表可以写出本应用案例的因子分析模型: 地区生产总值=0.979f10.032f2 地方财政收入=0.965f10.145f2 社会消费品零售总额=0.96f1—0.015f2 规模以上工业增加值=0.928f10.151f2 人民币储蓄存款余额=0.875f1—0.118f2 出口总额=0.857f1—0.348f2

城镇居民人均可支配收入=0.835f1—0.246f2 农民人均现金收入=0.817f1—0.199f2 固定资产投资=0.719f10.657f2

由表5可知,9个变量在第一个因子上的载荷都很高,意味着它们与第一个因子的相关程度高,第一个因子很重要;第二个因子与原有变量的相关性均很小,它对原有变量的解释不显著。另外还可以看到,这两个因子的实际含义比较模糊。

5.2.3 因子的命名解释

11

这里采用方差最大发对因子载荷矩阵实施正交旋转以使因子具有命名解释性。指定按第一因子在和降序的顺序输出旋转后的因子载荷后的因子载荷以及旋转后的因子载荷图。分析结果如表6。

表6 旋转后的因子载荷矩阵

Rotated Component Matrixa

Component

1

出口总额

城镇居民人均可支配收入 社会消费品零售总额 人民币储蓄存款余额 农民人均现金收入 地区生产总值 地方财政收入 规模以上工业增加值 固定资产投资

.901 .825 .794 .783 .783 .782 .706 .672 .211

2 .208 .278 .540 .406 .307 .589 .674 .657 .951

由表6可知,地区生产总值(x1)、社会消费品零售总额(x2)、规模以上工业增加值(x3)、出口总额(x4)、人民币储蓄存款余额(x6)、地方财政收入(x7)、农民人均现金收入(x8)、城镇居民人均收入(x9)在第一个因子上有较高的载荷,第一个因子主要解释了这几个变量,可解释为财政经济指标;固定资产投资(x5)在第二个因子有较高的载荷,第二个因子主要解释了这一个变量,可解释为投资建设经济指标。与旋转前相比,因子含义较为清晰。

5.2.4 计算因子得分

这里,采用回归法估计因子得分系数,并输出因子得分系数,结果如表7。

表7 因子得分系数矩阵

12

Component Score Coefficient Matrix

Component 1 地区生产总值 社会消费品零售总额 规模以上工业增加值 出口总额 固定资产投资 人民币储蓄存款余额 地方财政收入 农民人均现金收入 城镇居民人均可支配收入 .087 .124 -.014 .380 -.447 .197 -.005 .256 .296 2 .117 .061 .249 -.330 .814 -.064 .246 -.162 -.215 根据表7可写出以下因子得分函数:

F1=0.087地区生产总值0.124社会消费品零售总额—0.014规模以上工业增加

值0.38出口总额—0.447固定资产投资0.197人民币储蓄存款余额—0.005地方财政收入0.256农民人均现金收入0.296城镇居民人均可支配收入

F2=0.117地区生产总值0.061社会消费品零售总额0.249规模以上工业增加

值—0.33出口总额0.814固定资产投资—0.064人民币储蓄存款余额0.246地方财政收入—0.162农民人均现金收入—0.215城镇居民人均可支配收入 计算出26个省会城市的因子得分(附录2)。

5.3 聚类分析

这里利用SPSS系统聚类Q型聚类对26个省会城市进行分类分析。其中个体距离采用欧氏距离,类间距离采用离差平方和距离(ward)。分析结果如图2树状图。

13

图2 26个省会城市经济实力层次聚类分析

由上图可看出把26个城市分为3类时的分类结果如表8。

表8 26个省会城市经济实力分类结果

14

由上表知,可把26个城市分为3类;第一类:合肥、南昌、太原、石家庄、哈尔滨、长春、南宁、贵阳、昆明、兰州、西宁、银川、海口、乌鲁木齐。这一类由于地理,资源等因素,经济还是主要依靠传统的工业、农业和制造业为主。居民的平均消费水平较低,投资力度也较低综合起来的经济实力在这26个城市中低于其他两类;第二类:武汉、长沙、郑州、西安、福州、沈阳、南京、济南、成都、呼和浩特。这一类城市从改革开放以来,由于自身的环境因素和国家加大投资开发建设,经济规模和经济产量大大增加,并且经济正在逐步由传统的工业、农业、制造业往第三产业转型,所以综合经济实力在前一类城市之上;第三类:杭州、广州。这一类城市最早成为中国沿海开放城市,再加上国家每年大力度的投资建设,经济一直是领跑全国,经济实力强于其他两类城市。

六、模型评价与推广

6.1 模型评价 6.1.1 优点

因子分析优点:消除了评价指标之间的相关影响;通过评价方法模式化、降维的简化作用减少了指标选择的工作量;权数的确定具有统一的客观标准,具有非人为性或者非随意性,采用信息权数有助于客观地反映样本间的现实关系。 聚类分析优点:聚类分析模型的优点就是直观,结论形式简明。 6.1.2 缺点

因子分析缺点:样本容量要足够大, 因子分析的综合评价有可能包含重复信息;评价标准与样本有关,评价结果是一个相对优劣顺序。

聚类分析缺点:在样本量较大时,要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映被试间内在联系的指标,而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系,但事物之间却无任何内在联系,此时,如果根据距离或相似系数得出聚类分析的结果,显然是不适当的,但是,聚类分析模型本身却无法识别这类错误。 6.2 模型推广

本题采用的模型有两个,包括因子分析法,聚类分析法,综合来说这些模型能很好地解决题目所要求解决的问题。而且他们之间的每一个都可以推广到现实生活中去。

(1)因子分析可以推广到分析大学生消费行为的主要因素 (2)聚类分析法可以推广到对产品的分级

15

七、参考文献

[1] 薛薇,《SPSS统计分析方法及应用(第二版)》,北京:电子工业出版社,2009 [2] 高惠璇,《应用多元统计分析》,北京:北京大学出版社,2005 [3]茆诗松,《概率论与数理统计》,北京:高等教育出版社,2011年

16

八、附录

附录1 城地区生社会消规模以上工业出口固定投资 1876.3 41 20.84 86.83 8 3 520.99 30.36 706.56 91.92 8 6 1900.52 1594.71 1030.32 325.43 1723.71 1447.02 3 3209.51327.6 1604.4 30.1 2642.9 1087.3 302.4 1841 4111 2925.74 1771.42 2904.72 人民币地方储蓄存财政农民人均收入 合武长郑南太西福石家庄 沈哈尔滨 长南

城镇居民人均收入 13358 14546 市 产总值 费品零总额 资产售总额 增加值 1751.6625.26 772.82 40.76 1298.53 1110.17 1255.47 4 1 8 3734.91648.02896.5 1153.12622.91119.2款余额 收入 现金1974.81 4608.91 2853.18 191.66 424.2 287.98 8219 6488 5324 6049 6259 5405 6821 4505 肥 7 汉 5 沙 州 1 昌 4 原 2 1832.91047.91657.5 1071.32041.2 829.9 安 8 州 52.9 2339.10054 15645 12403 11389 10620 14713 15470 11400 3650.3 303.29 126.95 117.17 61 195.3 1 382.2 1296.7541.44 434.76 36.91044.7562.33 347.74 15.54555.4 210.830.9 36.1 1512.3575.6 146.9484 6802 13068 10238 阳 6 8.6 711.9 3265.5 187.5 1906 825.6 913.6 12.9 988.5 2628.8 185.1 1275.1151.2041.17

9266 11123 19388 春 3398.11490.74355.7373.京 3 杭济南成贵昆兰西银海广乌鲁木齐 呼和浩特 州 8 南 3 宁 7 2 1 9 1134.53 553 17 199.5 27.63 67 1486.2 8 5745.23 6 460.43 7568 5224 7290 4112 5721 3143 3674 5620 5667 15574 11437 14067 11011 12910 9095 7909 10356 11728 28 11129 20590 3372.61332.82266.81080.9 967.3 2735.1 203.1003.95 2775.06 1242.76 1077.01 429.16 3 3 1378.33 2848.63 1582.76 5340.68 6622 115.37 416.78 133.02 184.43 52.16 8 817.77 58.82 919.56 38.13 10684.94 1582.64 479.62 110.89 1120.6588.39 296.17 11.74 1137.7 147.33 7 5 8 6 3951.4 1614.6都 阳 明 州 宁 川 685.78 312.75 214.44 10.31347.9 639.48 412.61 15.4715.09 353.06 278.13 22.6373.51 144.94 147.97 1.94 276.6472.7 148.86 206.59 4.58 317.5402.16 213.38 6213.72803.37 58.67 7.95 233.73 2000 279.74 1 1310.87 266.63 732.97 29.4口 州 5 10413 19730 9086 800.4 372.91 310.01 28.51081.1473.67 9 4.36 399.11 1147.95 95.71 7644 15228 18

附录2 城市 合肥 武汉 长沙 郑州 南昌 太原 西安 福州 石家庄 沈阳 哈尔滨 长春 南京 杭州 济南 南宁 成都 贵阳 昆明 兰州 西宁 银川 海口 广州 乌鲁木齐 呼和浩特

19

F1 4891.21802 6443.13019 7303.20608 6162.51199 5107.77465 5094.29338 6323.1161 6412.08924 5068.322 6355.44222 5389.9333 5354.5246 8574.6167 9927.45894 6986.73041 5496.24093 6676.11752 4126.66249 5561.42777 3727.15325 3351.33563 4581.39836 5062.37202 10988.89952 4730.58732 6655.92382 F2 -1731.64365 -1675.33274 -2878.37482 -2199.92424 -2462.35344 -2799.96951 -2581.77545 -2896.45698 -1804.0702 -1517.72548 -2532.2925 -2305.6116 -3438.3056 -4581.8422 -3452.35021 -2564.56789 -1472.28982 -1928.10509 -2668.35443 -2036.74788 -2021.35784 -2802.06227 -3226.73541 -4123.95734 -2718.9747 -3902.93473

因篇幅问题不能全部显示,请点此查看更多更全内容

Top