各地区环境综合评价安阳师范学院本科学生毕业论文
基于主成分分析和聚类分析的各地区环境污染研究
作 者 王森森
院(系) 数学与统计学院
专 业 统计学
年 级 2010级
学 号 100801067
指导教师 柴士改
论文成绩
日 期 2013年4月18日
诚信承诺书
郑重承诺:所呈交的论文是作者个人在导师指导下...
安阳师范学院本科学生毕业论文
基于主成分分析和聚类分析的各地区环境污染研究
作 者 王森森
院(系) 数学与统计学院
专 业 统计学
年 级 2010级
学 号 100801067
指导教师 柴士改
论文成绩
日 期 2013年4月18日
诚信承诺书
郑重承诺:所呈交的论文是作者个人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写的研究成果,也不包含为获得安阳师范学院或其他教育机构的学位或证书所使用过的材料。与作者一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
作者签名: 日期:
导师签名: 日期:
院长签名: 日期:
论文使用授权说明
本人完全了解安阳师范学院有关保留、使用学位论文的规定,即:学校有权保留送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。保密论文在解密后遵守此规定。
作者签名: 导师签名: 日期:
基于主成分分析和聚类分析的各地区环境污染研究
王森森
(安阳师范学院 数学与统计学院 河南 安阳 )
摘要:中国是一个发展中国家,随着科学技术水平的不断提高以及经济的不断发展,大气污染、水污染、固体废物污染问题已经成为亟待解决的问题。本文利用多元统计分析中的主成分分析和聚类分析,分别对2012年我国31个地区环境污染情况进行分析和评价,其中选取了8个指标,其中4个指标有关水污染,3个指标有关大气污染,1个指标有关固体废物污染,都是很具有代表性的指标。通过主成分分析提取出了3个主成分,并且得到了每个地区的各主成分的综合得分,以及根据每个主成分的方差贡献率不同,赋予3个主成分不同的权值,计算得出环境污染综合水平得分并进行排序,得出环境污染水平的排名表;同时利用聚类分析,将31个地区分为4类,并且分别按照大气污染、水污染、固体废物污染进行聚类分析也将31个地区分为4类,重度污染地区,较严重污染地区,中度污染地区,轻度污染地区。并且通过查找相关经济方面的资料,在此基础上对比各类地区经济发展和环境污染的不同特点,
此种现象的原因,最后对环境和经济协调发展提出可行性建议。
关键词: 环境污染 经济发展 主成分分析 聚类分析
1 引言
地球作为人们赖以生存的生态环境提供给人们生产生活所需要的物质条件,然而,近些年,随着经济的快速发展,我国的生态环境遭到一定程度的破坏,给人们的生活造成了极大的威胁,而经济增长和环境污染存在矛盾会产生一些社会问题,全国各地区的环境污染水平和经济增长水平不同,为使各地区经济和环境协调发展,走可持续发展的道路,对于研究环境污染和经济发展显得尤为重要。
同时研究的结果有助于宏观经济管理者根据经济发展不同阶段的特点,制定科学的环境保护政策。
目前国内外用来表示经济发展对环境污染程度的影响的有环境库兹涅茨曲线。即在经济发展过程中,环境先是恶化而后得到逐步改善。主要是围绕经济效应与结构效应、环境服务的需求与收入的关系和政府对环境污染的政策与规制三个方面展开。本文则从实际出发,选取全国31个省市地区具有代表行的指标和数据,运用多元统计分析中的主成分分析和聚类分析方法,寻找各地区环境污染状况和经济发展之间的关系,并给出相应的解释。
2 数据的选取与指标体系的构建
本文的数据来源于中国统计局网站,2012年环境统计年鉴,来自2012年全国31个地区的环境方面的统计数据,通过查找相关资料分别选取了具有代表性的8个指标,其中有4个指标是有关水污染的,分别是,废水排放总量、废水中化学需氧量、废水中氨氮含量、废水中石油类含量。其中有3个指标是有关大气污染的,分别是,废气中二氧化硫量、废气中氮氧化物量、废气中烟(粉尘)量。其中有1个指标是有关固体废物污染的,即工业固体废物排放量。指标体系如下表:
指标
标识
废水排放总量(万吨)
X1
废水中化学需氧量(万吨)
X2
废水中氨氮含量(万吨)
X3
废水中石油类含量(吨)
X4
废气中二氧化硫量(万吨)
X5
废气中氮氧化物量(万吨)
X6
废气中烟(粉尘)量(万吨)
X7
工业固体废物排放量(万吨)
X8
3 主成分分析与聚类分析的理论分析
3.1主成分分析
主成分分析是一种通过降维技术把多个指标约化为少数几个综合指标的统计分析方法。其基本思想是:设法将原来众多具有一定相关性的指标重新组合成一组新的相互无关的综合指标,即将原来的指标做线性组合,成为若干个新的指标。通常要求第一个线性组合方差最大,即第一个综合指标包含的信息最多,如果第一个主成分不足以代表原来所有指标的信息,再考虑选取第二个主成分,并要求已有的信息不出现在其中,依次类推,直到选取的主成分能够包含评价所需要的足够的信息。主成分分析的主要步骤如下:
(1) 对数据数据进行标准化处理,即
式中,
是
的样本均值
是
的样本标准差,
(2)计算标准化数据矩阵
的协方差矩阵
。这时
又是
的相互关系矩阵。
(3)求
的前
个特征值
,以及对应的特征向量
要求它们是标准正交的。
(4)求第
个主成分
,
式中
是组合系数
。
(5) 求
个主成分的累积方差贡献率
,当
85%时,主成分分析结束。
3.2聚类分析
聚类法的基本原理:首先将一定数量的样品(或指标)各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类合并,如此重复进行,直到所有的样品都合成一类(即,将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类)。衡量亲疏程度的指标有两类:距离、相似系数。
设有n个样品,每个样品测得p项指标(变量),原始资料阵为
其中
为第i个样品的第j个指标的观测数据。第i个样品Xi为矩阵X的第i行所描述,所以任何两个样品XK与XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量
与
之间的相似性,可以通过第K列与第L列的相似程度来刻划。
如果把n个样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中两点的距离来度量。令dij表示样品Xi与Xj的距离。
4 数据的处理和分析
本文将2012年环境统计年鉴上的3个数据集进行了整理,选取了其中8个具有代表性的数据,下面分别将有些指标进行解释和说明:
废水排放总量:指企业提取的各种水经使用后,排放到企业生产经营活动环境范围以外的废水量。包括经本企业净化处理,达到环保排放标准的废水、未经过净化处理的废水和虽经净化处理但未达到环保排放标准的废水。
废水中化学需氧量:化学需氧量(COD)往往作为衡量水中有机物质含量多少的指标,化学需氧量越大,说明水体受有机物的污染越严重。
工业固体废物排放量:企业将工业固体废物焚烧和用其他改变工业固体废物的物理、化学、生物特性的方法,达到减少或者消除其危险成分的活动,或者将工业固体废物最终置于符合环境保护规定要求的填埋场的活动中,所消纳固体废物的量。
以上8个指标的含量越大,表明污染程度越严重
5 分析过程和结果
首先用spss软件对数据进行主成分分析,得到相关矩阵(附录中表5),由相关矩阵可看出某些指标确实存在很强的相关性,如果直接用这些指标进行综合评价,必然造成信息的重叠,影响评价结果的客观性,下面利用主成分分析法进行分析。
解释的总方差
成份
初始特征值
提取平方和载入
合计
方差的 %
累积 %
合计
方差的 %
累积 %
1
3.461
43.263
43.263
3.461
43.263
43.263
2
2.619
32.735
75.998
2.619
32.735
75.998
3
.998
12.471
88.469
.998
12.471
88.469
4
.442
5.526
93.995
5
.207
2.585
96.581
6
.147
1.842
98.423
7
.101
1.268
99.691
8
.025
.309
100.000
提取方法:主成份分析。
和碎石图(附录中图1)的得到:表中为各主成分的特征值、贡献率及累计贡献率。可以看出第一主成分对方差的贡献率为43.263%,第二主成分对方差的贡献率为32.725%,第三主成分对方差的贡献率为12.471%。前三个主成分累计贡献率达到88.469%,同时由碎石图可知前3个主成分对应的特征值较大下降非常迅速,后面的5个主成分对应的特征值较小,下降平缓。因此,综上所述,对第四主成分以后的主成分完全可以忽略不计,用前三个主成分就可以很好的概括这组数据。因此提取出3个主成分
、
、
。下表为未旋转的因子载荷阵:
成份矩阵a
成份
1
2
3
废水排放总量
.872
-.078
-.395
废水排放中化学需氧量
.923
-.046
-.076
废水排放中氮氨量
.943
-.128
-.263
废水排放中石油量
.824
.125
.299
废气中二氧化硫
-.046
.941
-.147
废气中氮氧化物
.069
.907
-.132
废气中粉尘
.009
.914
8.204E-5
工业固体排放量
.523
.191
.799
提取方法 :主成分分析法。
a. 已提取了 3 个成份。
,
为因子载荷阵A的主成分解,
为对应于各公因子的特征值,
为主成分系数向量矩阵。由此可见,主成分法得到的各个公因子的载荷向量与相应的主成分系数仅相差一个常系数
,故可得相应的主成分系数向量
如下:
由主成分系数向量
可以看出,第一主成分
的系数大都为正;第二主成分中
的系数为负;第三主成分中
的系数为负但
较大且为正数。因此,可以把第一主成分反映了环境污染的总体状况,第二主成分反映了固体废物和废气,第三主成分反映了固体废物情况。
由此可得三个主成分分别为:
其中
为标准化后的数据。(都可用spss实现)
然后分别以三个主成分的贡献率为权重,构建主成分综合评价模型:
把各地区的三个主成分值代入上式,可得每个地区的主成分得分和环境污染水平综合得分(F)如下表(本表已经按F的降序排列):
省份
Z1
Z2
Z3
F
河 北
1.402608
1.566256
2.496091
1.430811
山 东
1.850927
-0.04334
-0.03949
0.781654
重 庆
-0.72129
3.640909
-1.40905
0.704079
河 南
1.390943
0.168916
-0.0572
0.649925
山 西
0.31052
0.552515
2.369185
0.610667
辽 宁
0.781859
0.187042
1.264658
0.5572
江 苏
1.526419
-0.05658
-0.75098
0.548198
广 东
2.115716
-0.77643
-2.37765
0.364643
内蒙古
0.119265
0.08154
1.638272
0.282599
上 海
-0.4851
1.665577
-0.89486
0.223761
湖 北
0.722685
-0.17845
-0.33031
0.213046
黑龙江
0.102622
0.743894
-0.62217
0.210321
安 徽
0.382238
-0.40767
0.204067
0.057365
四 川
0.576621
-0.61869
-0.27688
0.012407
湖 南
0.864076
-1.08167
-0.39049
-0.02896
新 疆
-0.42074
0.311921
0.203292
-0.05456
云 南
-0.35809
0.039526
0.638797
-0.06232
浙 江
0.416636
-0.41787
-0.91142
-0.0702
天 津
-1.158
1.350251
-0.85484
-0.16559
陕 西
-0.29869
-0.36573
0.292053
-0.21252
福 建
-0.09301
-0.41936
-0.36002
-0.22241
江 西
0.008414
-0.89041
0.276309
-0.25338
吉 林
-0.52794
-0.12555
-0.3165
-0.30898
广 西
-0.1986
-0.75911
-0.30216
-0.3721
青 海
-1.14241
-0.27804
0.966894
-0.46467
贵 州
-0.76052
-0.58577
0.396947
-0.47127
甘 肃
-0.89605
-0.39174
0.12245
-0.50063
北 京
-1.21103
0.131838
-0.67055
-0.5644
宁 夏
-1.24949
-0.30385
-0.11286
-0.65411
海 南
-1.40896
-1.38772
-0.18611
-1.08704
西 藏
-1.64164
-1.3522
-0.0055
-1.15355
上表的F值即为环境污染综合得分,上表已经按降序排列,即污染水平的降序排列。
本文档为【各地区环境综合评价】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑,
图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。
本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。
网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。