为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

多元统计分析与matlab聚类分析及MATLAB应用

2018-09-09 14页 doc 226KB 67阅读

用户头像

is_234426

暂无简介

举报
多元统计分析与matlab聚类分析及MATLAB应用聚类分析 人类认识世界往往首先将被认识的对象进行分类,聚类分析是研究分类问题的多元数据分析方法,是数值分类学中的一支。 多元数据形成数据矩阵,见下表1。在数据矩阵中,共有n个样品 x1,x2,…,xn(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。 表1 数据矩阵 样品 指标 聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类单位,然后...
多元统计分析与matlab聚类分析及MATLAB应用
聚类 人类认识世界往往首先将被认识的对象进行分类,聚类分析是研究分类问的多元数据分析方法,是数值分类学中的一支。 多元数据形成数据矩阵,见下1。在数据矩阵中,共有n个样品 x1,x2,…,xn(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。 表1 数据矩阵 样品 指标 聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。 一、分类统计量----距离与相似系数 1.样品间的相似性度量----距离 用样品点之间的距离来衡量各样品之间的相似性程度(或靠近程度)。设 是样品 之间的距离,一般要求它满足下列条件: 在聚类分析中,有些距离不满足3),我们在广义的角度上仍称它为距离。 1.1  欧氏距离 1.2 绝对距离 1.3 Minkowski 距离 1.4 Chebyshev距离 1.5 方差加权距离 其中 1.6 马氏距离 其中 S 是由样品 算得的协方差矩阵: 样品聚类通常称为Q型聚类,其出发点是距离矩阵。 2.变量间的相似性度量----相似系数 当对p个指标变量进行聚类时,用相似系数来衡量变量之间的相似程度(或关联程度)。一般地,若 表示变量 之间的相似系数,应满足: 的绝对值越接近于1,变量 的关联越大。 相似系数中最常用的是相关系数与夹角余弦。 2.1 相关系数 变量 之间的相关系数定义为: 事实上, 是变量 的观测值 之间的相关系数。 2.2 夹角余弦 变量 的观测值 ,其夹角余弦定义为: 变量聚类通常称为 R 型聚类。在 R 型聚类中,相似系数矩阵 C 是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。 二、谱系聚类法 这里所介绍的是样品的谱系聚类法。 1.类间距离定义 为简单起见,以i,j分别表示样品 ,以dij简记i,j之间的距离 。Gp,Gq分别表示两个类,设它们分别含有np,nq个样品。若类Gp中有样品 ,则其均值 称为类 Gp 的重心。类Gp与Gq之间的距离记为 Dpq,有多种多样定义方式。 1.1 最短距离 1.2 最长距离 1.3 类平均距离 1.4 重心距离 1.5 离差平方和距离 2.类间距离的递推公式 按照谱系聚类法的思想,先将样品聚合成小类,在逐步扩大为大类。设类 Gr由类Gp、Gq合并所得,则Gr包含nr=np+nq个样品。 问题:由Gp,Gq与其它类Gk(k≠p,q)的距离计算Gr与Gk(k≠p,q)的距离,即建立类间距离的递推公式。 2.1 最短距离 2.2 最长距离 2.3 类平均距离 2.4 重心距离 2.5 离差平方和距离 3.谱系聚类法的步骤 谱系聚类法的步骤如下: Step1 n 个样品开始时作为 n 个类,计算两两之间的距离,构成一个对称距离矩阵: 此时,Dpq=dpq; Step2 选择 D(0)中的非对角线上的最小元素,设这个最小元素是 Dpq。此时,Gp={xp},Gq={xq}。将Gp,Gq合并成一个新类 Gr={Gp,Gq}。在 D(0)中消去Gp和Gq所对应的行与列,并加入有新类Gr与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D(1),它是n-1阶方阵; Step3 从 D(1)出发重复 Step2 的作法得 D(2),再由D(2)出发重复上述步骤,直到n个样品聚为1个大类为止; 注意: 在合并过程中要记下合并样品的编号及两类合并时的水平(即距离)并绘制聚类谱系图。 4.谱系聚类法的统计量 用谱系聚类法聚类时,聚多少类合适,这是一个实际的问题。一个较好的聚类应该在类内阁样品尽可能相似的前提下,使得类的个数尽可能少。这里需要考虑谱系距离用到的统计量,利用它们,可以在一定程度上判别聚多少类为合适。 4.1 R2统计量 设谱系得第 G 层共有G个类,定义 其中 为Gk的重心,Sk越小,说明Gk中各样品越相似。 定义 R2 统计量如下: R2总是随着分类数目的减少而减小,可以从R2值的变化看n个样品分成几类最合适。比如,分为5类以前各类的R2减小较缓慢;假定分为5类时,R2=0.85,而下一次合并,即分为4类时R2减小较快,如R2=0.35,则认为分为5类较合适。 4.2 半偏相关统计量 这一统计量与离差平方和距离有关。设类 Gp,Gq的离差平方和分别是 将 Gp,Gq合并成Gr后的离差平方和为 合并后的离差平方和增量为 定义半偏相关统计量为: SPRSQ是上一步R2值与该步R2值的差值,当SPRSQ值越大时,说明上一次合并效果越好。 4.3 伪F统计量 伪F统计量 PSF是 PSF值越大表示这些观测可显著地分为 G 个类。 4.4 伪 t2 统计量 设Sp,Sq,Wpq的含义如前所述,定义伪 t2 统计量为 PST2大,说明合并Gp,Gq为Gr后,使得离差平方和的增量Wpq相对于原Gp,Gq的类内离差平方和大。这表明合并的两个类Gp,Gq是很分开的,也就是上一次聚类效果较好。 三、快速聚类法 参见:范金城,梅长林. 数据分析(P228-241).北京:科学出版社。 聚类分析课堂例题 为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见下表1。使用该原始数据对国别进行聚类分析。 表1 抽样数据表 国别 森林面积(万公顷) 森林覆盖率(%) 林木蓄积量(亿立方米) 草原面积(万公顷) 中国 11978 12.5 93.5 31908 美国 28446 30.4 202.0 23754 日本 2501 67.2 24.8 58 德国 1028 28.4 14.0 599 英国 210 8.6 1.5 1147 法国 1458 26.7 16.0 1288 意大利 635 21.1 3.6 514 加拿大 32613 32.7 192.8 2385 澳大利亚 10700 13.9 10.5 45190 前苏联 92000 41.1 841.5 37370 捷克 458 35.8 8.9 168 波兰 868 27.8 11.4 405 匈牙利 161 17.4 2.5 129 南斯拉夫 929 36.3 11.4 640 罗马尼亚 634 26.7 11.3 447 保加利亚 385 34.7 2.5 200 印度 6748 20.5 29.0 1200 印尼 2180 84.0 33.7 1200 尼日利亚 1490 16.1 0.8 2090 墨西哥 4850 24.6 32.6 7450 巴西 57500 67.6 238.0 15900 Matlab 解 答 Matlab提供了两种方法进行聚类分析。 一种是利用 clusterdata函数对样本数据进行一次聚类,其缺点为可供用户选择的面较窄,不能更改距离的计算方法; 另一种是分步聚类:(1)找到数据集合中变量两两之间的相似性和非相似性,用pdist函数计算变量之间的距离;(2)用 linkage函数定义变量之间的连接;(3)用 cophenetic函数评价聚类信息;(4)用cluster函数创建聚类。 1.Matlab中相关函数介绍 1.1 pdist函数 调用格式:Y=pdist(X,’metric’) 说明:用 ‘metric’指定的方法计算 X 数据矩阵中对象之间的距离。’ X:一个m×n的矩阵,它是由m个对象组成的数据集,每个对象的大小为n。 metric’取值如下: ‘euclidean’:欧氏距离(默认);‘seuclidean’:标准化欧氏距离; ‘mahalanobis’:马氏距离;‘cityblock’:布洛克距离; ‘minkowski’:明可夫斯基距离;‘cosine’: ‘correlation’: ‘hamming’: ‘jaccard’: ‘chebychev’:Chebychev距离。 1.2 squareform函数 调用格式:Z=squareform(Y,..) 说明: 强制将距离矩阵从上三角形式转化为方阵形式,或从方阵形式转化为上三角形式。 1.3 linkage函数 调用格式:Z=linkage(Y,’method’) 说 明:用‘method’参数指定的算法计算系统聚类树。 Y:pdist函数返回的距离向量; method:可取值如下: ‘single’:最短距离法(默认); ‘complete’:最长距离法; ‘average’:未加权平均距离法; ‘weighted’: 加权平均法; ‘centroid’: 质心距离法; ‘median’:加权质心距离法; ‘ward’:内平方距离法(最小方差算法) 返回:Z为一个包含聚类树信息的(m-1)×3的矩阵。 1.4 dendrogram函数 调用格式:[H,T,…]=dendrogram(Z,p,…) 说明:生成只有顶部p个节点的冰柱图(谱系图)。 1.5 cophenet函数 调用格式:c=cophenetic(Z,Y) 说明:利用pdist函数生成的Y和linkage函数生成的Z计算cophenet相关系数。 1.6 cluster 函数 调用格式:T=cluster(Z,…) 说明:根据linkage函数的输出Z 创建分类。 1.7 clusterdata函数 调用格式:T=clusterdata(X,…) 说明:根据数据创建分类。 T=clusterdata(X,cutoff)与下面的一组命令等价: Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,cutoff); 2. Matlab程序 2.1 一次聚类法 X=[11978 12.5 93.5 31908;…;57500 67.6 238.0 15900]; T=clusterdata(X,0.9) 谱系图 分类结果: 2.2 分步聚类 Step1 寻找变量之间的相似性 用pdist函数计算相似矩阵,有多种方法可以计算距离,进行计算之前最好先将数据用zscore函数进行标准化。 X2=zscore(X); %标准化数据 Y2=pdist(X2); %计算距离 Step2   定义变量之间的连接 Z2=linkage(Y2); Step3 评价聚类信息 C2=cophenet(Z2,Y2); //0.94698 Step4 创建聚类,并作出谱系图 T=cluster(Z2,6); H=dendrogram(Z2); 谱系图 分类结果:{加拿大},{中国,美国,澳大利亚},{日本,印尼},{巴西},{前苏联} 剩余的为一类。, 2 2 4 3 3 3 3 1 2 6 3 3 3 3 3 3 3 4 3 3 5 _1218778352.unknown _1218779853.unknown _1218781854.unknown _1218783089.unknown _1218784872.unknown _1218785501.unknown _1218785703.unknown _1218785999.unknown _1218786096.unknown _1218785700.unknown _1218785474.unknown _1218784400.unknown _1218784519.unknown _1218783241.unknown _1218782566.unknown _1218782656.unknown _1218782764.unknown _1218782567.unknown _1218782045.unknown _1218782154.unknown _1218781969.unknown _1218781417.unknown _1218781579.unknown _1218781853.unknown _1218781575.unknown _1218780076.unknown _1218781365.unknown _1218779858.unknown _1218778685.unknown _1218779064.unknown _1218779396.unknown _1218779852.unknown _1218779192.unknown _1218779266.unknown _1218778832.unknown _1218778486.unknown _1218778591.unknown _1218778383.unknown _1218777905.unknown _1218777917.unknown _1218778250.unknown _1218777906.unknown _1218777206.unknown _1218777214.unknown _1218776879.unknown
/
本文档为【多元统计分析与matlab聚类分析及MATLAB应用】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索