为了正常的体验网站,请在浏览器设置里面开启Javascript功能!
首页 > 一种K-means算法的k值优化方案

一种K-means算法的k值优化方案

2012-05-06 5页 pdf 223KB 28阅读

用户头像

is_373438

暂无简介

举报
一种K-means算法的k值优化方案 2007年第9卷第6期 总第87期 巢湖学院学报 Joumal0fC}laohuCoUege N0.6。V01.9.20口7 Gene甩lSe—alNo.87 一种K—means算法的k值优化方案 吴艳文胡学钢 (合肥工业大学计算机与信息学院.安徽合肥230000) 摘要:聚类算法是数据挖掘中核心技术之一,而k_means算法在经典聚类算法中占有重要 地位。针对k_means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到 限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数....
一种K-means算法的k值优化方案
2007年第9卷第6期 总第87期 巢湖学院学报 Joumal0fC}laohuCoUege N0.6。V01.9.20口7 Gene甩lSe—alNo.87 一种K—means算法的k值优化 吴艳文胡学钢 (合肥工业大学计算机与信息学院.安徽合肥230000) 摘要:聚类算法是数据挖掘中核心技术之一,而k_means算法在经典聚类算法中占有重要 地位。针对k_means聚类算法的最佳聚类个数k不易获得,因而使得该聚类算法的应用受到 限制,为此提出一种k值优化方法:通过给出大于最佳聚类数的可能聚类数.而得到优化的 聚类个数。通过实例给予验证,其结果该方法合理有效。 关键词:聚类;k均值算法;聚类教优化;数据挖掘 中图分类号:’IPl8l文献标识码:A 文章编号:1672-2868(2007)06-0021—04 引言 聚类(dustering)是数据挖掘中发现知识常 用到的方法之一,它是将数据集划分为若干个类 (cluster)的过程。聚类目的使得同一个类中数据 对象(样本点)具有较高的相似度,而不同类中的 数据对象则是不相似的。聚类方法主要有:划分 方法、分层类方法、基于密度方法、基于网格方法 和基于模型方法。旧 在众多的聚类方法中。基于划分方法的k— mearIs[1】算法因其算法复杂度较低0“kn)(n为数 据对象总数,k为聚类个数,t为循环次数),效率 高、应用领域广、具有一定的可扩展性等优点.在 聚类算法中占有重要的地位。但由于其自身的缺 点,如:聚类个数k必须事先给定、不适用于非凸 形状的聚类或以及具有各种大小不同的聚类、对 噪声和异常数据也很敏感等缺点。限制了其广泛 地应用。在大多数情形下,我们所研究、挖掘知识 的领域往往是我们未知的领域,其最优聚类数k 往往是不得而知。为此本文提出一方案以实现k 值的优化。 本文的结构是:第一节介绍k—rmarIs算法实 现的过程,第二节讨论目前k值优化方案.第三 节提出一种k值优化方案,第四节通过实例证实 所提出方案的合理性,第五节结束语。 1 k—meam算法 k—mens算法工作过程如下:首先从n个数 据对象任意选择k个对象作为初始聚类中心.而 对于所剩下的其它对象,则根据它们与这些聚类 中心的相似度(距离),分别将它们要配与其最相 似的(聚类中心所代表)聚类,然后再计算每个所 获新聚类中心(该聚类中所在对象的均值)。不断 重复这一过程,直到测度函数(1.1)开始收敛 为止。 相似度通过距离进行计算,常用的距离算法 有Minkoski距离、Euclid距离、Chebyshev距离、 Mahalanoi8距离等,在此以欧式距离作为距离计 算公式如下(1.2) E=∑∑0p哪0z (1.1) ‘=I‘=1 厂i——————一 D(%耳)=\/∑』ⅥIIz (1.2) T r=】 P为数据对象(样本点),盹为岛类的均值 收稿日期:2007一10埘 作者简介:吴艳文(1967一),男.安徽巢湖人。合肥工业大学硕士研究生,研究方向:人工智能与数据挖掘。 21 万方数据 D“,劫为点置和耳的距离,m为数据对象的 维数 k—means算法步骤如下:嗍 (1)从n个数据对象任意选择k个对象作为 初始聚类中心: (2)循环下述流程(3)蓟(4),直到每个聚类不再 发生变化为止; (3)根据每个聚类对象的均值,计算每个对 象与这此中心的距离,并根据最小距离重新对相 应对象进行划分; (4)重新计算每个(有变化)聚类的均值。 2目前k优化方案 最佳聚类个数如何确定.很多文献提出了评 价函数.通过函数极值以确定聚类个数在局部或 整体最优。 (1)BezdekJC基于样本隶属度提出划分概念日 F(U;c)=上∑∑u≯,具有直观的几何解释和 ,‘●=lJ=1。 良好数学性质。最优聚类数通过满足minf只u; c)l获得。 (2)K—me∞s算法中,将两个类之间距离以 相应类的半径(标准方差)归一化并用各类权值 进行加权平均,所得数据表示类分离系数。 (3)通过轮廓系数来测量不同类的分离度。日 类中某点i与该类中其它点的平均距离为d(i); 该点与最近邻类各点平均距离为6(i),则f点轮 廓系数为(b(i)一a(i)),m“{a(i)山(i))。此值越接 近l则聚类越好。所有样本点轮廓系数均值反映 类之间分离度,聚类数通过对分离度优化来实现。 (4)[7】【13】等通过类问和类际相对距离来作 为评价函数,文献㈣中定义I,—A卢胁m僻p血抛r fj}肺2,俺m吐其中≈m∞是可聚类的最大数目。 其中 I 、÷乞0口(地)0 1咖(‘)2土诂酾厂(2r1) ;m。蜘车圭c圭 %”‘“‘ D恤=Ⅱt础ll研一虬|l 2l也=m抚iIq一坼8 11巩一q0 2)_1(2.2) (2.3) (2.4) 以上方案均通过分离度函数或评价函数优 化来实现。但由于面临聚类的情况复杂,可能各 聚类在空间的位置不同、可能各类的样本点数大 小不同、可能各类的空间大小不同、可能各类的 样本点密度不同等众多因素,所以单一通过一函 数来解决多种聚类状况实属NP问。这些方案 大多在解决各聚类样本数相差甚远时.效果较 差。 3一种k值优化方案 3.1基本概念 ^一,w一是通过判断样本点到各聚类中心 的距离大小进行分配的,设数据对象合理聚类个 数为k,当设置的聚类个数超过k时,采用^一 一ms算法后,本应是一个的聚类就会被分成若 干个小的聚类,但这些小的聚类其边界距离即间 隙距离相对较近。通过判断边界距离来确定二个 小的聚类是否应是同一个聚类。 定义1称两聚类c.和c:中心点之间的距离 为两聚类中心距离,记cd(c。,c:)。 定义2称一聚类c。所有数据对象到另一聚 类c:中心距离的最小值为一类到另一类中心的 最近距离,记,以(c。砌)。 定义3称两聚类c,c2在中心连线上两边界 之间的距离为两聚类间隙距离,记intval(c。,c2) 容易看出这三个距离满足如下关系 intvaI(cl,c2)md0I,c2)+md(c2,c1)—cd(cl’c2) (3.1) 定义4称类中各样本点平均相邻距离为类 中各样本点平均相邻距离,记aver。 3,2算法实现 本节中详细介绍该k值优化算法。算法实现。 (1)输入k初值和数据集dat8: (2)运行k—means算法得k个聚类; (3)计算md、cd、intval; (4)判断两两聚类是否应是同一类; (5)输出优化的聚类数。 3.2.1寻找初值%一 ^初值取大于^。的任意值,显然,如果k值 太大.会对以后t值优化带来时间上的代价。如 果k初值不易找到.可以取聚类个数上限作为 ^。值。对一个样本点数为n的数据对象可能有 的聚类个数上隈.很多研究者使用经验规则为: L、厂ij或L2hnJ下取整。虽然此结论无明显的 理论指导,但很多专家已在使用。也有间接傍证 文献㈣和实例应用。 万方数据 3.2.2类中各样本.董平均相邻距离aver 对于研究领域.如果各类样本密度均匀.可 以求其中一个类的各样本点平均相邻距离.此距 离适用于每个类。一个类中各样本点平均相邻距 离可以通过以下两种方法求得。 (1)如果类的样本数样本空间足够大.可以 认为该类的样本点均匀分布在类中.通过求得该 类各维上的距离求出超体积.再求出每个样本应 占有的超体积。。 (2)如果类的样本数不够大.可以通过最小 生成树方法.每个边的权重为两样本之间距离。 求得整个最小生成树边和.进而得”er。 3.2.3t值优化算法 输入初值^初值、数据集,运行k—means算 法.得々个聚类 for(i=0;i分析
聚类之间相互关系,判断那 些聚类应是同一类,从而得到对々值的优化。实验 证明该方案在k—means算法中有效,可做为一方 案在&值优化中加以应用。 参考文献: 【l】HARTIGANJ,w0NGM.A190rithmAs136:Ak—mea珊clustedngalgorithm【J】.1979,28:100—108. 【2】K孤血衄nLR叫sseuwP.Findi“gGmupsindata:AnIntmducdontoclusterAnalysis[M】.NewYork: Jph_11WileyⅫd∞ns,1990. [3】Fr柚eyC,An8ryA.Howmanycluster?whichcluste一“gmethod?Answersviamodelb衄edcluster analysis田.111eComPuterJo唧a1.1998.41(8):578—588. 万方数据 【41BezdekJCF眦zymathematicsinpattemcl鹊s墒cation[DlPhDDi8sert“onco皿euUlliv'Ithaca'NY,1973. 【5】张铃,张钹.模糊商空间理论(模糊粒度计算方法)叨.软件学报,2003。14(4):770-776. [6]朱明.数据挖掘[M】.中国科技大学出版社,2002。2:137—143. m李永森,扬善林,马溪骏.空间聚类算法中的k优化问题研究叨.系统仿真学报,2006,3:573_576. [8】张莉,周伟达,焦李成.核聚妻算法【刀.计算机学报,2002,25:(6). [9】于剑,程乾生.关于聚类有效函数FP(u,c)的研究田.电子学报.1998,26(4):113—115. [10】于剑.程乾生.模糊聚娄方法中的最佳聚类数的搜索范围叨.中国科学,2002,4,32(2). [11】姜因,张朝阳,仇佩亮等.对聚类算法普遍存在问题的解决方法[玎.电路与系统学报,2004,9(3). 【12】钟将,吴中福,吴开贵,杨强.k基于Tabu搜索的聚类算法研究叨.计算机科学,2005,32(1):172一189. [13】李双虎,王铁红.k—meanB聚类分析算法中一十新的确定聚类个数有效性的指标[刀.河北省科学院 学报,2003,20(4):119—202. 【14】高新波。裴继红,谢维信.模糊c均值聚类算法中加权指数m的研究叨.电子学报,2000.(4):80-83. PRoJECTABoUTtoPT蹦IzEDTHENUMBEROFCLUSTERSINK--MEANSCLUSTERING WUYBn_w朗HUXue-gang (schoolofCo唧uter&I面Ⅲ埘on,HefeiUnivers时ofTechnology,HefeiAllhlli23000) Abstnd:d岫teri“gistheoneofco地technol0盯indatamiIIing.K—meansalgorithmi8averyfamou8 clusteri“galgorithminthecl鹊sicalclustering.neP叩erf曲岫ontheclusteIingnumber0fk—mean8 alg谢t‰whichishardtobegiven蚰dhinde玛t}l。印pHcation.Soth。p印e。putsforwardanovelk 0ptilIIizedmethod。whichwe咖0btainthe叩ti耐髓d肌mberofcl哪te墙ifweaffordam蹦imumnumberof cluBte墙.Thet曲£e1Perimenth∞pmvedtllemethodre邳onableandright. 1【eywords:C1usteri“g;k—me姐sa190rithm;clusteringnuⅡLbe。叩timized;data“ni“g 责任编辑:宏彬 万方数据 一种K-means算法的k值优化方案 作者: 吴艳文, 胡学钢, WU Yan-wen, HU Xue-gang 作者单位: 合肥工业大学计算机与信息学院,安徽,合肥,230000 刊名: 巢湖学院学报 英文刊名: JOURNAL OF CHAOHU COLLGEG 年,卷(期): 2007,9(6) 被引用次数: 2次 参考文献(14条) 1.于剑;程乾生 关于聚类有效函数FP(u,c)的研究[期刊论文]-电子学报 1998(04) 2.张莉;周伟达;焦李成 核聚类算法[期刊论文]-计算机学报 2002(06) 3.李永森;杨善林;马溪骏 空间聚类算法中的k优化问题研究[期刊论文]-系统仿真学报 2006(03) 4.高新波;裴继红;谢维信 模糊C均值聚类算法中加权指数m的研究[期刊论文]-电子学报 2000(04) 5.李双虎;王铁红 k-means聚类分析算法中一个新的确定聚类个数有效性的指标[期刊论文]-河北省科学院学报 2003(04) 6.钟将;吴中福;吴开贵;杨强 k基于Tabu搜索的聚类算法研究[期刊论文]-计算机科学 2005(01) 7.姜园;张朝阳;仇佩亮 对聚类算法普遍存在问题的解决方法[期刊论文]-电路与系统学报 2004(03) 8.于剑;程乾生 模糊聚类方法中的最佳聚类数的搜索范围[期刊论文]-中国科学 2002(02) 9.朱明 数据挖掘 2002 10.张铃;张钹 模糊商空间理论(模糊粒度计算方法)[期刊论文]-软件学报 2003(04) 11.Bezdek J C Fuzzy mathematics in pattern classification 1973 12.Fraley C;Aftery A How many cluster? Which clustering method? Answers via model based cluster analysis 1998(08) 13.Kanfman L;Rousseuw P Finding Groups in data:An Introduction to Cluster Analysis 1990 14.HARTIGAN J;WONG M Algorithm AS 136:A k-means clustering algorithm 1979 引证文献(3条) 1.陈建伟.蔡江雄.许力 无线传感器网络中基于CLARA节能的组密钥管理方案[期刊论文]-福建师范大学学报(自然 科学版) 2011(1) 2.孙祥.赵勇 基于就业吸引力的大学生区域流向分类研究[期刊论文]-黄冈师范学院学报 2010(3) 3.陈建伟.蔡江雄.许力 无线传感器网络中基于CLARA节能的组密钥管理方案[期刊论文]-福建师范大学学报(自然 科学版) 2011(1) 本文链接:http://d.g.wanfangdata.com.cn/Periodical_chaohxyxb200706006.aspx
/
本文档为【一种K-means算法的k值优化方案】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索