为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

基于孤立点检测的异常客户行为分析

2017-11-25 6页 doc 49KB 25阅读

用户头像

is_637320

暂无简介

举报
基于孤立点检测的异常客户行为分析基于孤立点检测的异常客户行为分析 Study on Outlier Custom Action Based onOutlier Detection 任 佳雷 虎 Ren Jia Lei Hu (江西蓝天学院,江西 南昌 330029) (Jiangxi Blue Sky University, Jiangxi Nangchang 330029) 摘 要:孤立点检测是数据挖掘的一个重要内容,用来发掘数据集中显著不同于其他数据的对文象章讨。 在零售业中的应用,并在基于距离和的孤立点检测算法的基础上,对孤立点的具体位置做了进一...
基于孤立点检测的异常客户行为分析
基于孤立点检测的异常客户行为分析 Study on Outlier Custom Action Based onOutlier Detection 任 佳雷 虎 Ren Jia Lei Hu (江西蓝天学院,江西 南昌 330029) (Jiangxi Blue Sky University, Jiangxi Nangchang 330029) 摘 要:孤立点检测是数据挖掘的一个重要内容,用来发掘数据集中显著不同于其他数据的对文象章讨。 在零售业中的应用,并在基于距离和的孤立点检测算法的基础上,对孤立点的具体位置做了进一步的确定和分 关键词:孤立点;数据挖掘;孤立点检测 中图分类号:TP31 1 .1 2 文献标识码:A 文章编号:1 671 - 4792- (2008)1 2- 0083-0 3 Abstract: Outlier detection is an important content of data mining, which is used to disc ferent of others. This paper discusses the application of outlier detection in retailing, and the specific situation of outlier in terms of detecting algorithms of distance-sum outlier. Keywords: Outlier;Data Mining;Outlier Detection 客户保持已经成为企业成功最至关重要的因0 引言 目前,国内超市大多利用 POS 系统收集了大量的客户 业销售商对客户的正常购买行为是知道的,交易数据,这些交易数据记录了交易的时间、交易的商品名 户的正常购买行为制定相应的采购、库存等称、交易的金额和交易的数量等。超市通过数据库技术对这 客户的购买行为出现与平常明显不同的情况些交易数据进行分类统计,从而得出不同的客户群体,并对 商如果还要按照正常行为来实施销售策略,其实施相应的营销策略而数据挖掘技术正是从大量的数据 。 销策略与实际情况不符的情况,甚至出现巨中发现潜在知识的过程。 不言而预。最后,通过对客户与平时有明显孤立点检测问题是数据挖掘技术的重要研究领域之一, 进行研究,可能会发现非常有价值的新的客 它用于发现数据集中小部分数据对象,这些对象和数据中的 1 CRM 中的客户行为分析 一般行为或数据模型有着明显的不同。孤立点检测被广泛地 客户关系管理 (Customer Relationsh 应用在信用卡欺诈探测中,被发现的孤立点可能预示着欺诈 CRM)是实现商业智能的关键环节之一,它的 行为,而及时发现这种信用卡欺诈行为对商业银行而言相当 业的客户作为最重要的企业资源,通过完善 重要,可以避免不必要的经济损失。在医疗分析中,可用于对 入的客户分析来满足客户的需求,保证实 多种治疗方式的不寻常的反应等;在市场分析中,可用于确 定极低或极高收入的客户的消费行为。而在零售业中,首先, 值。客户行为分析是 CRM 的重要研究内容之客户在流失之前,一般情况下,其购买行为也表现出与平时 购买信息按不同购买行为特征分成若干类别有着明显的不同,如果不能及时知道客户的这些与平时不同 的购买行为,则可能使这些客户流失不少学者发现保持住 。 行为特征的用户,分析其基本信息,并找出这些将要流失的客户对公司的盈利能力有着惊人的影响,客 基本特征两者之间的若干潜在关系客户关 。 [1] 行为分析一般按照整体行为分析和群体行为 分析用来发现企业所有客户的行为规律,但 差和标准差,即:2 孤立点检测 孤立点是数据集中的小部分数据对象,这一小部分对象 [2]和数据中的一般行为或数据模型有着明显的不同。孤立点 检测是应用数据挖掘的理论和方法来发现数据集中的孤立 点,即用于发现孤立点数据集中不同于数据中的一般行为或 则标准化后的数据为: 数据模型的小部分数据对象。零售业孤立点检测指的是在零 或售业中,应用数据挖掘的理论和方法在客户购买的数据集中 其中,j 表示每个月购买的次序,n表 发现不同于平时的特殊购买行为或其购买行为的数据模型 与平时购买行为的数据模型有着明显不同。 数,x表示第 i 个月第 j 次的购买量。选 ij 目前在其它领域,常用的孤立点检测算法有:基于统计 立点产生一定的影响,因为在计算 R时, j 的方法、基于距离的方法、基于偏离的方法和基于密度方法 偏差没有被平方,因而孤立点的影响被减 [2]。其中基于距离的孤立点的概念最早由 E.M.Knorr 和 R. 用 R比 S具有更好的鲁棒性,但对于孤立 j j [3][4][5]T.Ng提出,S.Ramaswamyetal和 S.D.Bay et al分别进 希望标准化后的数据能尽可能地突出孤立行了改进在这种方法里,一般根据数据对象的最近邻居来 。S 。j判断其是否为孤立点。基于距离的孤立点的优点在于不需知 (2)计算距离 道数据的分布模型,因而可以应用于任何可以用某种距离机 基于距离和的孤立点自动检测方法对制量度的特征空间而零售业中客户行为的特征正是基于距 。 离机制的量度空间,因此本文采用基于距离的孤立点的检测 常用的距离是绝对距离和欧氏距离绝对。方法来萃取客户行为的孤立点。但基于距离的孤立点的检测 离,其定义为: 需要确定参数 p 和 d,而参数 p 和 d 的确定比较困难,因此, 本文采用改进的基于距离的孤立点检测 --- 基于自动距离 和的孤立点的检测方法。本方法在进行孤立点检测时不需要 欧氏距离为:确定参数 p 和 d,降低了孤立点检测对用户的要求。 基于自动距离和的零售业孤立点检测的主要思想是通 过提取零售业销售商收集的客户原始数据,计算数据集中 n 个对象两两之间的距离,形成距离矩阵 R,然后累计矩阵 R 其中,m 为数据对象的维数,x表示 ij 属性的值。这两个距离可以统一为: 中每个对象与其它对象的距离 P,并求出其平均值 P。将每个 这就是明考斯基距离。 x'代入绝对值距离公式,根据绝对值距离公式计 算n 个对 ij 象两两之间的距离 d,形成距离矩阵 R 。ij 图二 偏离度较小的 3 个对象的波 5 结束语 (4)寻找可能孤立点 孤立点检测问题是数据挖掘技术的重要 令,即 p为矩阵 R 中第 i 行的和,p值越大,说 i i 它用于发现数据集中小部分数据对象,这些 一般行为或数据模型有着明显的不同。本文 明对象 i 与其它的对象距离越远,这些对象有可能是孤立 点。 测中的基于距离和的孤立点自动检测在零售(5)确定孤立点 通过实际数据验证了距离和孤立点检测方 有效性。研究结果表明该方法不仅可以用来 求出所有的平均值,然后比较 p与 p,如果 i 库中客户购买行为波动情况,而且可以进行 p,2p,则第 i 点即为孤立点 。i 孤立点的检测,从而为零售业进行客户管理 3.2 零售业系统中孤立点的算法实现依据,为进一步进行客户预测研究打下理论 为了发现孤立点,在数据分析前,需要对数据库中的数 据进行数据的标准化等处理,然后进行孤立点检测。下面给 出了基于距离和的孤立点监测算法描述如下: 参考文献private function outlier() [1]谭跃雄,周娜,于强.客户生命周期价sampleDatabase()对原始数据进行标准化 Read_nex- ‘ 客户细分中的应用[J].湖南大学学报(自然tRecord(next_user,result1(user_amount))‘读取客户的 (3):124-128. 输出数据 [2]Edwin M.Knorr and Raymond T For j=1 to month_amount ‘求 P的值 j For k=1 to times_amount forminingdistance-basedoutlieP(j)=result1(i).p1(j,k) database [J].Proceeding of the 24th VNext k ,New York,USA,1998. [3]E.M.Knorr,Next j R.T.Ng and V.Tucakov Getoutlier(p(j))取得 p(j)最大的 M 个对象 P(j,m) ‘ed Outliers:Algorithms and Applica end function Journal:Very Large Databases,2000:237-4 应用实例与分析 为了验证算法的有效性,选择某超市 18 个月的客户购 [4]K.Yamanishi and J.Takeuchi,A U work for Detecting Outliers and Chan 买记录加以检验,从 2003 年的 6 月到 2004 年的 12 月,以客 Non-Stationary Time Series Data [J]. 户购买频率和购买金额作为检测变量。由于孤立点直观上难 ton,Alberta,Canda,2002. 以理解,使用图表的形式更形象地表示客户购买行为发生异 [5]S.D.Bay,M.Schwabacher(Mining 常的倾向。用第三节的分析和算法来实现研究结果,并分别 Outliers in Near Linear Time with Ran 从孤立点和无孤立点两种情况取 2 个有代表性的客户的检 a Simple Pruning Rule[C](SIGKDD ,Was 测结果,如图一和图二所示。 A,2003. [6]张云涛,龚玲. 数据挖掘原理与技术 工业出版社,2004. [7]梁波,吴俊峰,舒华英.移动通信客 因素实证研究[J].北京邮电大学学报,2005 作者简介 任佳(1979),女,陕西靖边人,助教,硕—
/
本文档为【基于孤立点检测的异常客户行为分析】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索