为了正常的体验网站,请在浏览器设置里面开启Javascript功能!

数据挖掘案例分析--啤酒与尿布

2017-09-27 12页 doc 28KB 44阅读

用户头像

is_995397

暂无简介

举报
数据挖掘案例分析--啤酒与尿布数据挖掘案例分析--啤酒与尿布 前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长~ 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位...
数据挖掘案例分析--啤酒与尿布
数据挖掘案例--啤酒与尿布 前言 “啤酒与尿布”的故事是营销届的神话,“啤酒”和“尿布”两个看上去没有关系的商品摆放在一起进行销售、并获得了很好的销售收益,这种现象就是卖场中商品之间的关联性,研究“啤酒与尿布”关联的方法就是购物篮分析,购物篮分析曾经是沃尔玛秘而不宣的独门武器,购物篮分析可以帮助我们在门店的销售过程中找到具有关联关系的商品,并以此获得销售收益的增长~ 商品相关性分析是购物篮分析中最重要的部分,购物篮分析英文名为market basket analysis(简称MBA,当然这可不是那个可以用来吓人的学位名称)。在数据分析行业,将购物篮的商品相关性分析称为“数据挖掘算法之王”,可见购物篮 商品相关性算法吸引人的地方,这也正是我们小组乐此不疲的围绕着购物篮分析进行着研究和探索的根本原因。 购物篮分析的算法很多,比较常用的有A prior/ æ’ p r i ?/算法、FP-tree结构和相应的FP-growth算法等等,上次课我们组的邓斌同学已经详细的演示了购物篮分析的操作,因此在这里我不介绍具体的购物篮分析算法,而是在已经获得的结果的基础上剖析一下数据身后潜藏的商业信息。目前购物篮分析的计算方法都很成熟,在进入20世纪90年代后,很多分析软件均将一些成熟的购物篮分析算法打包在自己的软件产品中,成为了软件产品的组成部分,客户购买了这些软件产品后就等于有了购物篮分析的工具,比如我们正在使用的Clementine。 缘起 “啤酒与尿布”的故事可以说是营销界的经典段子,在打开Google搜索一下,你会发现很多人都在津津乐道于“啤酒与尿布”,可以说100个人就有100个版本的 “啤酒与尿布”的故事。故事的时间跨度从上个世纪80年代到本世纪初,甚至连故事的主角和地点都会发生变化——从美国跨越到欧洲。认真地查了一下资料,我们发现沃尔玛的 “啤酒与尿布”案例是正式刊登在1998年的《哈佛商业评论》上面的,这应该算是目前发现的最权威报道。 “啤酒与尿布”的故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。 在美国有婴儿的家庭中,一般是母亲在家中照看婴儿,年轻的父亲前去超市购买尿布。父亲在购买尿布的同时,往往会顺便为自己购买啤酒,这样就会出现啤酒与尿布这两件看上去不相干的商品经常会出现在同一个购物篮的现象。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布”故事的由来。 当然“啤酒与尿布”的故事必须具有技术方面的支持。1993年美国学者Agrawal (个人翻译--艾格拉沃)提出通过分析购物篮中的商品集合,从而找出商品之间关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为。艾格拉沃从数学及计算机算法角度提出了商品关联关系的计算方法——A prior算法。沃尔玛从上个世纪90年代尝试将A prior算法引入到POS机数据分析中,并获得了成功,于是产生了“啤酒与尿布”的故事。 “啤酒和尿布”的故事为什么产生于沃尔玛超市的卖场中 卖场中“啤酒与尿布”的现象比比皆是,为什么“啤酒与尿布”的故事只产生在沃尔玛的卖场中,而不是其他零售门店,这里有两个原因。 第一个是沃尔玛先进的计算机技术是“啤酒与尿布”故事产生的强大支持后盾。零售业目前使用的很多新技术都是沃尔玛率先“尝鲜”的,比如沃尔玛最 早在门店尝试计算机记账,最早在门店收款台尝试使用外形丑陋俗称“牛眼”的条码扫描器进行收款,世界上第一个发射私人通信卫星等等。”前人栽树,后人乘凉”,目前运用于门店管理的很多技术手段都是沃尔玛做了“第一个吃螃蟹”的,我们只不过坐享其成而已。由于沃尔玛具备先进的技术手段,“啤酒与尿布”的故事在沃尔玛产生就一点也不奇怪了。 第二个原因是沃尔玛拥有一双锐利的慧眼。沃尔玛是一家极其讲究卖场现场管理的企业,沃尔玛创始人老沃尔顿最大的乐趣就是不停地在卖场巡视,更多地运用自己的双眼而不是数据来发现事实。因此不能忽略的是,没有沃尔玛管理人员的慧眼,“啤酒与尿布”的故事也会淹没在大量的零售数据中。 “啤酒与尿布”并不是新故事 营销界很多人对于“啤酒与尿布”的故事津津乐道,吹捧得如同发现新大陆般~“啤酒与尿布”的故事就是商品交叉销售,这种销售现象几乎和人类历史一样悠久,在古人披着兽皮交换贝壳、粮食、石斧等商品时,他们已经清楚地了解商品交叉销售对于商品交易的重要性,一些聪明的家伙会采取种种鼓励客户多交换一些商品(估计是一袋贝壳加一条鱼换一袋大米)。“啤酒与尿布”的故事只是对商品交叉销售现象的一种现代解释,并不是出现“啤酒与尿布”的故事之后,才存在商品交叉销售的现象。从这个意义上讲,沃尔玛并没有发现新大陆,只不过把我们视而不见的现象挖出来,并从中发现了商业价值。沃尔玛的创始人老沃尔顿说,retail is detail (零售就是细节)。 商品销售相关性与关联商品 研究商品关联关系的方法就是购物篮分析,在购物篮分析方面有两个值得我们学习的榜样,一个是美国的沃尔玛,另一个是日本的7-11便利店。同样是购物篮分析,沃尔玛强调找出商品之间的关联关系,比如啤酒与尿布,而7-11便利店的重点在于找出影响商品销售的所有因素,比如碳酸饮料 与气温的关系等等。换句话说,沃尔玛重点是分析购物篮 如我们在电影或者泡沫剧里面所见,日本很多门店的经营面积狭小,站在门店里任何一个角落,所有的商品转个身就全看见了——真正的抬头不见低头见,所以找出商品关联关系 不是日本 7-11便利店的重点:你就是找出来啤酒与尿布之间有“暗恋”关系,也没用~因为啤酒与尿布本来就在一起。 当然日本7-11便利店这类相关陈列的故事也是有的,比如荞麦冷面与纳豆、鱼肉香肠与面包、酸奶与盒饭等等,但是毕竟起不到主要作用,日本7-11便利店更关注的是: ? 气温由28?上升到30?,对碳酸类饮料、凉面的销售量会有什么影响, ? 下雨的时候,关东煮的销售量会有什么变化, ? 盒饭加酸奶、盒饭加罐装啤酒都是针对什么样的客户群体,他们什么时间到门店买这些商品, 所以,日本人的重点是分析所有影响商品销售的关联因素,比如天气、温度、时间、事件、客户群体等,这些因素我们称为商品相关性因素。 日本人对于所有影响商品销售的关联因素研究得非常透彻,因此日本就会有气温-碳酸饮料指数、空调指数、冰激凌指数,因此就不难理解为什么 7-11便利店会设置专门的气象部门,因此更能够理解为什么日本7-11便利店会要求门店每天5次将门店 为什么沃尔玛会以购物篮为管理重点,沃尔玛认为商品销售量的冲刺只是短期行为,而零售企业的生命力取决于购物篮。一个小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴 藏着太多的客户信息。零售业的宗旨是服务客户,沃尔玛认为商店的管理核心应该是以购物篮为中心的顾客经营模式,商品排名只能体现商品自身的表现,而购物篮可以体现客户的购买行为及消费需求,关注购物篮可以使门店随时掌握客户的消费动向,从而使门店始终与客户保持一致。 启示二:购物篮方面的差距 购物篮的表现形式就是我们常说的“客单价”,客单价的高低直接反映了零售企业的经营效益。根据AC?尼尔森2006年对国内零售企业的调查发现, 从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元。到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到 149元,这就是我们国内企业在购物篮方面的差距(见图1-1)。 我们知道,销售额=客单价×客流数。在同等客流量的情况下,我们的企业由于客单价 低,已经先失一着,销售业绩要比外资企业低200,,比台资企业低60,。此外,销售额低会带来很多问题,比如毛利额低、通道费低、与供应商的话语权降低,甚至会直接影响到企业的生存。因此,要想提高商业企业的销售 业绩,必须改善企业购物篮,全面提升客单价,可以说零售企业的购物篮代表了企业的生存权~ 图1-1 各类零售企业客单价(购物篮)金额分布图 另据有关报道,客户到家乐福卖场的年平均购物频度只有9.8次,但是在快速消费品的市场份额却比年平均客户购物频度高达51次的华润苏果高出 3.63,,家乐福、沃尔玛、易初莲花等外资零售企业仅仅利用客户几次上门购物的机会,就获得了远比国 提到商品相关性,很多人认为就是数据分析的事儿,其实对于商品相关性来说,更重要的是客户心理层面的因素,毕竟是人在提着购物篮,而不是猴子。 客户在购物时的心理行为是产生商品之间关联关系最基本的原因,因此在找到购物篮规律时,必须要从客户消费心理层面解释这些关联关系,否则“啤酒与尿布”会永远停留在啤酒与尿布两个商品身上,而没有任何的推广意义。要想详细了解商品相关性形成的客户心理因素,要进行大量的客户消费行为观察,构建客户购物篮场景,才可使“啤酒与尿布” 的故事发扬光大。 一张小纸条——商品相关性分析的依据 要想找到“啤酒与尿布”之间的关联关系,就要对客户手中的购物篮进行计算。 我们将单个客户一次购买商品的总和(以收银台结账为准)称为一个购物篮。比如我们在超市收银台一次购买了5件商品:啤酒、卫生纸、熟食、果汁饮料、大米,我们就可以认为在这个购物篮中共有5件商品,在收款台交款时这5件商品会集中体现在同一个收款小票中。因此,我们可以说,一个购物篮就是一张收款小票,购物小票就是购物篮分析的一个重要依据,一张购物小票并不简单,这张小纸条实际上包含了3个层面的含义。 ? 购买商品的客户:“啤酒与尿布”实际上是讲述了特定客户群体(年轻父亲)的消费行为,如果忽略了这个特定的客户群体,“啤酒与尿布”的故事将会毫无意义。 ? 购物篮中的商品:同时出现在一个购物篮中的啤酒和尿布包含了很多要素,比如这些啤酒与尿布同时出现是否具有规律,啤酒和尿布的价格是多少,是否进行了促 销„„ ? 购物篮的金额信息:购买啤酒和尿布的客户使用了什么样的支付方式,是现金、银行卡、会员储值卡,还是支票等等。 有会员卡与无会员卡的超市购物篮分析 提到超市的购物篮分析,很多人第一反应就是超市必须要有会员卡,否则这件事儿就干不 了,其实没有那么复杂。 超市有会员卡,通过会员卡分析POS机的消费数据是一件惬意的事情,可以知道这样的事实:老张今天买了2瓶啤酒、一包花生米、2袋豆腐干;大前 天老张买了4瓶啤酒、一包开花豆、4袋豆腐干。 可是一个1000平方米的超市,像老张这样的客户一天可能有1000~2000个,这样的数据看上一天也不会有什么结果,除了知道老张喜欢喝上一口,喜欢用花生米、豆腐干下下酒,其他的事情都不知道。 这就引出了一个新的话题:客户群体划分。 了解一个又一个老张们的喝酒习惯对于门店是没有意义的。门店需要知道的是,门店有多少个老张,又有多少个与老张喝酒习惯不同的老李,将喝啤酒就花生米的老张与喝干白葡萄酒就腰果的老李分开,分成不同的客户群体,对于门店才是有意义的。 比如门店只要知道,在喝酒的100个客户里,有30个喝啤酒就花生米的老张,10个喝干白葡萄酒就腰果的老李,另外有20个老王是喝黄酒就豆腐干,这就足够了。门店这时就可以知道,啤酒与花生米有关联关系,干白葡萄酒与腰果有关联关系,黄酒与豆腐干有关联关系,这些商品可以考虑一起促销,或者摆放在相近的位置进行陈列。 这么说大家应该明白了吧,我们分析啤酒与花生米、干白葡萄酒与腰果、黄酒与豆腐干之间的关联关系时,不需要了解这些客户到底是谁,只要知道有这么个群体存在就行了。 找商品之间关联时有会员卡当然不错,没有会员卡时一样可以分析啤酒与尿布、啤酒与花生米之间的关系,我们只要知道怎么去归类就可以了。不要听某些人讲,没有进行购物篮分析,原因是超市没有使用会员卡,这不过是借口而已。 以支持度、置信度、提高度三项指标表现的商品相关性 很多专业人士认为,一个正规的购物篮分析报表应该采取三个指标数字,才可以准确地衡量商品是否真的存在关联关系:采取“支持度(support)-置信度(confidence)”作为主要商品相关性分析指标,为了强化说明关联关系,往往会运用提高度(lift)指标。 1. 支持度(support)指标 在购物篮分析中,支持度指的是多个商品同时出现在同一个购物篮的概率。比如啤酒与尿布同时出现在购物篮中的概率是20,,我们称啤酒与尿布的支 持度是20,,按照国际命名规则表示为:啤酒Implies 尿布=20,。 “啤酒与尿布”不等于“尿布与啤酒”——相关性的单向性:这不是一句绕口令,这是代表商品之间的相关性具有单向性。我们前面讲过,“啤酒与尿布”代表了一种因果关系。在“啤酒与尿布”的故事中,年轻的父亲去超市的目的是购买尿布,在买到尿布的前提下,才会考虑购买啤酒,因此在购买尿布的父亲中有35,购买了啤酒,不代表购买了啤酒的父亲有35,购买了尿布,因为这是两类不同的消费行为,商品之间的因果关系也会不同,因此这个故事不能反过来讲。 要看商品之间是否具有相关性,在计算商品之间的支持度时,需要反过来计算进行验证,看看两个商品之间的相关性具有多少的可信度,从而寻找商品之 间的因果关系。由于商品之间关联关系具有单向性,在零售业也会采取这种表示商品关联关系的方式:尿布?啤酒,即尿布与啤酒之间具有关联关系,方向是从尿布到啤酒(反过来不一定对)。 2. 置信度(confidence)指标 置信度是对支持度进行衡量的指标,用于衡量支持度的可信度及数据强度。由于这项指 标是将商品同时出现在购物篮中的概率进行反复运算,因此这是衡量商品相关性的主要指标。 3. 商品之间的亲密关系——提高度(Lift,也称兴趣度)指标 提高度是对支持度、置信度全面衡量的指标,很多时候在衡量商品关联关系时只采用这一个指标,可见这个指标的重要性。当提高度指标大于1时,表明商品之间可能具有真正的关联关系。提高度数据越大,则商品之间的关联意义越大。如果提高度小于1.0时,表明商品之间不可能具有真正的关联关系。 在某些情况下,提高度会出现负值,此时商品之间很有可能具有相互排斥的关系,体现在购物篮中,就是这些商品从来不会出现在同一个购物篮中。 为了说明问题,我们下面还是以几个具体的案例说明上述问题 超市中熟食、面包、肉类三种商品之间的关系——三项指标表示的商品相关性 图1-3是我们对某超市熟食、面包、肉类商品的关联性分析图,相信前一次邓斌同学的演示大家还记忆犹新,我们在这里向大家解释一下如何解读这个关系图。 我们以第一行数据为例,表示客户购买熟食时,有8.33,的客户会同时购买面包,这个比例很少,因此可以认为买熟食的客户只有很少的比例会购买 面包。 第二行数据表示在客户购买面包时,会有33.33,的客户同时购买熟食,这样的关联度数字具有商业价值,我们在这里也要注意,熟食与面包的关联 度方向性很强,这是代表了不同的消费行为。 第三行数据显示购买熟食品的客户在完成购物后,会去买肉类商品。 在表1-3中我们可以看出,熟食与肉类、肉类与熟食之间具有关联关系。 肉类和面包与熟食之间、熟食与肉类和面包之间具有关联关系,这些关联关系经得起反复计算,是真正的关联关系,而其他商品之间没有真正有意义的关 联关系。 我们在前面谈到了,商品关联度有好几种表示方式,但是这些方式实在很麻烦~你可能会问,哎呀,有没有办法用一个简单的数据,直截了当地表示商品之间的关联度,当然有了,表示商品关联度的数值可以统称为R值(Relationship的简称),这个R值作为商品之间相关性的数值统称,可以是商品同时出现在购物篮的概 率,也可以是商品之间的提高度。 R值的含义 R值是衡量商品相关性的重要指标,按照购物篮分析的规律,R值与商品相关性的对应关系定义如图1-2所示。 图1-2 R值与相关性指标对应关系 对于R值大于0.75,则可以认为具有相当强的相关性,R值在0.25~0.75为较强相关,R值低于0.25的相关为弱相关。 1. 不要盲目乐观——当商品之间的R值大于0.75时 在购物篮商品相关性分析时,如果发现商品之间的相关性越强,当然代表商品之间具有很强的关联关系,但是别高兴太早,R值越大越可能得出无意义的分析结果,因为此时揭示的可能是卖场司空见惯的东西。比如三文鱼片与绿芥末经常会出现在一起,或者热狗面包与热狗、卷笔刀与铅笔、方便面与火腿肠经常出现在一起等,这样的分析结论要尽早剔除,以免为业务人员所嘲笑。西方有一句名言:“不要尝试再去发明车轮”,用在这里作为某些大的R值的是很恰当的。 2. 临时因素造成的强关联关系——当商品之间的R值在0.25~0.75之间 这类R值在购物篮数据分析行业称为“强关联”,很多“强关联”是临时因素“干扰”造成的,有些“干扰因素”没有意义(如下面提到的伪关联),有 些“干扰因素”有意义,比如摆放在同一个堆头区商品很容易同时出现在购物篮中,看上去具有很好的相关性,一旦 促销结束、堆头撤销,商品的相关性也会消失,但是这样的临时因素就非常有意义,可以证明促销组织非常成功,因此可以用来评估促销效果。 3. 隐藏在微弱特征背后的真相——当商品之间的R值在0.25以下 在购物篮分析行业,将R值低于0.25的相关性称为“弱关联”。在很多弱关联中,蕴藏了很多不为人知的商业规律,比如啤酒与尿布这类商品的关联关系,相关关系特征相当微弱,只有在特定的条件下(比如购买啤酒与尿布的父亲),这些特征才会强化从而被人发现,所以零售专家认为,弱关联最吸引人。在弱 关联中找出商品之间存在的关联关系,对于很多数据分析人员来说是个极大的挑战,因此购物篮分析的主要任务是在弱关联的关系中找出商品之间的相关性。 4. 同行是冤家——当商品之间的R值为负值 出现负值代表商品从来不出现在同一购物篮中,商品之间的关系是排斥关系。很多购物篮分析数据不提及R值为负的情况,这是因为R值为负数时,分析 难度更大。一般来说,只有在商品之间的功能相同时,R值为负值才有意义,因此我们称为“同行是冤家”,这时往往代表商品之间是竞争替代关系。 R值背后隐藏的事实 在卖场中存在大量的商品关联关系,比如油条与豆浆、三文鱼与绿芥末、牛奶与面包等等,这些商品之间具有较强的关联关系,也有一些商品之间是竞争 关系(负关联即排斥关联),比如米饭与面食、猪肉与鸡肉、各类面包之间、不同品牌牛奶之间等等。 尾声 其实除了“啤酒与尿布”之外,商品之间还会存在很多奇特的关联现象,只是这个故事给我们打开了通往发现真相的大门。我相信,人们对这个经典的案例的挖掘还会继续下去,借句老话说:经典早就了永恒。我希望,我们今天的演示能够为在Data Mining挖掘出来数据信息之后抓耳挠腮、不知何用的同学提供一点点思路。虽然我们还没涉足社会进行自己的创业,但是我们可以结合我们平时的所见所闻所想,再佐以前人的经验,牛顿说:我们成功,是因为我们站在巨人的肩膀上。
/
本文档为【数据挖掘案例分析--啤酒与尿布】,请使用软件OFFICE或WPS软件打开。作品中的文字与图均可以修改和编辑, 图片更改请在作品中右键图片并更换,文字修改请直接点击文字进行修改,也可以新增和删除文档中的内容。
[版权声明] 本站所有资料为用户分享产生,若发现您的权利被侵害,请联系客服邮件isharekefu@iask.cn,我们尽快处理。 本作品所展示的图片、画像、字体、音乐的版权可能需版权方额外授权,请谨慎使用。 网站提供的党政主题相关内容(国旗、国徽、党徽..)目的在于配合国家政策宣传,仅限个人学习分享使用,禁止用于任何广告和商用目的。

历史搜索

    清空历史搜索