一种基于关联规则的超市购物篮分析方法
2023-08-04
来源:好走旅游网
维普资讯 http://www.cqvip.com 第23卷第2期 湖 北 工 业 大 学 学报 2008年4月 V0I.23 No.2 Journal of Hubei University of Technology Apr.2008 [文章编号]1003--4684(2008)02—0053—03 一种基于关联规则的超市购物篮分析方法 杜海涛,陈定方,张 波 (武汉理工大学物流工程学院,湖北武汉430063) [摘要]就数据挖掘中的关联规则算法的概念及其在超市购物篮分析中的应用进行了探讨,对Alphamln— er2.0的功能特点进行了介绍,并提出一种利用Alphaminer2.0数据挖掘软件来进行超市购物篮分析的方法, 给出了运行的实例. [关键词]关联规则;Alphaminer;购物篮 [中图分类号]TP391 [文献标识码]:A 在当今商品充斥的时代,面对琳琅满目的商品 关联规则作为数据挖掘中最活跃的研究方法之 与令人眼花缭乱的大量商家,消费者往往感觉无所 一最早是1993年由Agrawal等人主要是针对购物 适从.于是,商家开始通过对消费者购物行为的分析 篮分析问题提出的[1],目的是为了发现交易数据库 来对商品进行合理的摆放以及对商铺进行合理的布 中不同商品之间的关联规则.关联规则定义了从事 局,使商场销售格局更符合消费者的消费行为与模 务数据库的大量数据中挖掘项集之间有趣的关联或 式,从而为商场提高销售业绩,创造更多的利润,也 相关关系,PeiJ&HanJ(2000)认为关联规则是在 为消费者带来更多的方便.这也正是美国零售业巨 事务数据库的交易记录中被同时购买的不同商品项 头沃尔玛创造的“啤酒与尿布”的成功案例给人们带 之间的关联关系,设,一{i。,i ,…}是不同商品项 来的启示. 的集合.设A、B为两个包含不同商品项的项集 每一次购物篮处理得到的都是一位顾客的购物 (item set),定义包含 个商品项的项集为K项集, 信息,大多数零售企业只是将这些数据进行简单分 例如C一{i。,i ,i。}称之为3项集,其余 项集的定 类、分析单一的销量数据,实际上并没有充分利用这 义依此类推.事务T包含A、B且有A ,,B ,.此 些能反映所有顾客购物行为最有效的数据,一些宝 时关联规则表示为A B,其中A为关联规则的前 贵的数据资源成了“数据坟墓”. 件(Antecedents),B为规则的后续(Cconse— 另一方面,随着信息技术的发展,通过分析大量 quent). 历史数据来发现模式和规律的数据挖掘技术应运而 1.2支持度与置信度 生.然而,大多数商家并不是数据挖掘技术领域的专 支持度(support)和置信度(confidence)两个阈 家.如何使数据挖掘技术“平民化”,成为当前很多学 值是描述关联规则(Association rules)的两个重要 者研究的热点之一. 概念,支持度反映关联规则在数据库中的重要性,置 本文针对当前零售业中“数据爆炸但知识贫乏” 信度衡量关联规则的可信程度.如果某条规则同时 的现象,对关联规则算法在购物篮分析中的应用进 满足最小支持度(min-support)和最小置信度(min- 行了探讨,并提出一种基于Alphaminer2.0来进行 confidence),则称它为强关联规则[2]. 超市购物篮分析的方法. 1.3关联规则在超市购物篮分析中的应用 1)制定交叉销售策略.应用关联规则挖掘,可以 1 关联规则简介 有效地发现商品之间的有趣关联,为零售企业的货 架布置及关联促销提供决策信息,在此基础上制定 1.1关联规则的基本概念 综合性的交叉销售策略,将有助于提高零售企业的 [收稿日期]2007—12—01 [作者简介]杜海涛(1986一),男,湖北麻城人,武汉理工大学,研究方向:数控挖掘技术. 维普资讯 http://www.cqvip.com 54 湖 北 工 业 大 学 学报 2008年第2期 销售业绩和客户满意度,进而提升企业竞争力. 2)促销活动.超市常通过各种方式进行促销活 动,以达到推广产品、吸引顾客的目的.只有充分了 解客户,才能准确定位促销对象,提高针对性,降低 4)设置参数:参考表1输入关联规则的参数. 5)导出结果并分析:依次运行各模块,则在关联 规则模块中建模结果以规则和PMML两种形式呈 现.其中PMML是一种基于XML的语言,用来定 活动成本.利用关联挖掘技术可以指导商家制定“捆 绑销售”策略. 义预言模型.选取规则作为进一步分析的依据.若没 有得到规则,则参照表1修改关联规则的参数;若得 3)制定企业营销组合策略.零售业中运用关联 分析技术,分析企业交易和顾客等数据,可以从海量 企业数据源中挖掘有趣的关联模式,理性制定企业 营销组合策略,支持企业进行理性营销组合要素的 整合、实施,为零售企业在进行经营活动时如何进行 商品的组合、促销、服务和定价等营销决策问题提供 强有力的支持.以期提高顾客忠诚度和满意度,最终 达到企业竞争力的提升. 2 Alphaminer2.0简介 AlphaMiner是一个通用的数据挖掘系统,它能 够帮助用户建立一个完整的数据挖掘流程,并提供 一系列的功能使得用户可执行其中的任意挖掘步 骤.这些功能包括:访问不同数据源中的数据、用不 同的方式勘探数据、操作数据、建立各种数据挖掘模 型、分析模型以及在企业环境中部署模型. AlphaMiner系统最主要的特点是它能够把开 发好的数据挖掘案例保存在它的知识库中以便于日 后重用 ,对于一般的商业管理人员,这个功能显著地 提高了AlphaMiner系统的可用性. 3基于Alphaminer2.0的超市购物篮 分析 3.1 分析方法 利用AlphaMiner2.0进行基于关联规则分析 的流程主要包括建立数据、建立流程、导人数据、设 置参数、导出结果并分析. 1)建立数据:AlphaMiner2.0软件中可导人以 下类型的文件输入数据:Attribute—Relation、Com— ma Separated Value(CSV)、Excel、MS IIS Log、 NCSA Common Log以及NCSA Combined Log.将 通过购物篮处理得到顾客购物的全部信息,建立成 以上任意一种类型的数据格式. 2)建立流程:将关联规则模块拖入案例视图模 板,并将它连接到一个数据访问模块或数据转化模 块.其中数据访问模块和数据转换模块将提供算法 的数据源. 3)导入数据:在数据访问模块中输入已经建立 的数据. 到规则,就按照关联规则理论进行下一步分析. 表1 关联规则模块参数列表 参数 类型 描述 集最小谷量整型设定关联规则中项的最小数日 项集最大容量整型设定关联规则中项的最大数目 无限制萎誊 薷鉴美曩蓄 关联绷忡 最小支持度整型设定关联规则中项的最小支持度 最小置信度 整型设定关联规则中项的最小置信度 项编号 萋差 霍生成关联规则所需的“he mid’ 事务编号 薏蔷a设ct定ion生"N成关联规则所需的“Trans一 3.2案例分析 下面以某超市为例进行基于关联规则的购物篮 分析,以找出强关联规则,为超市的商品摆放提供依 据.该超市部分原始数据如图1所示. 1 B t{ c}D E l F{G{lH l l j I cardid value}pmethod; homeown I incomel age’cookies 1 fish I oran2 ̄iuic, 2 3 NO }27000 46 cookies : 672 l 535 7 CA SH气 iF NO i 30000 28 Icookies ; 羔 — §蟹 呈 』 堕icA —L丛一 NO・ -】32OO 36 fish 量 26748 23 6883 CARD l F NO }12200:26 童 9l6091 l8 8133I cARD {M YES t l1000;24 一7 26630 46 4867 CARD ;F N0 1 l5000.35 fish} 点 62995 l4 0467i CASH I F YES 20800}30 I orangejuic 里 38765 222034I CA5H j M } YES 24400{22 - 煦 28935 22 975 cHEOuE{F NO 29500:46 1 41792 14 9562。CASH l M I NO 29600】22: ifish; t2 59480i 10 3282 CASH I F l NO 27100{18 ;fish{ 嚣 — 7堕§099曼8 1土 z3 77堕l96 CA RD L )YE…王旦Ⅲj—YE …3。2 一2 ̄9o7o300f; 塑』…~43 — 』f 』ishI 一_..一 益 17 83606405i17l 33460_ 5208209{ .22 C CHHEOUElEQUE—L 上一NO{ FF i l YYES E~一 S;218400 I800Q I0 4 一 L19}3: ¨…—f: -fiisshh土 p1i ofanioran_ggseiUi.eej业mcC  ̄ 盥 } l {J I i I业 2o J1357l_.85699}_. 10 753 旦 g土 CASH —l王一I F jL— YES …;一一 _j 23100。26 J_2 Q 里土~…~0 . 照Lfish; 21 97761:32 3184 CARD}F j YES 25800 38 cookieslfish{ 20362 3 J 72 CASH!M1 YES【25100 38 !nsh} 图1某超市部分原始销售数据图 建立如图2所示流程图,该流程图依次表示:从 文件中输人数据、设置属性、数据集可处理化和关联 规则.此执行流程将完成从数据输入到导出强规则 结果这一过程. 势—一 —一 ——————图 [Super打开文件 market basket 1‘ 绺i n ‘ “ s‘… socdia。t i】o 袋 ’ 图2 AlphaMiner2.0执行流程图 设定关联规则模块的参数为:项集最小容量为 2,项集最大容量无限制.选择恰当的支持度与可信 度是挖掘有效关联规则的关键.超市的销售数据属 于大数据量数据,无法预知什么大小的支持度可以 维普资讯 http://www.cqvip.com
第23卷第2期 杜海涛等 一种基于关联规则的超市购物篮分析方法 55 过滤出合适的数据.因此,可根据规则产生的实际数 量和预定的目标对最小支持度和最小置信度标准作 适当的调整,以避免过多或过少规则的出现.通过对 局部购物数据进行数据挖掘,得出支持度、可信度以 及关联规则数目的对比关系,对其结果进行分析、比 较,最后确定相对精确的支持度和可信度的值:最小 支持度为18 ,最小置信度为50 .运行生成挖掘 结果如图3所示. 1 2 3 peanuts=>red wine re wine=>peanuts beer=>red wine 2 2 2 18.359 18.359 18.035 56.291 58.O2 55.OO6 譬 一178.136,依次类推可计算出项集 . {red wine,beer)的增益lift2—174.535,项集{beer, peanuts)的增益lift3—175.259. 1ift值越大说明商品间的相关性越大口].当lift 值为1时,商品间的相关性为0.当lift值小于1时 商品的相关性很小,即顾客同时购买商品的可能性 很小.于是可知顾客同时购买beer和peanuts的可 能行最大,则可将两者置于货架的相邻位置提高销 售量的效果将最明显. 4 5 6 red wine=>beer beer=>peanuts peanuts=>beer 2 2 2 18.035 18.683 18.638 56.997 57.O96 57.285 4 结语 “数据爆炸但知识贫乏”的现象成为商家的心 病,而对数据挖掘技术的陌生又使得商家在大量的 历史数据面前束手无策.利用免费开源的Alpha— Miner2.0软件,本文提出了一种基于关联规则算法 来进行购物篮分析方法,并给出了运行的实例,给零 售业企业进行类似的关联分析带来了极大的便利, 使得数据挖掘技术的使用更加大众化.利用Alpha- Miner2.0来对零售业企业进行数据分析具有广泛 的应用前景. 图3挖掘结果图 挖掘结果中的规则支持度和置信度分别大于等 于给出的最小支持度和最小置信度的规则,而求解 关联规则挖掘就是寻找满足最小支持度和最小置信 度规则的过程.在本实例中,已经找到满足最小支持 度和最小置信度的规贝 .因此,运用Alphaminer2.0 软件进行关联规则分析是简便、可行的. 此外,还可以对挖掘结果作进一步分析,以找到 最强的关联规则.以上6个强关联规则说明顾客同 时购买peanuts和red wine,red wine和beer,beer 和peanuts的可能性很大,因此将这些商品进行捆 [ 参 考 文 献] 绑销售或者摆放在靠近位置能促进销售. 对于包含项A—peanuts和B—red wine的规 Eli Agrawal R,Imielinski T,Swami A.Aperformance per— spective.Transactions on Knowledgeand Data Engi— 则peanuts red wine,它的支持度为Support —neering[J].Database mining,1993(5):914—925. [2]李新良,陈湘涛.数据挖掘中关联规则算法的研究[J]. 计算机工程与科学,2007(12):111—116. P(A N B)一18.359,置信度confidence一 旦 ]r n _ 一56.291,于是P(A)一0.326,同理可 知P(B)一0.316.所以项集{A,B)的增益lift 一 [3] ZhaoHui Tang,Jamie Maclennan.数据挖掘原理与应 用EJ].国外计算机科学经典教材,2007(1):322. A Method of Analyzing Market Basket Based on Association Rules DU Hai—tao,CHEN Ding—fang,ZHANG Bo (School of Logistics Engine.,Wuhan Univ.of Technology,Wuhan 430063,China) Abstract:The concept of Association Rules and its application in the analysis of market basket are dis— cussed and the features of the Alphaminer2.0 are introduced.By using Alphaminer2.0 software,a method of analyzing market basket is given with an operational example. Keywords:association rules;alphaminer;market basket [责任编校:张岩芳]