您的当前位置:首页正文

基于关联规则的推荐系统在电子商务中的应用

2023-10-13 来源:好走旅游网
维普资讯 http://www.cqvip.com Value Engineering No.5。2006 价值工程2006年第5期 基于关联规则的推荐系统 在电子商务中的应用 The Applications of E-Commerce Recommendations Based on Association RIlles 赵艳霞Zhao Yan×ia;粱昌勇Uang Changyong (合肥工业大学管理学院,台肥230009) (School of Management.Hefei University of Technologies。Hefei 230009.China) 摘要:电子商务的发展加剧了企业的竞争。为了克分应用商务网站的信息。本文提出了建立基于关联规则的电子商务的推 荐系统:探讨了电子商务推荐系统模型、生成关联规则和形成推荐集的过程。主要应用FP—Tree算法挖掘客户的行为模式和购 买组合。根据用户的兴趣度和置信度产生相应的推荐候选案,实现网站的个性化服务。根据挖掘的客户知识。网站可以制定针 对目标客户的营销方案.从而提高客户的忠诚度.增加商务网站的赢利水平和竞争能力。 Abs缸act:The e—commerce leads to the more—intensive competition among the entiites.to make full use of the information on hte web site,it propo8eS the e-commerce recommendations based on association rules.It studied the system mode1.association rules and how to give the recommenders.By analyzing and mining the customers on-line purchasing,the association rules were find by means of FP—Tree algorihtm.Then the patterns for frequently purchasing were extracted by faletring support degrees..I1Ie candidating webs to be recommendated call be determined according to the customers interest degree and the credulity of the rules.80 that pemonalization recommdation services COuld be provided.Then the company makes the selling promotion for the specila customers.It would increase the customer's loyalty and bring a promotion of profit sa well as the competiiton for hte enterprise. 关键词:电子商务:推荐系统:关联规则 Key words:e-commerce;recommendations system;Association rides 中田分类号:F713-36 文献标识码:A 文章编号:1006-431l(2OO6)05-0082-04 0引言 它要求推荐系统从大量历史销售数据中进行学习.找 随着互联网普及和电子商务发展.推荐系统逐渐 出若干商品项之间的相关程度。提炼出规则。为后来的 成为电子商务IT的一个重要研究内容.越来越多地受 产品推荐提供依据。这里需要指出的是系统的自动学 到研究者关注。目前几乎所有大型电子商务系统。如 习过程,它把学习的结果以规则的形式表现出来。因而 Amazon,CDNOW,eBay。当当网上书店等都不同程度地 需要应用数据挖掘技术。本文引入数据挖掘中的关联 使用了各种形式的推荐系统。而具备独特的、个性化服 规则技术,能够很好地解决相关产品推荐的问题.为客 务网站将对客户产生浓厚吸引力.从而有效地增加企 户个性化需求提供技术上的解决方案。 业站点访问率。推荐系统是电子商务个性化服务的重 要组成部分。它根据顾客以往购买情况推测将要进行 1电子商务推荐系统概述 的消费行为,模拟销售人员帮助其完成购买过程。个性 电子商务推荐系统的定义为:“利用电子商务网站 化推荐系统包括热销商品推荐、新品推荐、相关推荐和 向客户提供商品信息和建议.帮助用户决定应该购买 同用户群同兴趣推荐等。 什么产品,模拟销售人员帮助客户完成购买过程”。该 本文重点讨论技术难度较高的“相关产品推荐”。 定义现已被广泛引用。1998年7月.由美国AAAI组织 各学者在威斯康辛州专门召开了以推荐系统为主题的 作者简介: ̄(1978一),女.硕士研究生,研究方向为信息资源管理、客户关系管理。梁吕勇(1965一).男,安徽合肥人.博士生导师。研究 方向为信息管理、智能决策。 ⑦薛伟贤、冯宪宗:‘网络经济效应分析》叨;‘系统工程》2O05(3)。 ⑤周朝昆:《网络经济学》【M】;上海人民出版社。2003。 ( 汪应洛:‘系统工程理论、方法与应用》【M】;高等教育出版社。 ⑥王健、关中利:(Intemet市场分析与预测》【Jl;‘商业研究》2oo5 2004。 (13)。 ④王健伟、张乃侠:‘网络经济学》【M】;高等教育出版社,2004。 ⑦谢泽明:《网络社会学》【M】;中国时代经济出版社.2002。 一82一 维普资讯 http://www.cqvip.com Vdue Engineering No.5。2006 会议。集中讨论了推荐系统的发展问题。目前。推荐系统 已广泛运用到各行业中,推荐对象包括书籍、音像、网 页、文章和新闻等。推荐系统可以是根据其他客户的信 息或是此客户的信息。根据客户的购买频率、消费金额 和购买模式预测未来的购买行为.为客户提供个性化 服务。根据挖掘的客户行为模式和购买组合来获取新 客户、保持老客户、细分客户和实现交叉销售。 推荐系统在电子商务网站中的作用主要有三方 面:①将电子商务网站浏览者转变为购买者;②提高电 子商务网站交叉销售能力;③提高顾客对电子商务网 站忠诚度。应用数据挖掘技术使推荐系统更智能化,学 习能力更强,推荐效果更好:其实质是为终端用户和电 子商务营销决策者提供相关个性化和智能化服务 电子商务推荐系统,根据数据源选取大致可以分 为基于顾客评分,评价和基于顾客购买历史两类。基于 用户评分,评价的推荐系统比较多.如LIBRA,Item— Based Top—N recommendati0n等。这类推荐系统缺乏通 用性。因为收集评分数据需要顾客一些额外配合。这不 是每个电子商务网站都能做到的:其推荐结果也并不 一定客观.因为不能保证顾客评分能客观反映顾客购 买兴趣。基于顾客购买历史的推荐系统则避免了上述 不足。具有良好的通用性。本文的研究集中在基于规则 的推荐系统。这类推荐系统往往利用实际交易数据作 为数据源。它符合数据源通用性要求。基于关联规则的 推荐系统特点是实现起来比较简洁、推荐效果良好,并 能动态地把客户兴趣变化反映到推荐结果中。 在研究中以商务网站的商品销售为应用背景:用 户与网站Web交互信息和购买历史.以日志文件或顾 客数据库保存。本文考虑的问题是:如何从顾客注册信 息和购物车数据中.挖掘出有兴趣的关联规则及识别 顾客的购买行为模式和趋势.并根据顾客兴趣强度和 关联规则产生最后的推荐集。不同商品之间存在一定 的相关性,这里采用FP—Tree算法、兴趣强度来产生关 联规则和推荐集.能够有效去除那些是强关联规则但 并不是顾客感兴趣的推荐集:同时,因为引入了兴趣强 度。提高了规则可用性,该方法简单有效。 2电子商务推荐系统模型 2.1体系结构设计 电子商务推荐系统实现采用客户机——服务器形 式.如图1所示。 f数据预处理1 【挖掘T具J 一 ̄UI.DMQO腓由_【数据库接口 鬈 篓 I 图l电子商务推荐系统的体系结构 价值工程2006年第5期 三层体系结构由客户机、应用服务器、数据库服务 器组成。GUI实现客户与应用服务器交互。包括挖掘任 务提交、结果显示、调整算法参数、规则筛选等;应用服 务器解决各种数据挖掘算法问题.并可以从数据库服 务器获得数据。这种结构能满足以下要求:数据挖掘的 用户是多样的,对决策者、客户端能灵活易用;应用服 务器能实现功能共享和系统开放性.并实现高效的数 据挖掘算法,能够方便地更新算法;系统维护方便。 应用服务器包含数据收集子系统、预处理子系统 和推荐子系统。数据收集子系统完成从不同的数据源 (如:多个Web服务器访问日志、客户购买历史数据库 等)提取出与个性化推荐相关的源信息。推荐子系统也 是一个Web服务。即推荐服务。用户当前会话访问序列 在经过分类子系统辨别出该访问序列所属类别后.推 荐服务对用户本次访问目的进行分析.并将其可能会 浏览或购买的产品作为推荐结果返回到用户界面。 数据库服务器端的数据主要包括::服务器日志文 件、Cookies、用户显示数据输入和外部统计数据。 客户端数据记录了单用户访问多服务器的模式. 客户端数据需要有专门的程序收集。早期是采用在客 户端修改浏览器获取客户端数据。目前客户端的数据 主要依靠远程agent获得。可以通过JavaScript实现。 客户端数据比服务器端数据要更可靠.它们避免了高 速缓存与 地址误解问题.但获取客户端数据必须用 户给予合作。 2-2工作流程 基于关联规则的电子商务推荐系统工作流如图2 所示。 图2基于关联规则的电子商务推荐系统工作流程 (1)数据收集、预处理。顾客登录公司网站后首先 进行注册。形成顾客注册信息表。顾客可以只是浏览, 也可以在网站客户留言板写下意见和对商品感受(应 用服务器层日志)。这些数据在进人数据库前必须清 洗、集成和转换。通过数据转换,将源数据转换进挖掘 库.为挖掘关联规则提供符合要求的数据。一般而言, 一83— 维普资讯 http://www.cqvip.com Value Engineering No.5.2006 关联规则的挖掘数据是交易型数据。即以交易编码、商 品项编码为特点的数据:同时为了便于规则的显示。商 品项编码所对应的描述信息。如商品名称等,也要进行 相应的迁移。在数据预处理过程中。数据转换要完成交 易集和项目集的转换。值得注意的是,在许多原始交易 集中并没有唯一的字段来作为这个主键。往往需要将 几个字段一起作为主TID键.例如,将客户号和交易时 间作为交易记录的主键。同时,还需要考虑字段类型匹 配问题。如客户号是字符类型,而交易时间是日期时间 类型。这时需要进行必要的类型转换,以满足算法层关 联规则的接口需求。这种转换在系统中自动完成。通过 数据转换.将源数据转换进挖掘库,为算法层关联规则 提供符合要求的挖掘数据。 (2)分析和建立客户行为模型,形成客户档案。电 子商务网站根据公司产品建立商品数据库。包括:商品 类别表(编号、名称、类别),商品信息表(编号、价格、成 本、折扣、颜色等属性)、商品品牌表(编号、品牌名称、 提供商、折扣等)。根据客户购买的商品形成具体的交 易数据和更为详细的客户信息.经过处理后加入到系 统的交易数据库和顾客数据库中。顾客数据库包括客 户信息表(客户编号、姓名、性别、年龄、受教育程度、收 入、职业、婚姻状况等)。客户交易表(客户编号、商品编 号、折扣、数量、日期等)和客户购买趋向表(客户编号、 购买金额、购买频率、购买折扣、客户类别等)。据此建 立客户行为模型。形成客户档案。如客户有什么样的特 征、喜好和购买习惯等。 (3)分析销售数据和客户档案形成规则库。在分析 大量交易数据基础上.寻找客户交易中包含的购买模 式和购买兴趣。并以关联规则的形式保存在规则库中。 通过设定恰当的关联规则置信度和支持度.可以大大 减少提取的规则数目。提高效率和建模准确度。 (4)从购买推荐到销售管理。在推荐引擎中设计一 定的推荐算法.可以依据已形成的规则库自动地制定 出针对客户的购买推荐。一方面直接向特定的客户进 行相关产品的销售;另一方面。把这种推荐模式补充到 销售知识库中.作为客户的购买模式进行销售系统分 析。针对具有类似特征的细分客户群制定专门的营销 策略,例如制定一些销售促进方案。促进公司电子商务 系统的赢利能力和竞争的能力。 3生成关联规则 3.1关联规则的基本概念 Agrawal等在1993年首先提出挖掘顾客交易数据 库中项集间的关联规则问题。其方法是基于频集理论 的递推方法。在数据库挖掘中,关联规则是描述在某一 事务中物品之问同时出现的规律的知识模式。 设I={i ,i2,…,im】是一组项集,DB是一组交易数据 集(也称为交易数据库)。DB中的每个交易T是一组项 集,显然T满足TCI:给定一个项目X I,交易T包含 一84一 价值工程2006年第5期 X且只有T X。Support(X。DB)表示X在DB中的支 持度。关联规则的应用形式是“X曹Y(s%。c%。1)”。其 中:X I。Y l。且XnY=0。 称规则X Y在交易数据库DB中具有大小为B 的支持度;如果项集XUY的支持度为8,即Suppo ̄ (XUY)=Suppo ̄(Xt.JY,DB)=s。 称规则X==》Y在交易数据库DB中具有大小为c 的置信度(ConfidenCe);如果DB中支持项集X的交易 中有c%的交易同时也支持项集Y。即Prob(YIX)=c%。 其中Prob(X)相当于支持X的交易在D中出现的频 率大小;也可表示为:Confidence(X Y)=Support(XU Y,DB)/Suppo ̄(X。DB) 对于给定交易数据库DB.求出所有满足最小支持 度minsup和最小置信度minconf的关联规则。关联规 则必须满足两个条件:Suppo ̄(X Y) minsup. Conifdence(X ̄Y)≥minconf。 当产生了所有规则后.最简单地决定每个关联规 则的肯定趋势的方式是利用兴趣度判定。兴趣度等于 置信度与期望置信度的比值。期望置信度等于包含结 果的交易量除以整体所有的交易量。假设我们利用X Y来推测一个客户购买Y的可能性。则: 期望置信度:Expect—Conifdence(X==》Y)=Suppoft (Y,DB)/Suppo ̄(XUY,DB) 兴趣度的计算:Lift(XjY)=Confidence(XjY), Expeet-Conifdence(X ̄Y) 引入兴趣度用来修剪无趣的规则.避免生成“错 觉”的关联规则。一般一条规则的兴趣度是在基于统计 独立性假设下真正的强度与期望的强度之比:这样可 以避免把支持度设得不够低丢失从用户观点来看是有 意义的规则的问题。同时也提高了规则库应用效率。 3.2关联规则的算法 关联规则的发现算法有:Apriori。AprioriTid,DHP, Tree Projection,FP—tree等。本系统采用FP—Tree关联 规则挖掘算法进行关联规则挖掘。与Apriod算法相 比,FP—Tree算法挖掘全部频繁项集(大项集)采用FP一 增长(Frequent—Pattern Growth)的方法。这种方法不产 生候选集。它采取如下分治策略:将提供频繁项集的数 据库压缩到一棵FP—Tree(频繁模式树)。但仍保留项集 关联信息;然后。将这种压缩后的数据库分成~组条件 数据库(一种特殊类型的投影数据库)。每个关联一个 频繁项,并分别挖掘每个数据库。 FP-Tree挖掘算法以一定时间内交易数据输入. 以事先定义的最小支持度阈值和最小置信度阈值为调 节参数;算法分两步:①挖掘出全部的频繁项集,并将 结果保存到数据表中:②挖掘出所有满足条件的关联 规则,并将结果保存到关联规则数据表中。FP—Tree通 过模式段增长。挖掘频繁模式。算法描述如下: 输入:事务数据库D,最小支持度阈值rain—sup:输 维普资讯 http://www.cqvip.com Value Ea ̄aeeriag No.5,2006 出:频繁模式的完全集。按以下步骤构造FP一 e:① 扫描事务数据库D一次。收集频繁项的集合F及其支 持度。对F按支持度降序排序,结果为频繁项表L;② 创建FP—TI.ee根节点。以“null 标记。对D中的每个事 务T执行:选择T中的频繁项。并按L中次序排序。设 排序后频繁项表为『pI P1,其中P是第一个元素。P是剩 余元素的表。调用insert-tree([p l ,T)。该过程执行情况 如下:如果T有子女N使得NJtem-name--'pJtem—nsJlle。 则N计数增加I;否则创建一个新节点N。将其计数设 置为I,链接到它的父节点T,并通过节点链结构将其 链接到具有相同item—nsMle的节点;如果P非空。递归 地调用insert-tree(P,T)。 FP_1 e算法挖掘关联规则的特点是:不生成候 选集,不用候选测试;数据高度压缩。同时对频繁集的 挖掘又是完备的;避免代价较高的重复扫描数据库:采 用分而治之的方法学,分解数据挖掘任务为小任务。该 算法是完备的,不会打破交易中的任何模式。包含序列 模式挖掘所需的全部信息.并且在时间和空问上要优 于A研0ri算法,具有都有很好的效率;在挖掘出的大 量商品关联规则中。根据使用者定义的最小支持度和 最小置信度阈值。保留关联规则中有用的、适合的和无 冗余的关联规则放人规则库中为决策支持服务。 4提供推荐服务 在获得购买行为模式后.并不一定所有发现的强 关联规则都是顾客感兴趣的。其可用性并不理想。因 此。需根据商品兴趣强度和关联规则的置信度。共同判 断顾客的兴趣所在.并计算推荐度rec--关联规则的置 信度与兴趣强度的乘积。从而确定推荐集。例如: 选取一个商务网站中一个月的购买记录作为本试 验的事务数据库D。事务中的各项Tl, ,T3,T4。 表示所购买的商品;现设定最小置信度阈值c=70%。最 小支持度阈值s=22%,兴趣度以I表示;给定最小推荐 度minrec=0.95。采用FP-Tree算法挖掘出关联规则: TI T5川I2【s=25%,c=87.9%,I=1.91】;T2 T4川I3【s=22%,C--- 87.8%,I=0.99】;Tl — 【s=28%,c=94.9%,I=1.40]: TI R— ・【s=27%,c=94.1%,I=1.03】;T2 —+1rI【s=24%, c=88.9%。I=o.99]。分别计算出其推荐度为: .1.68。O.87。l33。O.97。O.88;最后。根据minrec得到推荐 集Recommend={Tl T2 T5;Tl 1"4 l。因此,网站系统自 动将TI T2 T5和Tl T|T5作为商品组合推荐给顾客,从 而实现了网站个性化服务。若不采用兴趣强度来计算 推荐度,而仅仅根据关联规则置信度产生推荐集。将会 产生用户不感兴趣的推荐集。 对于某种产品组合中的商品已经购买了其中两种 的客户。可以采取优惠措施鼓励他们购买产品组合中 的第三种商品。这样就提高了电子商务网站的销售额。 或者进行品牌的组合推荐.选择品牌忠诚度较低的品 牌。合理制定价格组合和优惠措施。另外,还可以进行 价值工程2006年第5期 自有品牌的销售促进,从而促进企业赢利能力。 形成购买推荐以后。一方面直接用于目标客户的 销售:另一方面把数据挖掘得到的推荐扩充到销售知 识库中,针对销售模式来开发新的销售产品.制定适合 的促销策略和宣传。进行“一对一”的直接的销售管理: 根据现有客户和潜在客户的反应和网站数据库的信 息,进入新一轮的数据挖掘工作。 5结束语 推荐系统是电子商务领域中出现的非常重要的新 技术。它对用户感兴趣的商品快速定位.使企业实现增 值,会成为未来电子商务网站的关键模块。本文对推荐 系统的实现模型进行简要介绍.给出了基于关联规则 的挖掘方法和如何形成推荐集。目前国内电子商务网 站在这方面的实践处于较简单的阶段。缺乏个性化。推 荐方法单一的自动化程度低。推荐技术的未来发展在 于进一步改进推荐算法速度和实时性。以客户群为中 心,把应用推荐技术应用作为市场分析的工具,为商家 的产品定价、促销活动以及交叉销售等提供决策支持。 参考文献: { ̄)Resnick and Vafian.Recommender system[1f.Communications of the ACM.1997.40(3):56-58. ②SCHAFER JB.KONSTAN J ̄RIEDL J. E..cemmew.e RecommeIIdati∞applications田.Dam and Knowledge Discovery,2001,5 (in):l 15-153. 【③HAND D,MANNILA H,SMYTH P等:‘数据挖掘原理)【M1.机 械工业出版社,2001,286-299。 ④L盹。J.H.。&Park,S.C.Agent and data mining deci ̄ina support system and its adaptation to a new customer-centr/c electronic 鲫merce Expert Systems with Applioattlons,2003'25:6l9-635. ⑤Mathwick。C..Malhotra,N.K..&Risdon,E. e effect of dyn ̄io retail experience on experiential perceptions of value:¨ Internet and catalog comparison【J】.Journal of Retailing,2002.78:51- 60. ⑥Park。S.C.。Piramuthu.S..&Shaw,M.J.Dyllamic ride reifnement in knowledge-based data miinng systems们.Decision Support Systems.2001.31.205-222. ⑦Bloemer,J.M.M B 8’etc.Comp ̄complete and iⅡl dsssitication for ident ins cuBt0me at risk田.International Journal of Research in M ̄rketisn.2003.20:1 17-131.  ̄Benr1...F Cu.bero.J.TBAR:An efficient method for association rule mining in rdational datoba ̄s[J].Data and Knowledge Engineering, 2001.37:47--64. ⑨Robert B.Wood ̄.Customer Value:The Next Source h Compeititve Advantage[Jl。Journal of the Academy of Marketing Science.1997..25(2).142. a Albert,T.C.Need—b日Bed eesmentatlon and c岫l0IⅡizcd communication strategies in 8 ecmplex--ocmmodity industry:A supply chain aud ̄4J].IMustrial Marketing Management,2003,32:281-290. @陈卫华、朱仲英:‘数据挖掘在CRM中的应用>【J】;<傲型电脑 应J ̄)2001(1O)。 一85— 

因篇幅问题不能全部显示,请点此查看更多更全内容