信息安全毕业论文数据挖掘开题报告

资源描述

《信息安全毕业论文数据挖掘开题报告》由会员分享，可在线阅读，更多相关《信息安全毕业论文数据挖掘开题报告（16页珍藏版）》请在金锄头文库上搜索。

1、浙江大学远程教育学院本科生毕业论文（设计）题目专业学习中心姓名学号指导教师 2010年10月28日论文摘要数据挖掘技术逐渐成为研究热点，应用越来越广泛。随着国民经济的快速发展，零售业快速发展，竞争激烈，零售企业也积累了大量的原始数据。数据挖掘技术中的关联规则挖掘是购物篮分析的最重要的一种技术，购物篮分析有很多人研究，但利用分析后的数据来指导企业的经营不多，本文重着重研究购物篮分析后的一些有用的信息，是怎样来指导企业经营分析，构成一个数据挖掘的闭环系统。关键词：数据挖掘、零售业、购物篮分析、聚类分析目录一、课题研究的背景及意义及介绍商业智能和数据挖掘技术的相关内容4(一)课

2、题研究的背景及意义4(二)国内外关于数据挖掘技术研究现状41、国内研究现状42、国外研究现状4(三)本文研究内容概述5二、根据零售超市的行业数据特点，分析数据挖掘的在零售的行业主要应用5(一)关联规则挖掘5(二)聚类分析5三、介绍关联规则算法理论基础5(一)阐述经典算法Apriori算法6四、关联规则挖掘模型建模8(一)数据预处理8(二)使用SPSS Clementine 软件实现Apriori算法及性能111、定义数据源（数据装载）112、关联模型参数说明：11五、全文的总结及数据挖掘以后在零售行业的研究方向15(一)全文总结15(二)数据挖掘以后在零售行业的研究方向及前景展望15六、参考文

3、献：16一、课题研究的背景及意义及介绍商业智能和数据挖掘技术的相关内容(一) 课题研究的背景及意义零售企业在经营过程中产生了海量的信息，这些信息蕴藏了丰富的顾客消费行为和市场规律。怎样有效地利用这些宝贵的信息，让它们更好地为企业经营服务，成为了零售企业的一个迫切愿望和现实难点。过去的十几年里，信息化在零售业的的做大做强中，起到了不可或缺的作用，不可想象在一个大型超市不使用信息化来管理，如何来管理达到几十万数量的商品的价格、库存、销售等，但是现在国内的零售企业的信息化只是使用传统的MIS系统用来协肋工作人员处理日常业务，减少重复劳动，好一点的MIS系统会有相关的报表系统为不同的管理层提供一些报

4、表支持。但现在的报表系统一般只能用来分析汇总的销售、库存、毛利等情况。零售企业为了在激烈的市场竞争中谋得一席之地，积极投入到商业智能系统的开发与实施中，希望更精准地掌握企业运营状况、商品销售情况及顾客消费习惯等信息。商业智能系统作为现代零售企业提高管理和决策水平的重要手段，在开发技术和思路上必须适应新的需求，而实现商业智能系统的最关键的技术之一就是数据挖掘技术。(二) 国内外关于数据挖掘技术研究现状1、国内研究现状数据挖掘技术研究应用领域广泛，不仅应用到传统行业比如零售行业、电信行业、银行业等行业，而且随着科学技术的不断进步和信息化程度的不断加快，中国零售企业的信息化已进入挖掘价值的时代。专

5、家指出，如果说科学决策是企业的高级境界，那么数据挖掘则是目前企业信息化的高级境界。从数据中寻找知识和思想、挖掘财富、发现决策依据，这些正是数据挖掘对企业的直接贡献，也是企业信息化的重要体现。当前国内零售业的数据挖掘工作基本上还处于探索阶段，据了解，许多零售企业使用收款结帐设备获得的海量相关销售数据，都没有得到充分的应用，这些数据本来可以帮助零售商实施精准营销，控制库存、降低库存风险等以创造更大的商业价值，却被零售企业忽略掉了。国内的零售企业的应用数量多，但高水平的应用比较少，国内的各种零售业态基本上都是从国克隆过来的，直观上的如布局、装潢、商品阵列、促销方式，甚至包括员工的服务方式等都是容易学

6、习的，而对于诸如仓储、物流、管理、客户数据的收集、整理和挖掘这些方面，由于是在后台进行，所以很难快速学习并投入实用，更不用说成熟的数据挖掘方案了。对于零售行业的数据挖掘研究，主要集中在购物篮分析、CRM顾客分析等，购物篮分析的国内理论研究方面主要聚集于关联规则算法本身的研究和度量规则的优化。复旦大学一直从事这方面的研究，朱扬勇等把一个应用于特征规则基于差异思想的兴趣度定义运用到关联规则中，重新设置了兴趣度；武汉科技大学的张新霞等提出基于统计相关性的兴趣度关联规则；2、国外研究现状在国外，数据挖掘已经投入应用领域，SAS公司的Enterprise Mnier,Oracle OBIEE,IBM的B

7、O，NCR的Teradata WareHouse Miner等软件已经被广泛在各个商业领域中。很多大型的零售商都采用了数据挖掘工具来进行决策分析，关联规则挖掘已经投入应用领域，交叉销售、库存控制和客户分类设计等都是零售业数据挖掘的主要内容。以沃尔玛为例它采用了BO的方案，信息化已发展到以营销和顾客为中心的阶段并开发出了一些像优惠卷和积分卡的应用。通过数据仓库记录的消费者的详细信息，很容易做进一步的深入挖掘和分析，以了解消费者的消费习惯从而实施交叉销售等数据挖掘应用。它们都没有将数据数据挖掘技术和零售业的应用结合起来，今后的一些研究方向主要针对以下几个问题：一是在处理海量数据时，如何提高算法效率

8、；二是如何进一步研究迅速更新的数据的挖掘；三是在挖掘的过程中，提供一种与用户进行交互的方法，将用户的领域知识结合在其中；四是生成结果的的可视化问题等。提高数据挖掘的易用性。目前市场上有多种适用解决所有商业模式的通用的数据挖掘系统，但实际上这些系统并不好用，普通用户很难应用这些技术解决自己的商业问题。问题在于如何将数据挖掘技术与现有技术很好地结合起来，如果不能将特殊领域的商业逻辑与数据仓库技术集成起来，数据挖掘的分析效果和效益不可能达到要求。系统的定制，软件供应商和企业互相交流，对系统功能的不断完善和扩充可以在一定程度上解决这个问题。(三) 本文研究内容概述一家超市的购物篮分析，通过对这家超市的

9、现有POS系统的数据，使用SPSS Clementine关联规则建模从现有的超市系统的数据挖掘出有用的信息，本文重着重研究购物篮分析后的一些有用的信息，是怎样来指导企业经营分析，构成一个数据挖掘的闭环系统。二、根据零售超市的行业数据特点，分析数据挖掘的在零售的行业主要应用(一) 关联规则挖掘关联规则挖掘是数据挖掘中最活跃的研究方法之一，最早是由Agrawal等人在1993年提出来的。关联规则是寻找在同一个事件中出现的不同项的相关性，比如在一次购买活动中所购买的不同商品之间的相关性。关联分析，以称购物篮分析，即利用关联规则进行数据挖掘，在零售企业中用来指导销售配货、商品阵列、超市购物动线设计和

10、促销等。关联规则在商业领域的应用中，最经典的例子就是“啤酒和尿布”的故事。这个故事是说在美国的沃尔玛超市，一些年轻的父亲下班后经常要到超市去购买婴儿尿布，超市发现，在这些购买了尿布的年轻父亲中，有30%-40%的人同时要买一些啤酒。于是超市就把尿布和啤酒放在一起卖，明显增加了销售额。(二) 聚类分析聚类就是把整个数据分成不同的组，并使组与组之间的距离尽可能大，组内数据的差异尽可能小。与分类不同，在开始聚集之前用户并不知道要把数据分成几组，也不知道分组的具体标准，聚类分析时数据集合的特征是未知的。聚类要一定的聚类规则，将具有某种相同特征的数据聚在一起，也称为无监督学习。而分类，用户则知道数据可

11、分为几类，将要处理的数据按照分类分入不同的类别，也称为有监督学习。针对使用会员卡的超市，可以利用会员卡信息和销售数据联系在一起，利用数据挖掘的聚类分析方法，区分不同类型的会员，找到所谓的VIP会员和潜在的高端客户和他们的特征，针对这些特征做针对性的营销。三、介绍关联规则算法理论基础(一) 阐述经典算法Apriori算法引自数据挖掘：概念与技术，机械工业出版社，2007.3我们想像全域是商店中的商品的集合，则每一种商品有一个布尔变量，表示该商品是否出现。每个购物篮则可用一个为这些变量指定值的布尔向量表示。可以分析布尔向量，得到反映商品频繁关联或同时购买模式。这些模式可以用关联规则的形式表示。

12、例如,购买牛奶也趋向于同时购买面包的顾客信息可以用以下关联规则（2-1）表示：牛奶面包support=2%,confidence=60%(2-1)规则的支持度（support）和置信度(confidence)是规则兴趣度的两种度量。它们分别所反映的规则的有用性和确定性。关联规则（2-1）的支持度为2%竟味着所分析的所有事务的2%同时购买了牛奶和面包。置信度60%竟味着购买牛奶的顾客60%也购买了面包。典型情况下，如果关联规则同时满足最小支持度阈值和最小置信度阈值，则此关联规则是有趣的。这些阈值可以由用户或领域专家设定。也可以进行其他分析，揭示关联项之间的有趣的统计相关。Apriori算法是R.

13、Agrawal和R.Srikant于1994年提出的为布尔关联规则挖掘频繁项集的原创性算法。Apriori使用一种称作逐层搜索的迭代方法，k项集用于探索（k+1）项集。首先，通过扫描数据库，累积每个项的计数，并收集满足最小支持度的项，找出频繁1项集的集合。该集合记作L1。然后，L1用于找频繁2项集的集合L2，L2用于找L3，如此下去，真到不能再找到频繁k项集。找每个Lk需要一次数据库全扫描。让我们看一个具体例子来说明Apriori算法：TID商品ID的列表T11，2，5T22，4T32,3T41,2,4T51,3T62,3T71,3T81,2,3,5T91,2,3图表 1项集支持度计数（1）6

14、（2）7（3）6（4）2（5）2项集支持度计数（1）6（2）7（3）6（4）2（5）2扫描D，对每一个候选计数L1C1比较候选支持度计数与最小支持度计数C2L2C2项集（1，2）由L1产生候选C2（1，3）（1，4）（1，5）（2，3）（2，4）（2，5）（3，4）（3，5）（4，5）项集计数（1，2）4（1，3）比较候选支持度计数与最小支持度计数4（1，4）1（1，5）2（2，3）4（2，4）2（2，5）2（3，4）0（3，5）1（4，5）0项集支持度计数（1，2）4（1，3）4（1，5）2（2，3）4（2，4）2（2，5）2扫描D，对每个候选计数C3L3项集支持度计数（1，2，3）2（1，2，5）2比较候选支持度计数与最小支持度计数C3扫描D，对每个候选计数由L2产生候选C3项集（1，2，3）（1，2，5）项集支持度计数（1，2，3

展开阅读全文