从货篮分析谈数据挖掘

资源描述

《从货篮分析谈数据挖掘》由会员分享，可在线阅读，更多相关《从货篮分析谈数据挖掘（6页珍藏版）》请在金锄头文库上搜索。

1、从货篮分析谈数据挖掘新闻传播学院张悦 09523467关键词：货篮数据摘要：货篮分析关联规则的基本概念数据挖掘数据挖掘定义的解释数据淘金金苹果文库数据淘金之方法篇数据淘金之工业应用篇数据淘金之社会篇数据淘金之科研篇1、货篮分析全球最大的零售商沃尔玛（Walmart）通过对某地区顾客购物的数据分析后发现，很多周末购买尿布的顾客也同时购买啤酒。经过深入研究后发现，该地区家庭买尿布的大多是孩子爸爸。孩子爸爸们下班后要到超市买尿布，同时要“顺手牵羊”带走啤酒，好在周末看棒球赛的同时过把酒瘾。后来沃尔玛的这个连锁店就把尿布和啤酒摆放得很近，从而双双促进了尿布和啤酒的销量。这个故事被公认是商业领

3、， D 为事务数据库,事务 T 是一个项目子集 (TI),每个事务具有惟一的标识 Tid(如交易号). 设 A 是一个 I 中项的集合，如果 AT，那么称交易 T 包含 A。若 A 中包含 k 个项目,称其为 k 项集. 项集 A 在事务数据库 D 中出现的次数占 D 中总事务的百分比叫做项集的支持度. 如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(大项集) 规则实例For rule A C:support = support(A &C) = 50%confidence = support(A &C)/support(A) = 66.6% 强规则如果不考虑关联规则的支持

4、度和可信度，那么在事务数据库中存在无穷多的关联规则。事实上，人们一般只对满足一定的支持度和可信度的关联规则感兴趣。一般称满足一定要求的(如较大的支持度和可信度)的规则为强规则。因此，为了发现出有意义的关联规则，需要给定两个阈值:最小支持度和最小可信度。最小支持度表示了一组物品集在统计意义上的需满足的最低程度;最小可信度反应了关联规则的最低可靠度。 Apriori 算法是关联规则模型中的经典算法源于算法使用了频繁项集性质的先验(Prior)知识. 分两步:1. 通过迭代,检索出事务数据库中所有频繁项集.Transaction IDItems Bought2000 A,B,C1000 A,C

5、4000 A,D5000 B,E,FFrequent ItemsetSupportA 75%B 50%C 50%A,C 50%2. 利用频繁项集构造出满足最小信任度阈值的规则.其中挖掘和识别出所有频繁项集是该算法的核心,占整个计算量的大部分. 由 m 个项目形成的不同项集达 2m-1 个,是个 NP 完全问题. 潜在频繁 k 项集集合 Ck,频繁 k 项集集合 Lk, m 个项目构成的 k 项集集合Cmk,则 Lk Ck Cmk The Apriori principle:Any subset of a frequent itemset must be frequent非频繁项集的超集一定是非

6、频繁的数据挖掘Data Mining数据挖掘知识发现是什么随着计算机应用及互联网的日益普及，人们面对“被数据淹没, 却又饥饿于知识（丰富的数据与贫乏的知识） ”的挑战, 不同领域的人们都期待从海量数据中挖掘出知识，将丰富的信息变为知识，这就产生了“数据挖掘与知识发现”学科。运用数据挖掘技术在海量数据中我们可以挖出“金子”来。数据挖掘与知识发现数据挖掘 DM（Data Mining）只是数据库中知识发现 KDD（Knowledge Discovery in DataBase ）的一个步骤，但又是最重要的一步。因此，往往可以不加区别地使用知识发现和数据挖掘。一般在研究（人工智能）领

7、域被称作数据库中知识发现，在工程领域（统计界）则称之为数据挖掘知识发现（数据挖掘）的定义The non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data - Fayyad, Platetsky-Shapiro, Smyth (1996)在 1995 年第一届 KDD 大会上给出了 KDD 的定义：“非平凡地抽取数据中隐含的、先前未知的、潜在有用的知识”123。 1 G. Piatetsky-Shapiro and W.

8、J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 19912 U. M. Fayyad, G. Platetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. 3 G. Piatetsky-Shapiro, U. Fayyad, and P. Smith. From data mining to knowledge discovery: An ove

9、rview. In U.M. Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996 知识发现（数据挖掘）的定义目前公认的定义是由 Fayyad 等人提出的。所谓基于数据库的知识发现（KDD）是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。定义解释有效的：指发现的模式有一定的可信度,模式 E 的可信度 c=C(E,F) 新颖的：要求发现的模式应该是新的, N(E,F)。潜在有用的：指提取的模式将来有实际效用，u=

10、U(E,F) 可理解的：要求发现的模式能被用户理解，目前它主要是体现在简洁性上, s=S (E,F)。非平凡:是要有一定程度的智能性、自动性. 过程：通常指多阶段的一个过程，涉及数据准备、预处理、模式提取、知识评价，以及反复的修改求精,过程优化；有效性、新颖性、潜在有用性和最终可理解性综合在一起可称之为感兴趣度。通常采用权值综合评判 i=I(E,F,C,N,U,S) KDD 过程是一个反复迭代的人机交互处理过程。可粗略地理解为三部曲：数据准备（data preparation）、数据挖掘（ Data Mining ），以及结果的解释评估（interpretation and ev

11、aluation）。知识发现过程 KDD 工作步骤数据目标数据处理数据变换后数据模式知识 KDD 工作步骤数据准备：了解相关领域的有关情况，熟悉背景知识，弄清用户要求。数据选取：根据要求从数据库中提取相关的数据。数据预处理：主要对前一阶段产生的数据进行再加工，检查数据的完整性及数据的一致性，对其中的噪音数据进行处理，对丢失的数据进行填补。数据挖掘：运用选定的知识发现算法，从数据中提取出用户所需要的知识，这些知识可以用一种特定的方式表示或使用一些常用的表示方式。知识评估：将发现的知识以用户能理解的方式呈现，根据需要对知识发现过程中的某些处理阶段进行优化，直到满足要求。 KDD 过程

12、中的阶段数据准备:熟悉背景知识,搞清用户需求 relevant prior knowledge and goals of application 数据选取(data selection) :生成目标数据集数据清洗和预处理 :检查数据的完整性和一致性.消除噪声,滤除冗余数据,填充丢失数据(may take 60% of effort!) 数据缩减和变换(根据 KDD 的任务) Find useful features, dimensionality/variable reduction, invariant representation. 确定 KDD 目标:根据用户要求,确定 KDD 要发

13、现的知识类型,选择数据挖掘功能. summarization, classification, regression, association, clustering. 选择挖掘算法(包括模式和参数):根据数据特点和用户需求. 数据挖掘:运用所选择的算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来. search for patterns of interest 模式评估:剔除冗余或无关模式,往往反复提取 visualization, transformation, removing redundant patterns, etc. 数据挖掘怎么做？根据数据挖掘的方法分，可粗分为

14、：统计方法、机器学习方法、神经网络方法和数据库方法。统计方法中，可细分为：回归分析（多元回归、自回归等）、判别分析（贝叶斯判别、费歇尔判别、非参数判别等）、聚类分析（系统聚类、动态聚类等）、探索性分析（主元分析法、相关分析法等）、以及模糊集、粗糙集、支持向量机等。机器学习中，可细分为：归纳学习方法（决策树、规则归纳等）、基于范例的推理 CBR、遗传算法、贝叶斯信念网络等。神经网络方法，可细分为：前向神经网络（BP 算法等）、自组织神经网络（自组织特征映射、竞争学习等）等。数据库方法主要是基于可视化的多维数据分析或 OLAP 方法，另外还有面向属性的归纳方法。数据淘金金苹果文库方

15、法篇用电脑从数据中挖掘有用信息来发财在传统的统计数学方法失灵时另起炉灶数据挖掘的步骤模式识别法：在多维空间中看图像人工神经网络方法：利用软件技术模拟人的神经网络遗传算法：模仿生物进化的寻优算法模糊数学方法：先模糊，后清晰聚类分析方法：先分类，再研究支持向量机算法：数据样本偏少时的“绝招”“十八般武艺一起上” 数据淘金金苹果文库工业应用篇石油化工生产：应用数据挖掘最广泛最有效钢铁生产：建设钢铁强国需要数据挖掘化工生产：提高收率，降低成本，防治污染催化剂研制：总结试验数据中的规律新材料、新产品试制：建设“材料智能数据库”新药研制：药物的分子设计机器检修：建造机器故障诊断“专家系统”汽车制造：改善零部件质量的捷径机器人研制：让机器人当专家仪表研制：智能化仪表和“软测量”技术地质勘探：提高钻探命中率数据淘金金苹果文库社会应用篇企业经营管理：评选先进中的去伪存真环境保护：帮助查明地方病病因商品打假：计算机“品酒师”查假酒风险分析：防范索罗斯股市分析：基础分析和技术分析商品营销：超市“货篮分析”及其它刑侦破案：从数据中查找罪犯的蛛丝马迹征服疾病：地震前兆的综合判别数据

展开阅读全文