《第一章:数据挖掘和数据仓库概述》由会员分享,可在线阅读,更多相关《第一章:数据挖掘和数据仓库概述(72页珍藏版)》请在金锄头文库上搜索。
1、第一章第一章数据仓库与数数据仓库与数据挖掘概述据挖掘概述李晋宏北方工业大学信息工程学院北方工业大学信息工程学院北方工业大学信息工程学院北方工业大学信息工程学院内容内容数据挖掘引论数据仓库引论数据挖掘的应用常用数据挖掘工具北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习知识工程机器学习北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习将一些已知的并以被成功解决的问题作为范例输入计算机,机器通过学习这些范例,总结并生成相应的规则,这些规则具有通用性,使用它们可以解决某一类问题最早始于20世纪60年代如Rose
2、nblate的感知机,Sammel的西洋跳棋程序北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来知识工程直接为计算机输入已被代码化的规则,计算机通过使用这些规则来解决某些问题如专家系统北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来机器学习80年代神经网络理论的发展(BP算法)成果应用于处理大型商业数据库Quiulan的ID3(1983年)决策树方法Rumelhart反向传播神经网络BP模型(1985年)北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的由来1989年,在美国底特律召开的
3、第十一届国际联合人工智能学术会议上首次提到知识发现(knowledge discovery in database,KDD)1995年,在加拿大蒙特利尔召开了首届KDD国际学术年会,数据挖掘技术被分为工程领域的数据挖掘和科研领域的知识发现北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程从数据中挖掘知识知识发现数据分析数据融合决策支持等相似术语北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘的原
4、始数据结构化的,如关系数据库中的数据半结构化的,如文本,图形,图像数据等数据挖掘的方法数据的非数据的演绎的归纳的北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义挖掘出的知识用于信息管理查询优化决策支持过程控制等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤确定业务对象:理解数据和实际的业务,提出问题,对目标有明确的定义数据准备:占工作量的60%数据选择:所有与业务对象有关的内部、外部数据信息数据预处理:整理,
5、清洗不完全的数据数据转换:数据格式化,编码转换等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤数据挖掘:选择合适的挖掘算法,自动完成结果分析与知识同化结果分析:可视化技术,对挖掘结果进行解释并评估知识同化:将分析所得到的知识集成到业务信息系统的组织结构中去北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤 Jiawei HanData CleaningData IntegrationData WarehouseTask-relevant DataSelectionData MiningPatte
6、rn Evaluation数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(Jiawei Han)数据清理(Data Cleaning):消除噪声或不一致数据;数据集成(Data Integration):多种数据源组合在一起;数据选择(Data Selection):从数据库中检索与分析任务相关的数据;数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(Jiawei Han)数据变换(Data Transformation):数据变换或统一成适合挖掘的形式,如通过汇总或聚集操作;数据挖掘(Data Mining):使用智能方法提取数据模式;模式评估(Data Evaluation):根据某
7、种兴趣度度量,识别表示知识的真正有趣的模式;知识表示(Knowledge presentation):使用可视化和知识表示技术,向用户提供挖掘的知识;北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-DM 过程模型)各个阶段会以一种非线性的方式互相影响迭代特性(从一个数据挖掘循环获得的知识几乎无所例外地会导致新的问题、新的争论以及新的机会来识别和满足客户的需求。这些新问题新争论和新机会通常可以通过再次挖掘您的数据得以解决。北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-
8、DM 过程模型)商业理解:商业理解包括确定业务对象、评估情况、确定数据挖掘目标以及制订工程计划。数据理解:包括收集初始数据、描述数据、探索数据和验证数据质量。数据准备:包括选择、清理、构建、集成以及格式化数据。北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的定义数据挖掘步骤(CRISP-DM 过程模型)建模:使用精巧复杂的分析方法从数据中提取信息。包括选择建模技术、生成测试设计,以及构建和评估模型。评估:包括评估结果、查看数据挖掘过程,以及确定后续步骤。部署:将新知识结合到日常的业务流程中,来解决最初的业务问题。此阶段包括计划部署、监视和维护、生成最终报告,以
9、及复查该工程。北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能概念描述对某类对象的内涵进行描述概括这类对象的有关特征允许在多个抽象层概化泛化概化粗粒度、细粒度多维特征性描述:描述某类对象的共同特征区别性描述:描述不同类对象之间的区别1-9数字北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能关联分析若两个或多个变量间存在着某种规律性,称为关联分简单关联、时序关联、因果关联从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式啤酒与尿布北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖
10、掘引论数据挖掘的功能分类与预测分类:提出一个分类函数或者分类模型,该模型能把数据库中的数据项映射到给定的类别中的一个。需要有一个训练样本数据集作为输入预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性或值的范围决策树北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能分类与预测分类是预测分类标号(或离散值),如决策树、K-最临近分类法预测建立连续值函数模型(连续值或有序值),如线性回归和多元回归,非线性回归;北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能聚类分析根据数据
11、的不同特征,将其划分成为不同的数据类使得属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大分类需要预先定义类别和训练样本聚类直接面向数据源,没有预先定义好的类别和训练样本,所有记录都根据彼此相似程度加以归类北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的功能偏差分析又称比较分析对差异和极端特例的描述揭示事物偏离常规的异常现象包括分类中的反常实例、不满足规则的特例、观测结果对模型预测的偏差、量值随时间的变化等计算机与退学北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法聚类分析源于统计学、生物学以及机器
12、学习等使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的相异性有以下几种分析方法基于划分的方法层次的密度的网格的模型的北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树主要用于分类和预测分为分类树和回归树分类树:对离散变量做决策回归树:对连续变量做决策每一次切分都要求分成的组之间的“差异”最大常用算法CHAIDCARTQuestID3C4.5北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树属性属性OutlookTemperature Humidity Windy类类1Ove
13、rcastHotHighNotN2SunnyMild Normal VeryP8RainHotHighMediumP24RainMild HighVeryN2424条记录条记录3 3个属性值个属性值3 3个属性值个属性值2 2个属性值个属性值 3 3个属性值个属性值 2 2个类个类北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法决策树树的根节点整个数据集合空间内部节点每个内部节点表示 在 一个属性上的测试,每 个分支代表一个测试输出叶节点每个叶节点代表类 或类分布熵北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方
14、法人工神经网络模仿人脑神经网络的结构和某些工作机制而建立的一种计算模型利用大量的简单计算单元(神经元)连成网络,实现大规模并行计算通过学习,来改变神经元之间的连接强度包括前馈式网络反馈式网络自组织网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法人工神经网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法人工神经网络北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法粗糙集一种处理不确定、不完备数据和不精确问题的新的数学理论仅利用数据本身提供的信息,无须任何先验知识将知识
15、理解为对数据的划分,并引入上近似和下近似等概念来刻画知识的不确定性和模糊性北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法关联规则挖掘由美国学者 Agrawal等人于1993年提出最初是针对购物篮分析问题提出从数学及计算机算法角度提出了商品关联关系的计算方法A prior算法 找到所有支持度大于最小支持度的频繁项集,由频繁项集产生期望的规则北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法关联规则挖掘基于频集理论的递推方法有关联发现、序列模式发现、时序发现等沃尔玛的 “啤酒与尿布”案例是正式刊登在1998年的哈佛
16、商业评论北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论数据挖掘的常用方法统计分析从事物的外在数量上的表现去推断该事物可能的规律从其数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,再做进一步深入的理论研究有回归分析(多元回归、自回归)、判别分析(贝叶斯判别、费歇尔判别、非参数判别)和探索性分析(主元分析、相关分析)等北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘引论数据挖掘引论电解铝生产智能系统模糊专家系统多维分析系统数据挖掘系统六西格玛系统规则规则统计统计猜想猜想多维多维猜想猜想新的观新的观测视角测视角北方工业大学信息工程学院北方工业大学信息工
17、程学院数据仓库引论数据仓库引论数据仓库的产生与发展1988年,为解决全企业集成问题,IBM爱尔兰公司的Barry Devlin和Paul Murphy第一次提出了“信息仓库”的概念1992年,美国William H.Inmon在建立数据仓库一书中系统阐述了关于数据仓库的思想和理论,被称为“数据仓库之父”北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库的产生与发展1995年,数据仓库开始盛行IBM提出了商业智能(BI)SQL Server 7.0 :OLAP服务器Oracle :Oracle Express OLAP目前,世界知名企业均拥有/建立了自己的数据仓库北
18、方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库的定义Inmon:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用以支持经营管理中的决策制定过程北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库的定义北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库与数据挖掘的联系与区别数据仓库为数据挖掘提供了更好的、更广泛的数据源数据仓库为数据挖掘提供了新的支持平台数据仓库为更好地使用数据挖掘工具提供了方便北方工业大学信息工程学院北方工业大学信息工程学院数据仓库引论数据仓库引论数据仓库与数据挖掘的联系与
19、区别数据挖掘为数据仓库提供了更好的决策支持数据挖掘对数据仓库的数据组织提出了更高的要求数据挖掘为数据仓库提供了广泛的技术支持数据仓库是存数据,数据挖掘是用数据北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域金融业评估帐户信用等级满足什么样条件的帐户属于哪一类信用等级分析信用卡使用模式监测信用卡的恶性透支行为分析股票趋势难!北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域保险业确定保险金确定对不同行业、不同年龄段、不同社会层次人员保险金的额度险种关联分析向购买A险种的推销B险种其他预测有目的地推销新险种精
20、算师北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域电子商务(Web挖掘)分析购物者、浏览者的购买、浏览行为提供个性化服务智能推荐北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域市场营销收集、加工和处理涉及消费者消费行为的大量信息确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求进行特定内容的定向营销为企业带来更多的利润小小的购物篮体现了客户的真实消费需求和购物行为,每一只购物篮里都蕴藏着太多的客户信息 北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领
21、域小知识客单价 购物篮的表现形式 根据AC尼尔森2006年对国内零售企业的调查发现, 从周一到周五正常工作日,同样一个万米经营面积的大卖场,国内卖场的平均客单价是29元,家乐福、沃尔玛、欧尚等国际零售巨头卖场的客单价为75元,好又多、大润发、乐购等台资卖场客单价为50元到了周末(周六、周日)的差距更大,国内卖场客单价为35元,台资卖场客单价为80元,外资卖场可以达到 149元北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域客户关系管理指企业通过富有意义的交流沟通,理解并影响客户行为,最终实现提高客户获得、客户保留、客户忠诚和客户创利的目的考察消费行
22、为评估客户价值细分客户群针对不同的客户群发掘消费特点对市场活动的效果进行预测北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域搜索引擎网页搜索关键词社交网、微博、QQ等好友电话号码微博营销北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘的应用领域医疗病例研究病人行为特征分析生命秘密(DNA分析,蛋白质分析)司法案例分析犯罪监控犯罪行为特征分析工业故障诊断生产决策生产过程优化北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例竞技运动NBAIBM公司开发的数据挖掘应用软件Advan
23、ced Scout大约20个NBA球队使用来优化他们的战术组合本队A和B同时上场的得分率(配合)本队A与对手C同时上场的得分率(防守)队员在哪个位置得分占优?(统计)对方教练的技战术安排规律(统计)北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例超市SafewaySafeway是英国第三大连锁超市以客户为导向,而非产品和商家了解每一位客户的需求了解所有客户的每一笔交易以及这些交易彼此之间的关联性根据客户的相关资料,将客户分为150类,再用关联技术来比较这些资料集合,列出产品相关度的清单,对商品的利润进行细分北方工业大学信息工程学院北方工业大学信息工程学院
24、数据挖掘的应用数据挖掘的应用数据挖掘案例超市SafewaySafeway发现某一种乳酪产品虽然销售额排名较后,但有25%的消费额最高的客户都常常购买这种乳酪,体现出这一产品的重要性。在28种品牌的橘子汁中,有8种特别受消费者欢迎,并重新安排货架的摆放,使橘子汁得销量能够大幅增加北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例超市Safeway发现客户长期的经常性购买行为,营销部门可以根据每个家庭在哪个季节倾向于购买那些产品的特性发出邮件一年内发了1200万封有针对性的邮件,对超市销售量的增长起到了很重要的作用北方工业大学信息工程学院北方工业大学信息工程学
25、院数据挖掘的应用数据挖掘的应用数据挖掘案例网站AutoT美国AutoT是世界上最大的汽车网站什么样的客户访问网站?客户喜欢什么样的网站访问路径来获得所需信息?各个网站层次访问量如何?同一位客户访问网站的频率如何?客户经常重复进行何购买行为?北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例网站AutoT用SAS的分析和数据挖掘软件,对用户的网络点击率进行分析目的:决定是否需要根据客户的不同喜好开设特定的服务区北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例网站当当网等购买了本书的顾客同时还购买了。北方工业大学信息工程
26、学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例个性化服务Big Sams Clothing使用聚类方法来发现那些商品自然的分在同一组中,如关于沙漠探险的书和医疗工具包进行客户分析来识别那些经常对添加在商品目录中的新商品感兴趣的客户通过E-mail向客户提供由数据挖掘模型预测的客户感兴趣的新产品信息在重复销售、每一客户的平均销售量和销售的平均范围等方面有了较大的提高北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例体育用品体育精品公司总部在悉尼购买山地车的顾客再购买头盔的可能性为92%,再购买手套的可能性为62%,再购买新款铃铛的可能性
27、为23%,再购买速度计的可能性为13%引导购买系列产品购买气瓶的顾客一年内回来充气1次的有12%,2次的8%,2次以上的7%放弃充气业务或加大宣传北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例体育用品体育精品公司一个月后,季度的营业额上升34%,收入上涨32%,手套销售额上升15%,山地车附件的销售上升51%,捆绑销售得到普及。北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例数据挖掘,无处不在端游/页游广告推广彩票分析预测北方工业大学信息工程学院北方工业大学信息工程学院数据挖掘的应用数据挖掘的应用数据挖掘案例小知
28、识ARPU值每用户每月平均收入,Average Revenue Per User在Citron对奇虎360的质疑中,其中一个问题是奇虎游戏平台上的Webgame ARPU高达380元人民币,这数字远远超出了以前畅游、完美时空等MMORPG游戏200多元的顶峰 游戏谷北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具IBM:Intelligent MinerThinking Machines:DarwinNeo Vista Solution:DecisionAngoss:Knowledge SeekerSQL Server 2005OracleSPSS:
29、ClementineSAS:Enterprise Miner北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具SPSS社会科学统计软件包是一种集成化的计算机数据处理应用软件1968年,美国斯坦福大学3位学生开发为广大的非专业人士设计更适合应用于教育科学研究北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具SAS统计分析软件是一个模块化、集成化的大型应用软件系统1966年美国北卡罗来纳州立大学开发为专业统计分析人员设计北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具SQ
30、L Server 2005DBDWOLAPDM可编程组件北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具WekaWaikato Environment for Knowledge Analysis怀卡托智能分析环境是一个开放源码的数据挖掘软件可使用Java语言,在Weka架构上开发出更多的数据挖掘算法北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具MATLABMatrix Laboratory矩阵实验室美国MathWorks公司开发的商业数学软件用于算法开发、数据可视化、数据分析以及数值计算的高级计算语言和
31、交互环境可以在多种编程环境下直接调用可以将自己的实用程序导入到MATLAB函数库中北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具Clementine是SPSS 企业级数据挖掘工作平台具有数据挖掘的全部分析方法它的CRISP-DM标准可以帮助规范数据挖掘流程Clementine的可视化界面让用户可以应用他们自己的业务专长,这将生成更强有力的预测模型,缩减实现解决方案所需的时间Clementine 提供了多种建模技术,例如预测、分类、细分和关联检测算法北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具数据挖掘工具Clementine提供了将第三方程序(例如,数据处理例程或建模算法)作为节点集成到Clementine 的功能Clementine 表达式操作语言(CLEM) 是一种用于分析和在Clementine 流中操作流动的数据的功能强大的语言北方工业大学信息工程学院北方工业大学信息工程学院常用数据挖掘工具常用数据挖掘工具