【大学课件】数据挖掘简单概括

资源描述

《【大学课件】数据挖掘简单概括》由会员分享，可在线阅读，更多相关《【大学课件】数据挖掘简单概括（89页珍藏版）》请在金锄头文库上搜索。

1、第1章引言第2章数据预处理第3章数据仓库与OLAP技术概述第4章数据立方体计算与数据泛化第5章挖掘频繁模式、关联和相关第6章分类和预测第7章聚类分析第8章挖掘流、时间序列和序列数据第9章图挖掘、社会网络分析和多关系数据挖掘第10章挖掘对象、空间、多媒体、文本和Web数据第11章数据挖掘的应用和发展趋势,体系结构:典型数据挖掘系统,数据库或数据仓库服务器,数据挖掘引擎,模式评估,图形用户界面,知识库,数据清洗、集成和选择,数据库,数据仓库,万维网,其他信息库,在何种数据上进行数据挖掘(数据源),关系数据库数据仓库事务数据库高级数据库系统和信息库空

2、间数据库时间数据库和时间序列数据库流数据多媒体数据库面向对象数据库和对象-关系数据库异种数据库和遗产(legacy)数据库文本数据库和万维网(WWW),数据仓库,数据仓库是一个从多个数据源收集的信息存储，存放在一个一致的模式下，并通常驻留在单个站点。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新构造。,数据挖掘的应用,数据分析和决策支持市场分析和管理目标市场, 客户关系管理 (CRM), 市场占有量分析, 交叉销售, 市场分割风险分析和管理风险预测, 客户保持, 保险业的改良, 质量控制, 竞争分析欺骗检测和异常模式的监测 (孤立点) 其他的应用文本挖

3、掘 (新闻组,电子邮件, 文档) 和WEB挖掘流数据挖掘 DNA 和生物数据分析,数据挖掘应用市场分析和管理(1),数据从那里来? 信用卡交易, 会员卡, 商家的优惠卷, 消费者投诉电话, 公众生活方式研究目标市场构建一系列的“客户群模型”，这些顾客具有相同特征: 兴趣爱好, 收入水平, 消费习惯,等等确定顾客的购买模式交叉市场分析货物销售之间的相互联系和相关性，以及基于这种联系上的预测,数据挖掘应用市场分析和管理(2),顾客分析哪类顾客购买那种商品 (聚类分析或分类预测) 客户需求分析确定适合不同顾客的最佳商品预测何种因素能够吸引新顾客提供概要信息多维度的综合报告统计

4、概要信息 (数据的集中趋势和变化),数据挖掘应用公司分析和风险管理,财务计划现金流转分析和预测交叉区域分析和时间序列分析（财务资金比率，趋势分析等等）资源计划总结和比较资源和花费竞争对竞争者和市场趋势的监控将顾客按等级分组和基于等级的定价过程将定价策略应用于竞争更激烈的市场中,数据挖掘应用欺诈行为检测和异常模式的发现,方法: 对欺骗行为进行聚类和建模，并进行孤立点分析应用: 卫生保健、零售业、信用卡服务、电信等汽车保险: 相撞事件的分析洗钱: 发现可疑的货币交易行为医疗保险职业病人, 医生以及相关数据分析不必要的或相关的测试电信: 电话呼叫欺骗行为电话呼叫模型:

5、呼叫目的地，持续时间，日或周呼叫次数. 分析该模型发现与期待标准的偏差零售产业分析师估计有38的零售额下降是由于雇员的不诚实行为造成的反恐怖主义,其他应用,体育竞赛美国NBA的29个球队中，有25个球队使用了IBM 分析机构的数据挖掘工具，通过分析每个对手的数据（盖帽、助攻、犯规等数据）来获得比赛时的对抗优势。天文学 JPL实验室和Palomar天文台就曾经在数据挖掘工具的帮助下发现了22颗新的恒星网上冲浪通过将数据挖掘算法应用于网络访问日志，从与市场相关的网页中发现消费者的偏爱和行为, 分析网络行销的有效性，改善网络站点组织。这就是新兴的WEB挖掘研究,数据挖掘技术分类,数据

6、挖掘,验证驱动挖掘,发现驱动挖掘,SQL,SQL生成器,查询工具,OLAP,描述,预测,可视化,聚类,关联规则,顺序关联,汇总描述,分类,统计回归,时间序列,决策树,神经网路,数据挖掘的主要方法,关联分析发现数据之间的关联规则，这些规则展示属性值频繁的在给定的数据中所一起出现的条件。广泛的用于购物篮或事务数据分析。关联规则是形如X Y，即”A1.Am B1.Bn”的规则；其中,Ai(i1,.,m),Bj(j1,.,n)是属性-值对。关联规则解释为“满足X中条件的数据库元组多半也满足Y中条件”。例1.6给定AllElectronics关系数据库，一个数据挖掘系统可能发现如下形式的规则 a

7、ge(X, “2029”) income(X, “2029K”) buys(X, “CD_player”) support = 2%, confidence = 60% 其中，X是变量，代表顾客。该规则是说，所研究的AllElectronics顾客2%（支持度）在20-29岁，年收入20-29K，并且在AllElectronics购买CD机。这个年龄和收入组的顾客购买CD机的可能性有60%（置信度或可信性）。关联规则挖掘在第6章详细讨论。,数据挖掘的主要方法,分类和预测通过构造模型 (或函数)用来描述和区别类或概念，用来预测类型标志未知的对象类。比如：按气候将国家分类，按汽油消耗定额将汽

8、车分类导出模型的表示: 决策树、IFTHEN规则、神经网络预测（prediction）用来预测空缺的或不知道的数值数据值，而不是类标号，在本书中，预测主要是指数值预测。可以用来预报某些未知的或丢失的数字值第6章将详细讨论分类和预测,数据挖掘的主要方法,聚类分析与分类和预测不同，聚类分析数据对象，而不考虑已知的类标号。一般地，训练数据中不提供类标号，因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组。即，对象的聚类这样形成，使得在一个聚类中的对象具有很高的相似性，而与其它聚类中的对象很不相似。,关于一个城市内顾客的2-D图，显示

9、了3个聚类，每个聚类的“中心”用“+”标记,2.1 为什么要预处理数据?,现实世界中的数据是脏的不完全: 缺少属性值, 缺少某些有趣的属性, 或仅包含聚集数据例, occupation=“” 噪音: 包含错误或孤立点例, Salary=“-10” 不一致: 编码或名字存在差异例, Age=“42” Birthday=“03/07/1997” 例, 以前的等级 “1,2,3”, 现在的等级 “A, B, C” 例, 重复记录间的差异,数据为什么脏?,不完全数据源于数据收集时未包含数据收集和数据分析时的不同考虑. 人/硬件/软件问题噪音数据源于收集录入变换不一致数据源于不同

10、的数据源违反函数依赖,为什么数据预处理是重要的?,没有高质量的数据, 就没有高质量的数据挖掘结果! 高质量的决策必然依赖高质量的数据例如, 重复或遗漏的数据可能导致不正确或误导的统计. 数据仓库需要高质量数据的一致集成数据提取, 清理, 和变换是建立数据仓库的最主要的工作,第3章: 数据仓库与OLAP技术,3.1什么是数据仓库? 3.2多维数据模型 3.3数据仓库结构 3.4数据仓库实现 3.5从数据仓库到数据挖掘,多维数据模型,数据仓库基于多维数据模型 , 多维数据模型将数据视为数据方(data cube)形式多维数据模型围绕中心主题组织，该主题用事实表表示。事实是数值度量的。数

11、据方, 可以将数据建模, 并允许由多个维进行观察,由维和事实定义维是关于一个组织想要记录的视角或观点。每个维都有一个表与之相关联，称为维表。事实表包括事实的名称或度量以及每个相关维表的关键字,多维数据模型,不同视角的数据立方分析,数据仓库、数据集市和数据立方之间的关系,数据仓库由于是企业范围的，能对多个相关的主题建模，所以在设计其数据构成时一般采用星系模式。而数据集市是部门级的，具有选定的主题，可以采用星形或雪花模式。,数据仓库的后端工具和实用程序,数据提取: 由多个异种, 外部数据源收集数据数据清理: 检测数据中的错误, 可能时订正它们数据变换: 将数据由遗产或宿主格式转换成数据仓库

12、格式装载: 排序, 综合, 加固, 计算视图, 检查整体性, 并建立索引和划分刷新传播由数据源到数据仓库的更新,参考：数据仓库与OLAP实践教程工具：Microsoft Analysis Services,2、使用Crystal Analysis,上表下图式（Horizontal Worksheet and Chart）,显示的维度,隐藏的维度,显示的度量值,图形化显示,（电子教案）,OLAP:Excel数据透视表和数据透视图,1、创建Excel数据透视表 2、使用Excel透视表浏览数据 3、使用Excel透视图分析数据,第5章：挖掘频繁模式、关联和相关,本章主要讲解关联规则挖掘关

13、联规则挖掘是当前数据挖掘研究的主要方法之一，侧重于确定数据中不同领域之间的联系，找出满足给定支持度和可信度阈值的多个域之间的依赖关系。例：在销售手机的商店中，70%的包含手机的交易中包含充电器,在所有交易中，有56%同时包含这两种物品。于是规则表示为手机充电器（可信度70%，支持度56%）,购物篮分析,购物篮分析：通过发现顾客放入“购物篮”中的不同商品之间的关联，分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁地被顾客同时购买，从而帮助他们开发更好的营销策略。,购物篮分析还可以应用在下列问题上：（1）针对信用卡购物，能够预测未来顾客可能购买什么。（2）对于电信与金融服

14、务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。（3）保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。（4）对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。等等,为什么频繁模式挖掘是数据挖掘的基本任务?,许多基本的数据挖掘任务的基础关联, 相关, 因果关系序列模式, 时间或周期关联, 局部周期性, 空间和多媒体关联关联分类, 聚类分析, 冰山方, fascicles (语义数据压缩) 广泛的应用购物篮数据分析, 交叉销售, 分类设计, 销售活动分析 Web 日志 (点击流) 分析, DNA 序列分析, 等.,Apriori -关联

15、规则的一个算法 CARMA,CARMA算法简介,CARMA是一种比较新的关联规则算法，它是1999年由Berkeley大学的Christian Hidber教授提出来的。,1,2,3,4,能够处理在线连续交易流数据,仅需一次，最多两次对数据的扫描就可以构造出结果集,允许在算法执行过程中按需要重新设置支持度,占用内存少,CARMA,supermarket,关联规则：哪些商品会在一起被购买？在超市的促销中就应搭配在一起或摆放在相同的货架。此时关注的是商品而不是顾客个人信息。,分类与预测,6.1 分类与预测概述,分类分析所谓分类，就是把给定的数据划分到一定的类别中。分类分析就是通过分析训练集中的数

16、据，为每个类别建立分类分析模型；然后用这个分类分析模型对数据库中的其他记录进行分类。分类分析的输入集是一组记录集合和几种类别的标记。这个输入集又称示例数据库或训练集。训练集中的记录称为样本。在这个训练集中，每个记录都被赋予一个类别的标记。,6.1 分类与预测概述,分类分析分类分析方法的一个典型例子是信用卡核准过程。信用卡公司根据信誉程度，将一组持卡人记录分为良好、一般和较差三类，且把类别标记赋给每个记录。分类分析就是分析该组记录数据，对每个信誉等级建立分类分析模型。如“信誉良好的客户是那些收入在5万元以上，年龄在4050岁之间的人士”。得出这个分类分析模型之后，就可根据这个分类分析模型对新的记录进行分类，从而判断一个新的持卡人的信誉等级是什么。,6.1 分类与预测概述,分类与预测分类：预测分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测： (prediction)是构

展开阅读全文