《数据仓库与数据挖掘第一章概述(SUN)》精编版

上传人:ahu****ng1 文档编号:141982116 上传时间:2020-08-14 格式:PPTX 页数:84 大小:1.27MB
返回 下载 相关 举报
《数据仓库与数据挖掘第一章概述(SUN)》精编版_第1页
第1页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》精编版_第2页
第2页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》精编版_第3页
第3页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》精编版_第4页
第4页 / 共84页
《数据仓库与数据挖掘第一章概述(SUN)》精编版_第5页
第5页 / 共84页
点击查看更多>>
资源描述

《《数据仓库与数据挖掘第一章概述(SUN)》精编版》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘第一章概述(SUN)》精编版(84页珍藏版)》请在金锄头文库上搜索。

1、数据仓库与数据挖掘,数据挖掘,关于本课程,数据挖掘融合了数据库、人工智能、机器学习、统计分析、模式发现、可视化技术、信息检索等多个学科领域的知识。 本课程系统地介绍了数据挖掘的概念、理论及其发展、重点介绍了数据挖掘技术及其在实践中的应用。,数据挖掘,课程目标,通过本课程的学习,掌握数据挖掘的基本概念、数据挖掘过程、数据仓库的概念、OLAP与数据挖掘的关系。 掌握数据挖掘的常用技术:决策树、神经网络、关联规则、聚类分析、统计学习等。 熟悉数据挖掘技术在典型行业的应用方法,具有运用数据挖掘技术解决问题的能力。,数据挖掘,课程体系,数据挖掘概述 数据仓库与OLAP技术 数据挖掘技术 数据挖掘应用 数

2、据挖掘工具 数据挖掘实例,数据挖掘,学习方法,课堂讲授及自学 理解数据挖掘的基本概念和原理。 充分利用因特网,查阅相关资料 进一步拓展知识面 熟悉常用的数据挖掘软件,提高数据挖掘的基本处理能力和动手能力。,数据挖掘,成绩考核,考试成绩由平时考勤+课堂讨论大作业,数据挖掘,参考资料,韩家炜,数据挖掘:概念与技术(第二版),中文版,机械工业出版社 王欣等,SQL Server 2005数据挖掘实例分析,中国水利水电出版社 数据挖掘.实用机器学习工具和技术 WEKA手册,数据挖掘,参考网站,数据挖掘,需要使用的部分软件,SPSS WEKA SQL Server 2005标准版 Excel,数据挖掘,

3、第1章数据挖掘概述,数据挖掘,数据挖掘,啤酒与尿布,数据挖掘,引例: 啤酒与尿布,沃尔玛超市建立数据仓库,按周期统计产品的销售信息,经过科学建模后提炼决策层数据。 发现每逢周末,位于某地区的沃尔玛超市连锁店的啤酒和尿布的销售量很大,而且单张发票中同时购买尿布和啤酒的记录非常普遍。 分析人员认为这并非偶然,经过深入分析得知,通常周末购买尿布的是男士,他们在完成了太太交给的任务后,经常会顺便买一些啤酒。 得出这样的结果后,沃尔玛超市的工作人员尝试着将啤酒和尿布摆放在一起销售,结果尿布与啤酒的销售额双双增长。 从上面的例子不难看出,数据管理的主要目的是获取信息和分析信息以指导我们的行动或帮助我们作决

4、策。,数据挖掘,引言,从大量数据中提取出隐藏在其中的有用信息 数据挖掘,也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。,数据挖掘,本章内容,一、数据挖掘技术的由来 二、数据挖掘的定义 三、数据挖掘发现的知识类型 四、数据挖掘对象 五、数据挖掘任务 六、数据挖掘分类 七、数据挖掘模型 八、数据挖掘过程,数据挖掘,数据挖掘,一、数据挖掘技术的由来,信息爆炸但知识贫乏 纽约时报一周报道的信息总量,比十八世纪一个人一生接触的信息总量还多 “我们正在被信息所淹没,但我们却由于缺乏知识而

5、感到饥饿。”,数据挖掘,一、数据挖掘技术的由来,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(Artificial Intelligence,人工智能) ) 1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(Knowledge Discovery in Database,KDD)这一术语。 随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是

6、作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,数据挖掘,一、数据挖掘技术的由来,现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(Data Mining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(Data Mining),数据挖掘是KDD中一个非常重要的处理步骤。 数据挖掘是近年来出现的客户关系管理(Customer Relationship Management, CRM)、商业智能(Business Intelligence, BI)等热点领域的核心技术之一。,数据挖掘,一、数据挖掘技术的由来,支持数据挖掘技术的基础 海量数据搜

7、索 强大的多处理器计算机 数据挖掘算法,数据挖掘,二、数据挖掘的定义,技术角度的定义 数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 该定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,数据挖掘,二、数据挖掘的定义,关于知识的解释 从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。 这里所说的知识

8、发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。 实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。,数据挖掘,二、数据挖掘的定义,模式:它给出了数据特性或数据之间的关系,是对数据所包含的信息更抽象的描述。模式按功能可以分为预测型模式和描述型模式。在实际应用中,可以细分为关联模式、分类模式、聚类模式和序列模式等。,数据挖掘,二、数据挖掘的定义,“从数据中发现有用模式”历来有很多称法,如: 数据挖掘(data mining) 知识提取(knowled

9、ge extraction) 信息发现(information discovery) 信息收获(information harvesting) 数据考古(data archaeology) 数据模式处理(data pattern processing) “数据挖掘”的称法大部分是由统计学家,数据分析学家和MIS团体使用的,在数据库领域也得到了广泛接受。,数据挖掘,二、数据挖掘的定义,商业角度的含义 数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。 数据挖掘对于企业的价值 简言之,数据挖掘其实是一

10、类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,数据挖掘,二、数据挖掘的定义,从商业数据到商业信息的进化,数据挖掘,数据挖掘与其他科学的关系,数据挖掘作为一门新兴的交叉学科,涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。 此外,还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。,数据挖掘,数据挖掘与其他科学的关系,数据挖掘受多学科的影响,数据挖掘,数据挖掘与传统数据分析,数据挖掘与传统的

11、数据分析(如查询、报表、联机应用分析)的本质区别是数据挖掘是: 在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可用三个特征。(传统是假设驱动、数据挖掘是发现驱动),数据挖掘,数据挖掘和数据仓库,数据仓库和数据集市是数据挖掘的一种数据源 数据挖掘是数据仓库的一个应用 对于数据挖掘,数据仓库不是必需的。,数据挖掘,数据挖掘和在线分析处理(OLAP),OLAP分析是建立一系列的假设,然后通过OLAP来证实或推翻这些假设来最终得到自己的结论。OLAP分析过程在本质上是一个演绎推理的过程。 数据挖掘与OLAP不同的地方是,数据挖掘不是用于验证某个假定的模式(模型)

12、的正确性,而是在数据库中自己寻找模型。他在本质上是一个归纳的过程。 数据挖掘和OLAP具有一定的互补性。,数据挖掘,数据挖掘、机器学习和统计,数据挖掘利用了人工智能(AI)和统计分析的进步所带来的好处。 数据挖掘不是为了替代传统的统计分析技术。相反,他是统计分析方法学的延伸和扩展。 数据挖掘就是利用了统计和人工智能技术的应用程序,他把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题,数据挖掘,数据挖掘的本质,一种深层次的数据分析方法。 数据分析本身已有多年的历史,只不过在过去数据收集和分析的一般目的是用于科学研究;另外,由于当时计算能力的

13、限制,很难实现大量数据的复杂分析。 现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据并不是为了分析的目的而收集的,而是在商业运作过程中由于业务需要而自然产生的。,数据挖掘,实施数据挖掘的目的,不再是单纯为了研究,更主要的是为商业决策提供真正有价值的信息,进而获得利润。 所有企业面临的一个共同问题是:企业数据量非常大,而其中真正有价值的信息却很少,因此需要从大量的数据中经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也由此而得名。,数据挖掘,三、数据挖掘发现的知识类型,广义知识 关联知识 分类知识 预测知识 偏差知识。,数据挖掘,广义知识

14、,广义知识指类别特征的概括性描述知识。 根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质。 广义知识就是对大量数据的归纳、概括,提炼出带有普遍性的、概括性的描述统计知识。 描述统计是数据挖掘最基本的应用之一,经常和统计图(如直方图,柱形图,折线图,散点图等)配合使用。如当月公司利润总额、比较不同区域的销售量等。 广义知识的发现方法和实现技术有很多,如概念描述、多维数据分析、面向属性的归约、概念分层等。,数据挖掘,关联知识,数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。 关联知识可分为简

15、单关联规则、多层关联规则、多维关联规则、量化关联规则和基于约束的关联规则。 典型例子是购物篮分析 发现关联规则的算法主要有Apriori算法和频繁模式树(FP-树),数据挖掘,案例:某超市的数据挖掘应用,美国的超市有这样的系统:当你采购了一车商品结账时,售货员小姐扫描完了你的产品后,计算机上会显示出一些信息,然后售货员会友好地问你:我们有一种一次性纸杯正在促销,位于F6货架上,您要购买吗? 这句话决不是一般的促销。因为计算机系统早就算好了,如果你的购物车中有餐巾纸、大瓶可乐和沙拉,则86%的可能性你要买一次性纸杯。结果是,你说,啊,谢谢你,我刚才一直没找到纸杯。 这不是什么神奇的科学算命,而是

16、利用数据挖掘中的关联规则算法实现的系统。,数据挖掘,分类知识,分类知识是反映同类事物共同性的特征型知识和不同事物之间的差异型特征知识。 典型应用:客户细分。例如,银行根据客户的存款额、信用额和消费金额把客户分成不同的类别,分别办理不同类型的银行卡。 算法有决策树分类、贝叶斯分类、人工神经网络法、粗糙集法和遗传算法等。,数据挖掘,预测知识,预测型知识指的是预测连续值,是根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。 一个典型的例子是市场预测问题,数据挖掘从过去有关促销的数据中寻找在未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能做出反应的群体。 基于统计学习的回归分析法,还有基于现代智能计算的神经网络、遗传算法等各类时间序列分析法。,数据挖掘,偏差知识,偏差型知识是对差异和极端特例的描述,揭示事物偏离常规的异常现象。 偏差即异常,在数据挖掘中有时也称之为“孤立点”,可以用来发现“小的模式” 偏差知识挖掘的一个典型应用是检测信用卡欺诈。 基于统计的方法、基于距离的方法和基于偏离的方法

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号