数据仓库与数据挖掘课件1_（13）

资源描述

《数据仓库与数据挖掘课件1_（13）》由会员分享，可在线阅读，更多相关《数据仓库与数据挖掘课件1_（13）（35页珍藏版）》请在金锄头文库上搜索。

1、2018年10月23日星期二,Data Mining: Concepts and Techniques,1,数据仓库与数据挖掘,任课教师:刘爱华工作单位:信息技术系办公地点：科技楼913 联系电话:13767658945 QQ号码：122471495 E-mail:,二十世纪末以来，全球信息量以惊人的速度急剧增长据估计，每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据（信息）。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能，但无法发现数据中存在的关系和规则，无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源，从海量数据中找出隐藏的知识，数据挖掘技

2、术应运而生并显示出强大的生命力。,Why?,Why?数据挖掘的社会需求,数据挖掘是八十年代投资AI研究项目失败后，AI转入实际应用时提出的。它是一个新兴的，面向商业应用的AI研究。1989年8月，在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现（Knowledge Discovery in Database，KDD）这一术语。随后，在1991年、1993年和1994年都举行KDD专题讨论会，汇集来自各个领域的研究人员和应用开发者，集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初，数据挖掘是作为KDD中利用算法处理数据的一个步骤，其后逐渐演

3、变成KDD的同义词。,概述,现在，人们往往不加区别地使用两者。KDD常常被称为数据挖掘（Data Mining），实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘（Data Mining），数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理（Customer Relationship Management， CRM）、商业智能（Business Intelligence， BI）等热点领域的核心技术之一。,概述,一种深层次的数据分析方法。数据分析本身已有多年的历史，只不过在过去数据收集和分析的一般目的是用于科学研究；另外，由于当时计算能力的限制，很难实

4、现大量数据的复杂分析。现在，由于各行业业务自动化的实现，商业领域产生了大量的业务数据，这些数据并不是为了分析的目的而收集的，而是在商业运作过程中由于业务需要而自然产生的。,数据挖掘与传统分析方法的区别,数据挖掘与传统数据分析方法区别,（1）数据挖掘的数据源与以前相比有了显著的改变；数据是海量的；数据有噪声；数据可能是非结构化的；（2）传统的数据分析方法一般都是先给出一个假设然后通过数据验证，在一定意义上是假设驱动的；与之相反，数据挖掘在一定意义上是发现驱动的，模式都是通过大量的搜索工作从数据中自动提取出来。即数据挖掘是要发现那些不能靠直觉发现的信息或知识，甚至是违背直觉的信息或知识，挖掘出

5、的信息越是出乎意料，就可能越有价值。,在缺乏强有力的数据分析工具而不能分析这些资源的情况下，历史数据库也就变成了“数据坟墓”里面的数据几乎不再被访问。也就是说，极有价值的信息被“淹没”在海量数据堆中，领导者决策时还只能凭自己的经验和直觉。因此改进原有的数据分析方法，使之能够智能地处理海量数据，即演化为数据挖掘。,数据挖掘与传统数据分析方法区别,技术角度的定义数据挖掘（Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括：数据融合、数据分析和决策支持等。这一定义包括好

6、几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用；并不要求发现放之四海皆准的知识，仅支持特定的发现问题。,数据挖掘定义,商业角度的定义数据挖掘是一种新的商业信息处理技术，其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理，从中提取辅助商业决策的关键性信息。简言之，数据挖掘其实是一类深层次的数据分析方法。因此，数据挖掘可以描述为:按企业既定业务目标，对大量的企业数据进行探索和分析，揭示隐藏的、未知的或验证己知的规律性，并进一步将其模型化的有效方法。,数据挖掘的演化,数据挖掘与其他科学的关系,数据挖掘作为一门新兴

7、的交叉学科，涉及数据库系统、数据仓库、统计学、机器学习、可视化、信息检索和高性能计算等诸多领域。此外，还与神经网络、模式识别、空间数据分析、图像处理、信号处理、概率论、图论和归纳逻辑等等领域关系密切。,国外研究现状,IEEE的Knowledge and Data Engineering会刊率先在1993年出版了KDD技术专刊。并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。数据挖掘已经成了国际学术研究的重要热点之一。此外，在Internet上还有不少KDD电子出版物，其中以半月刊Knowledge Discovery Nuggets最为权威（h

8、ttp:/ subscribe.html）。在网上还有许多自由论坛，如DM Email Club等。,国外研究现状,自1989年KDD术语出现以来，由美国人工智能协会主办的KDD国际研讨会已经召开了10次以上，规模由原来的专题讨论会发展到国际学术大会。而亚太地区也从1997开始举行PAKDD年会。,国内研究现状,与国外相比，国内对数据挖掘的研究起步稍晚，但发展势头强劲。1993年，国家自然科学基金首次资助复旦大学对该领域的研究项目。目前，国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究。,发展趋势,近年来，数据挖掘的研究重点逐渐从发现方法转向系统应用，注重多种发现策略和技术的

9、集成，以及多学科之间的相互渗透。例如，1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论，并且有30多家软件公司展示了他们的数据挖掘软件产品，不少软件已在北美、欧洲等国得到应用。,数据挖掘系统的典型结构,功能,1. 概念/类别描述（Concept/Class Description）概念/类别描述是指对数据集做一个简洁的总体性描述并/或描述它与某一对照数据集的差别。例1：我们收集移动电话费月消费额超出1000元的客户资料，然后利用数据挖掘进行分析，获得这类客户的总体性描述：3550岁，有工作，月收入5000元以上，拥有良好的信用度；,功能,2. 关联分析（Asso

10、ciation Analysis）从一个项目集中发现关联规则，该规则显示了给定数据集中经常一起出现的属性值条件元组。例如：关联规则X=Y所表达的含义是满足X的数据库元组很可能满足Y。关联分析在交易数据分析、支持定向市场、商品目录设计和其他业务决策等方面有着广泛的应用。,功能,3. 分类与估值（Classification and Estimation）分类指通过分析一个类别已知的数据集的特征来建立一组模型，该模型可用以预测类别未知的数据项的类别。该分类模型可以表现为多种形式：分类规则（IF-THEN），决策树或者数学公式，乃至神经网络。估值与分类类似，只不过它要预测的不是类别，而是一个连续的数

11、值。,功能,4. 聚类分析（Clustering Analysis）聚类分析又称为“同质分组”或者“无监督的分类”，指把一组数据分成不同的“簇”，每簇中的数据相似而不同簇间的数据则距离较远。相似性可以由用户或者专家定义的距离函数加以度量。好的聚类方法应保证不同类间数据的相似性尽可能地小，而类内数据的相似性尽可能地大。,功能,5. 时间序列分析（Time-Series Analysis）时间序列分析即预测（Prediction），是指通过对大量时间序列数据的分析找到特定的规则和感兴趣的特性，包括搜索相似序列或者子序列，挖掘序列模式、周期性、趋势和偏差。预测的目的是对未来的情况作出估计。,功能,6

12、. 其它功能包括：偏差分析（Deviation Analysis）、孤立点分析（Outlier Analysis）等。随着数据挖掘技术的发展，可能还会继续出现新的数据挖掘功能。,展望,未来的热点应用领域,网站的数据挖掘（Web site data mining）生物信息或基因的数据挖掘文本挖掘（Textual mining）多媒体挖掘,网站的数据挖掘（Web site data mining）当前Internet上各类电子商务网站风起云涌，电子商务业务的竞争比传统的业务竞争更加激烈。客户从一个电子商务网站转换到竞争对手那边，只需点击几下鼠标即可，电子商务环境下客户保持比传统商业更加困难。若想

13、在竞争中生存进而获胜，您必须比竞争对手更了解客户。电子商务网站每天都可能有上百万次的在线交易，生成大量的记录文件（Log files）和登记表，如何对这些数据进行分析和挖掘，及时地了解客户的喜好、购买模式，甚至是客户一时的冲动，设计出满足于不同客户群体需要的个性化网站，进而增加竞争力，几乎变得势在必行。,网站的数据挖掘（Web site data mining）就分析和建立模型的技术和算法而言，网站的数据挖掘和原来的数据挖掘差别并不是特别大，很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流，和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数

14、据准备。目前，有很多厂商正在致力于开发专门用于网站挖掘的软件。,生物信息或基因的挖掘生物信息或基因数据挖掘则完全属于另外一个领域，在商业上很难讲有多大的价值，但对于人类却受益非浅。例如，基因的组合千变万化，得某种病的人的基因和正常人的基因到底差别多大？能否找出其中不同的地方，进而对其不同之处加以改变，使之成为正常基因？这都需要数据挖掘技术的支持。对于生物信息或基因的数据挖掘和通常的数据挖掘相比，无论在数据的复杂程度、数据量还有分析和建立模型的算法方面，都要复杂得多。从分析算法上讲，更需要一些新的和高效的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言，还远没有达到成熟的地步。,文本

15、挖掘（Textual mining）文本挖掘是人们关心的另外一个话题。例如，在客户服务中心，把同客户的谈话转化为文本数据，再对这些数据进行挖掘，进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。无论是在数据结构还是在分析处理方法方面，文本数据挖掘和数据挖掘相差很大。文本挖掘并不是一件容易的事情，尤其是在分析方法方面，还有很多需要研究的专题。目前市场上有一些类似的软件，但大部分方法只是把文本移来移去，或简单地计算一下某些词汇的出现频率，并没有真正实现语义上的分析功能。,多媒体挖掘（Multimeadia Mining）基于描述的检索系统基于图像的描述创建索引并实现对象检索，

16、如关键字、标题、尺寸和创建时间等；人工实现则极为费时、费力；自动实现则往往结果不理想。基于内容的检索系统支持基于图像内容的检索，例如颜色、质地、形状、对象及小波变换,总结,数据仓库（DW）是利用数据资源提供决策支持。在数据仓库中利用多维数据分析来发现问题，并找出产生的原因。能从大量历史数据中预测未来。数据挖掘（DM）是从数据中挖掘出信息和知识。,数据的特征,大容量 POS数据（某个超市每天要处理高达2000万笔交易）卫星图象（NASA的地球观测卫星以每小时50GB的速度发回数据）互联网数据含噪音（不完全、不正确）异质数据（多种数据类型混合的数据源，来自互联网的数据是典型的例子）,数据仓库、数据挖掘和联机分析处理（OLAP）结合起来，完成支持决策的系统，称为决策支持系统（DSS）。数据仓库、数据挖掘、联机分析处理等结合起来的技术称为商业智能（BI）。商业智能是一种新的智能技术，它区别于人工智能（AI）和计算智能（CI）。,按数据仓库的形成过程来讲述它的内容：从数据库到数据仓库以及对比；从联机事务处理OLTP到联机分析处理OLAP以及对比，用它们的对比来突出数据仓库决策支持的作用用。这种讲述，既便利掌握它们的连贯性，又能掌握数据仓的新特点。,

展开阅读全文