《数据挖掘导论》教材配套教学ppt——第1章认识数据挖掘

资源描述

《《数据挖掘导论》教材配套教学ppt——第1章认识数据挖掘》由会员分享，可在线阅读，更多相关《《数据挖掘导论》教材配套教学ppt——第1章认识数据挖掘（65页珍藏版）》请在金锄头文库上搜索。

1、第1章认识数据挖掘,数据挖掘定义机器学习数据查询专家系统数据挖掘过程/作用/技术/应用 Weka数据挖掘软件,本章目标,掌握数据挖掘的定义了解机器学习中的基本方法概念学习归纳学习有指导的学习无指导的聚类了解与数据挖掘有关的数据查询、专家系统了解数据挖掘的过程、作用、技术、应用掌握Weka数据挖掘软件的使用方法,2019年9月8日星期日,第2页，共65页,1.1 数据挖掘定义,数据挖掘（Data Mining）,技术角度利用一种或多种计算机学习技术，从数据中自动分析并提取信息的处理过程。目的是寻找和发现数据中潜在的有价值的信息、知识、规律、联系和模式。数据挖掘与计

2、算机科学有关，一般使用机器学习、统计学、联机分析处理、专家系统和模式识别等多种方法来实现。学科角度数据挖掘是一门交叉学科，涉及数据库技术、人工智能技术、统计学、可视化技术、并行计算等多种技术。,2019年9月8日星期日,第4页，共65页,商业角度商业智能信息处理技术；围绕商业目标开展的，对大量商业数据进行抽取、转换、分析和处理，从中提取辅助商业决策的关键性数据，揭示隐藏的、未知的或验证已知的规律性，是一种深层次的商业数据分析方法。,2019年9月8日星期日,第5页，共65页,数据挖掘（Data Mining）,1.2 机器学习,1.2.1 概念学习,通过对大量实例进行训练，从中发现经验

3、化规律的过程。机器学习结果的通常表现形式为概念。机器最擅长的是学习概念。概念（Concept）具有某些共同特征的对象、符号或事件的集合。概念可以从三个不同的角度来看待,2019年9月8日星期日,第7页，共65页,1.2.1 概念学习,1、传统角度（Classical View）所有概念都有明确的定义。 2、概率角度（Probabilistic View）对个别样本实例进行概括性描述，概括性说明构成了概率角度中的概念。 3、样本角度（Exemplar View）样本角度中的概念是将某个概念中的典型实例组成一个集合，使用该集合来描述概念定义。,2019年9月8日星期日,第8页，共6

4、5页,1.2.2 归纳学习（Induction-Based Learning）,基于归纳的学习机器学习方式人类学习最重要方式之一人类通过对事物的特定实例的观察，对所掌握的已有经验材料研究。归纳学习从归纳中获取和探索新知识，并以概念的形式表现出来的学习。,2019年9月8日星期日,第9页，共65页,1.2.3 有指导的学习（Supervised Learning）,定义通过对大量已知分类或输出结果值的实例进行训练，调整分类模型的结构，达到建立能够准确分类或预测未知模型的目的。这种基于归纳的概念学习过程被称为有指导（监督）的学习。数据实例（Instance）用于有指导学习的样本数据

5、训练实例（Training Instance）用于训练的实例检验实例（Test Instance）分类模型建立完成后，经过检验实例进行检验，判断模型是否能够很好地应用在未知实例的分类或预测中。,2019年9月8日星期日,第10页，共65页,【例1.1】,给定如表1.1所示的数据集T，使用有指导的学习方法建立分类模型，对未知类别的实例进行分类。,表1.1 感冒诊断假想数据集,2019年9月8日星期日,第12页，共65页,表1.1 感冒诊断假想数据集,决策树（Decision Tree）,倒立树，非叶子节点表示在一个属性上的分类检查，叶子节点表示决策判断的结果，该结果选择了正确分类较多实例

6、的分类。决策树有很多算法（第2章）,2019年9月8日星期日,第13页，共65页,图1.1 感冒类型诊断C4.5决策树,分类未知实例,分类模型建立和检验完成后，就可以实际投入使用，即用该模型对未知分类的实例进行分类。,2019年9月8日星期日,第14页，共65页,表1.2 未知分类的数据实例,产生式规则,决策树一般都可以被翻译为一个产生式规则集合。产生式规则的格式为： IF 前提条件 THEN 结论图1.1翻译为4条产生式规则（1）IF Sore-throat = No THEN Cold-type = Viral （2）IF Sore-throat = Yes & Cooling-e

7、ffect = Good THEN Cold-type = Viral （3）IF Sore-throat = Yes & Cooling-effect = Not good THEN Cold-type = Bacterial （4）IF Sore-throat = Yes & Cooling-effect = Unknown THEN Cold-type = Bacterial,2019年9月8日星期日,第15页，共65页,1.2.4 无指导的聚类（Unsupervised Clustering）,无指导（监督）聚类一种无指导（无教师）的学习；在学习训练之前，无预先定义好分类的实例，数

8、据实例按照某种相似性度量方法，计算实例之间的相似程度，将最为相似的实例聚类在一个组簇（Cluster）中，再解释和理解每个簇的含义，从中发现聚类的意义。,2019年9月8日星期日,第16页，共65页,【例1.2】,给定如表1.1所示的数据集T，使用无指导聚类方法，对所有实例进行分类，解释每个簇的含义。,挖掘准备,删除Cold-type（感冒类型）属性选择算法无指导聚类有很多种算法， K-means（K-均值）算法、凝聚聚类方法、概念分层Cobweb算法、EM算法等。 K-means算法是一种最为常用和易用的算法。指定初始簇 K-means（K-均值）算法在聚类前指定一个初始的簇的个数，本

9、例指定为2。,2019年9月8日星期日,第18页，共65页,聚类结果,聚类为两个簇，每个簇有5个实例，分别为 Cluster0 = 1,3,4,8,9 Cluster1 = 2,5,6,7,10 每个簇的概念结构可以表示为一个产生式规则（1）IF Increased -lym = Yes & Cooling-effect =Good THEN Cluster = 0 （rule accuracy = 4/4 = 100%，rule coverage = 4/5 = 80%）（2）IF Sore-throat = Yes & Cooling-effect = Not good THEN Cl

10、uster = 1 （rule accuracy = 4/4 = 100%，rule coverage = 4/5 = 80%）,2019年9月8日星期日,第19页，共65页,1.3 数据查询,数据查询（Data Query）,通过数据查询语言在数据中找出所需要的数据或信息。什么时候使用数据挖掘，什么时候使用数据查询呢？获取浅知识或多维知识（Multidimensional Knowledge）获取数据中潜在的、隐藏的信息或知识隐含知识（Hidden Knowledge）,2019年9月8日星期日,第21页，共65页,1.4 专家系统,专家系统（Expert System）,一种具有“智

11、能”的计算机软件系统。能够模拟某个领域的人类专家的决策过程，解决那些需要人类专家处理的复杂问题。一般包含以规则形式表示的领域专家的知识和经验，系统就是利用这些知识和方法进行推理和判断，从而解决该领域中实际问题。专家（Expert）有能力解决领域中复杂问题的人通常被称为该领域中的专家（Expert）,2019年9月8日星期日,第23页，共65页,专家系统方法与数据挖掘方法,2019年9月8日星期日,第24页，共65页,图1.2 专家系统方法vs 数据挖掘方法,1.5 数据挖掘的过程,KDD过程,数据挖掘是KDD过程中的一个阶段（第3章）一次数据挖掘实验分为4个步骤（1）准备数据，

12、包括准备训练数据和检验数据（2）选择一种数据挖掘技术或算法，将数据提交给数据挖掘软件（3）解释和评估结果（4）模型应用,2019年9月8日星期日,第26页，共65页,图1.3 数据挖掘实验过程示意图,1.5.1 准备数据,是整个数据挖掘过程中较为重要和费时费力的阶段。在明确数据挖掘目标后，可以通过从传统数据库、数据仓库和平面文件三种途径收集和抽取数据。 1、传统数据库操作型数据库（Operational Database），它是面向日常事务处理的数据库，通常结构为关系模型。数据库中包含若干个规范化了的二维关系表。 2、数据仓库数据仓库（Data Warehouse）是面向决策支持而

13、不是日常事务处理而设计的。 3、平面文件一些数据量较小的数据集可以存储在如Excel电子表格、.csv、.arff等平面文件中。,2019年9月8日星期日,第27页，共65页,1.5.2 挖掘数据,选择一种数据挖掘技术或算法，将数据提交给数据挖掘工具，应用该算法建立模型。选择数据挖掘技术或算法需要考虑（1）判断学习是有指导的还是无指导的。（2）数据集中的哪些实例和属性提交给数据挖掘工具；哪些数据实例作为训练数据；哪些数据实例作为检验数据。（3）如何设置数据挖掘算法的参数。,2019年9月8日星期日,第28页，共65页,1.5.3 解释和评估结果,对数据挖掘的输出进行检查，评估其是否达

14、到挖掘目标，确定所发现的信息或知识是有价值的。数据挖掘的评估工具有多种（第5章）如果结果不理想，可以（1）（2）进行重复实验，直到得到满意结果为止。（1）使用或选择新的数据实例或属性（2）选择新的数据挖掘算法或参数一个数据挖掘过程是个迭代的过程。,2019年9月8日星期日,第29页，共65页,1.5.4 模型应用,数据挖掘的终极目标。可以应用分类模型解决如例1.1中的疾病诊断问题；可以应用聚类模型解决对顾客的分类，找出不同类中顾客的行为特征，从而为诸如促销活动等提供决策支持；可以通过应用关联分析模型，找出顾客购买的商品之间的关联关系，对于货架摆放、商品促销等提供决策支持。,20

15、19年9月8日星期日,第30页，共65页,1.6 数据挖掘的作用,数据挖掘的作用,两大类建立有指导的学习模型和无指导聚类模型。因变量（Dependent Variables）有指导的学习模型中的输出属性的值依赖于输入属性的取值，所以输出属性又被称为因变量自变量（Independent Variables）相对的，输入属性被称为自变量,2019年9月8日星期日,第32页，共65页,数据挖掘的作用,2019年9月8日星期日,第33页，共65页,图1.4数据挖掘的作用,1.7 数据挖掘技术,数据挖掘技术（Data Mining Technique）,对一组数据应用一种数据挖掘方法。一般由

16、一个数据挖掘算法和一个相关的知识结构，如树结构或规则来定义的。,2019年9月8日星期日,第35页，共65页,1.7.1 神经网络（Neural Network）,一种具有统计特性的数学模型。创建思想源于人类神经网络的结构、功能和运行过程。试图模拟人脑功能来完成学习。已经成功地应用于多个领域的问题中，是非常流行的数据挖掘技术。可以建立有指导学习模型和无指导聚类模型。输入属性必须是数值的，输出属性可以是数值的也可以是分类的。,2019年9月8日星期日,第36页，共65页,前馈（Feed-Forward）神经网,常用的有指导的学习模型。全连接每一层的每个节点都与其下一层的所有节点相连接，而同层节点之间不相连。每个网络连接上都具有权重值，如w1j、w2j、w3j。,2019年9月8日星期日,第37页，共65页,图1.5 三层全连接前馈神经网,建立神经网络模型的两个阶段,第一个阶段学习训练阶段将每个实例的输入属性值提交给输入层节点。神经网络使用输入值和网络连接权重值来计算每个实例的输出。将每个实例的输出和希望的网络输出进行比较，希望值和计算输出值之

展开阅读全文

《数据挖掘导论》教材配套教学ppt——第1章 认识数据挖掘

《数据挖掘导论》教材配套教学ppt——第1章认识数据挖掘