数据分析和挖掘－金锄头文库

资源描述

《数据分析和挖掘》由会员分享，可在线阅读，更多相关《数据分析和挖掘（83页珍藏版）》请在金锄头文库上搜索。

1、2019年11月6日,1,第18章数据分析与挖掘,1、决策支持系统 2、数据分析和联机分析处理（OLAP） 3、数据仓库工程 4、数据挖掘,2019年11月6日,2,数据分析与挖掘的社会需求,有价值的知识,可怕的数据,2019年11月6日,3,数据分析与挖掘的社会需求,2019年11月6日,4,1、决策支持系统,数据库应用系统可广义地划分为事务处理系统和决策支持系统事务处理系统用来记录有关事务的信息的系统决策支持系统是从事务处理系统存储的细节信息中提取出高层次的信息,2019年11月6日,5,2.数据分析和联机分析处理,随着数据库技术的发展和应用，数据库存储的数据量从20世纪80年

2、代的兆（M）字节及千兆（G）字节过渡到现在的兆兆（T）字节和千兆兆（P）字节，同时，用户的查询需求也越来越复杂，涉及的已不仅是查询或操纵一张关系表中的一条或几条记录，而且要对多张表中千万条记录的数据进行数据分析和信息综合，关系数据库系统已不能全部满足这一要求。,2019年11月6日,6,什么是OLAP,联机分析处理（Online Analytical Processing）是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取，允许管理决策人员对数据进行深入观察。 OLAP=多维数据库？,2019年11月6日,7,O

3、LTP联机事务处理,传统的关系型数据库的主要应用侧重于日常的商务操作专门为了实时的数据操作而设计支持数据的快速插入和修改提供单个纪录的查询支持数千个并发用户,2019年11月6日,8,OLAP,是数据仓库的核心部心，数据仓库系统的主要应用，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。提供数据挖掘，发现数据间潜在的联系从各个不同的视觉察看数据,2019年11月6日,9,OLTP vs OLAP,2019年11月6日,10,OLAP是多维的（多维数据库有层次概念）,“嘿4月份我在北京卖掉了价值十万美元的可乐”,维度的层次概念：,产品类别产品名称,地域国家省

4、市,时间年季度月日,2019年11月6日,11,维度和量度,2019年11月6日,12,3、数据仓库,数据仓库简介数据仓库与数据库的区别如何建设数据仓库,2019年11月6日,13,数据仓库简介,数据仓库（data warehouse）是从多个源中收集一个信息仓储（或归档），在同一个位置用唯一的模式存储。长时间存储单独的统一的数据接口,2019年11月6日,14,数据仓库与数据库的区别,数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库，用于处理商业智能、决策支持等重要的决策信息；数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析；是处理两种不同用途的

5、工具而已。,2019年11月6日,15,数据仓库的建设（1）,2019年11月6日,16,设计数据仓库,一个数据仓库包括了一个中央事实表Fact table 多个维表,2019年11月6日,17,数据仓库的星型结构,2019年11月6日,18,数据仓库的建设（2）,2019年11月6日,19,ETL：数据的提取与转换,2019年11月6日,20,数据仓库的建设（3）,2019年11月6日,21,数据仓库的建设（4）,2019年11月6日,22,四、数据挖掘,1、数据挖掘简介 2、数据挖掘系统的特征 3、数据挖掘技术,2019年11月6日,23,1、数据挖掘简介,基本知识数据挖掘与OLAP比

6、较数据挖掘与KDD比较数据挖掘的流程,2019年11月6日,24,数据挖掘简介,1、数据挖掘是怎样的一个过程呢？从海量数据中，提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。 2、数据挖掘特性？数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构；数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。,2019年11月6日,25,数据挖掘系统,2019年11月6日,26,数据挖掘与OLAP比较,（1）功能不同数据挖掘DM的功能在于知识发现。如：数据挖掘DM中的“分类”包括：贝叶斯分类、粗糙集分类、决策树分类等，是从数据中发现知识规则而联机分析OLAP

7、是一种自上而下、不断深入的分析工具:用户提出问题或假设，OLAP负责从上至下深入地提取出关于该问题的详细信息，并以可视化的方式呈现给用户。用户先入为主的局限性可能会限制问题和假设的范围，从而影响最终的结论。,2019年11月6日,27,（2）数据组成不同数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则；而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。（3）知识与数据的关系不同数据挖掘DM是从数据中发现知识KDD；而联机分析OLAP是利用人已知的知识来有意识地组织和使用数据。,2019年11月6日,28,数据挖掘与KDD,知识发现（KD）输出的是规则数据挖掘（

8、DM）输出的是模型共同点两种方法输入的都是学习集（learning sets）目的都是尽可能多的自动化数据挖掘过程数据挖掘过程并不能完全自动化，只能半自动化,2019年11月6日,29,SQL Server 2005数据挖掘处理流程,2019年11月6日,30,2、数据挖掘系统的特征,矿山（数据）,挖掘工具（算法）,金子（知识）,数据的特征知识的特征算法的特征,2019年11月6日,31,数据的特征,大容量 POS数据（某个超市每天要处理高达2000万笔交易）卫星图象（NASA的地球观测卫星以每小时50GB的速度发回数据）互联网数据含噪音（不完全、不正确）异质数据（多种数

9、据类型混合的数据源，来自互联网的数据是典型的例子）,2019年11月6日,32,系统的特征,知识发现系统需要一个前处理过程数据抽取数据清洗数据选择数据转换知识发现系统是一个自动/半自动过程知识发现系统要有很好的性能,2019年11月6日,33,知识的特征,知识发现系统能够发现什么知识？计算学习理论COLT（Computational Learning Theory）以FOL为基础的以发现关系为目的的归纳逻辑程序设计现行的知识发现系统只能发现特定模式的知识规则分类关联,2019年11月6日,34,算法的特征,构成数据挖掘算法的三要素模式记述语言：反映了算法可以发现什么样

10、的知识模式评价：反映了什么样的模式可以称为知识模式探索：包括针对某一特定模式对参数空间的探索和对模式空间的探索,2019年11月6日,35,3、数据挖掘技术,技术分类预言（Predication）：用历史预测未来描述（Description）：了解数据中潜在的规律数据挖掘技术分类关联规则聚集时间序列,2019年11月6日,36,决策树算法,基本介绍根据数据源，找到决定预测目标的因素的重要关系登记以及程度。把已知条件自动分解为多个离散的类别初始状态是一个大的空间，挖掘的过程是递归分区不断分割。,2019年11月6日,37,案例,我们有大量的客户年龄在20-60岁月薪

11、在08000元 55%的被我们认可为好客户里边潜在的规律是什么？,2019年11月6日,38,谁是我们的有价值客户呢？,2019年11月6日,39,谁是我们的有价值客户呢？,2019年11月6日,40,谁是我们的有价值客户呢？,2019年11月6日,41,决策树算法,典型应用一个或多个变量预测目标，变量对目标的重要程序。预测客户是否会购买某种产品，预测潜在客户。评估客户风险找到决策规则,2019年11月6日,42,关联规则算法,基本介绍分析发现数据库中不同变量或个体间之间的关系程度，用这些规则找出顾客购买行为模式。关联规则算法可以处理异常大的目录，经过了包含超过五千万种商品的目录

12、的测试。,2019年11月6日,43,关联规则算法典型应用,购物篮物品关联度货品摆放捆绑销售网站内容关联个性化促销网上书店关联销售 ,2019年11月6日,44,聚类算法,基本介绍将相似的事物归类最大期望方法 K-Means,2019年11月6日,45,聚类算法,典型应用分类和预测、客户价值度分析典型问题寻找有价值客户群体寻找欺诈群体,2019年11月6日,46,数据挖掘算法分类,2019年11月6日,47,分类 VS 预测,分类：预测项目所属类根据已有训练数据集和所属类，构建模型来分类现有数据，并用来分类新数据预测：是构造和使用模型评估无样本类，或评估给定样本

13、可能具有的属性或值空间。建立连续函数值模型，比如预测空缺值,2019年11月6日,48,预测和分类的异同,相同点两者都需要构建模型都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点分类法主要是用来预测类标号（分类属性值）预测法主要是用来估计连续值（量化属性值）,2019年11月6日,49,第一步：建立模型,训练数据集,分类算法,IF rank = professor OR years 6 THEN tenured = yes,分类规则,2019年11月6日,50,第二步：用模型进行分类,分类规则,测试集,未知数据,(Jeff, Profe

14、ssor, 4),Tenured?,注：测试集要独立于训练样本集，否则会出现“过分适应数据”的情况,2019年11月6日,51,分类前期工作：准备数据,通过对数据进行预处理，可以提高分类和预测过程的准确性、有效性和可伸缩性数据清理消除或减少噪声，处理空缺值。相关性分析数据中的有些属性可能与当前任务不相关；也有些属性可能是冗余的；数据变换可以将数据概化到较高层概念，或将数据进行规范化,2019年11月6日,52,比较分类方法,使用下列标准比较分类和预测方法预测的准确率：模型正确预测新数据的类编号的能力速度：产生和使用模型的计算花销鲁棒性：给定噪声数据或有空缺值的数据，模型正确预

15、测的能力可伸缩性：对大量数据，有效的构建模型的能力可解释性：学习模型提供的理解和洞察的层次,2019年11月6日,53,用判定树归纳分类,什么是判定树？类似于流程图的树结构每个内部节点表示在一个属性上的测试每个分枝代表一个测试输出每个树叶节点代表类或类分布判定树的生成由两个阶段组成判定树构建开始时，所有的训练样本都在根节点递归的通过选定的属性，来划分样本（必须是离散值）树剪枝许多分枝反映的是训练数据中的噪声和孤立点，树剪枝试图检测和剪去这种分枝判定树的使用：对未知样本进行分类通过将样本的属性值与判定树相比较,2019年11月6日,54,判定归纳树算法,判定归纳树算

16、法（一个贪心算法）自顶向下的分治方式构造判定树树以代表训练样本的单个根节点开始使用分类属性（如果是量化属性，则需先进行离散化）递归的通过选择相应的测试属性，来划分样本，一旦一个属性出现在一个节点上，就不在该节点的任何后代上出现测试属性是根据某种启发信息或者是统计信息来进行选择（如：信息增益）注：属性的选择递归划分步骤停止的条件给定节点的所有样本属于同一类没有剩余属性可以用来进一步划分样本使用多数表决没有剩余的样本,2019年11月6日,55,贝叶斯分类,贝叶斯分类利用统计学中的贝叶斯定理，来预测类成员的概率，即给定一个样本，计算该样本属于一个特定的类的概率。朴素贝叶斯分类：假设每个属性之间都是相互独立的，并且每个属性对非类问题产生的影响都是一样的。,2019年11月6日,56,提高分类法的准确性,Bagging技术和boosting技术都通过将T个学习得到的分类法C1,C2CT组合起来，从而创造一个改进的分类法C* Bagging技术对训练集S进行T次

展开阅读全文

数据分析和挖掘

最新文档