数据仓库与数据挖掘技术教案PPT15章

上传人:桔**** 文档编号:569375974 上传时间:2024-07-29 格式:PPT 页数:95 大小:514KB
返回 下载 相关 举报
数据仓库与数据挖掘技术教案PPT15章_第1页
第1页 / 共95页
数据仓库与数据挖掘技术教案PPT15章_第2页
第2页 / 共95页
数据仓库与数据挖掘技术教案PPT15章_第3页
第3页 / 共95页
数据仓库与数据挖掘技术教案PPT15章_第4页
第4页 / 共95页
数据仓库与数据挖掘技术教案PPT15章_第5页
第5页 / 共95页
点击查看更多>>
资源描述

《数据仓库与数据挖掘技术教案PPT15章》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘技术教案PPT15章(95页珍藏版)》请在金锄头文库上搜索。

1、 E-MAIL:BXXHSSINA.COM数据仓库与数据挖掘技术Electronic Commerce夏火松E-MAIL:BXXHSSINA.COMvIstitute Of MIS And LMS,wuse () E-MAIL:BXXHSSINA.COM第三部分 主要内容讲解第一章第一章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述1.1 数据仓库引论11.1.1为什么要建立数据仓库 11.1.2什么是数据仓库21.1.3数据仓库的特点71.1.4数据进入数据仓库的基本过程与建立数据仓库的步骤111.1.5分析数据仓库的内容121.2 数据挖掘引论131.2.1为什么要进行数据挖掘 131.2

2、.2什么是数据挖掘181.2.3数据挖掘的特点211.2.4数据挖掘的基本过程与步骤221.2.5分析数据挖掘的内容261.3 数据挖掘与数据仓库的关系281.4 数据仓库与数据挖掘的应用311.4.1数据挖掘在零售业的应用311.4.2数据挖掘技术在商业银行中的应用 361.4.3数据挖掘在电信部门的应用401.4.4数据挖掘在贝斯出口公司的应用421.4.5数据挖掘如何预测信用卡欺诈421.4.6数据挖掘在证券行业的应用43思考练习题一44 E-MAIL:BXXHSSINA.COM1.1.1 为什么要建立数据仓库为什么要建立数据仓库v数据仓库的作用 v建立数据仓库的好处建立数据仓库的好处

3、E-MAIL:BXXHSSINA.COM1.1.2 什么是数据仓库什么是数据仓库v1数据仓库的概念 W.H.Inmon在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。” 即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。” “DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 数据

4、仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。数据仓库是大量有关公司数据的数据存储。仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外

5、部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。 E-MAIL:BXXHSSINA.COM数据仓库的定义v 综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。 E-MAIL:BXXHSSINA.COM2与数据仓库相关的几个概念数据(data)是一组表示数量、行动和目标的非随机的可以鉴别的符号,是对客观事物记录下来的,可以鉴别的符号。这些符号包括数字、字符、文字、图形、图像、声音。操作数

6、据原子数据汇总数据特定查询响应数据仓库环境 E-MAIL:BXXHSSINA.COMv数据类型的分类 v元数据是指用来描述数据仓库数据库内容的数据。以后将详细讨论元数据。v数据库是一组内部相关联的数据集合。其中关系数据库是表的集合,每个表都有惟一的名字,且每个表都由一组字段(属性)所存放的记录组成。v数据库管理系统(DBMS)是用来管理和存取数据库的一组软件。该软件具有如下机制:数据库结构定义,数据的存储、并发、共享或分布的数据访问,数据的一致性和安全性。v数据库系统是一个由硬件、软件、数据库和管理人员组成的复杂系统。随着信息技术不断的发展,对数据处理的技术和人们对数据的需求也在不断的进化,如

7、图1.2所示的数据库系统及相关技术的演化。v数据集市(data marts)通常是指较为小型化、针对特定目标且建设成本较低的一种数据仓库。为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject data)。 E-MAIL:BXXHSSINA.COM数据库系统及相关技术的演化 E-MAIL:BXXHSSINA.COM1.1.3 数据仓库的特点数据仓库的特点1主题与面向主题主题与面向主题2数据仓库数据的集成性数据仓库数据的集成性3数据仓库数据的不可更新性数据仓库数据的不可更新性4DW数据的时态性数据的时态性 E-MAIL:BXXHSSINA.C

8、OM1.1.4 数据进入数据仓库的基本过程与建立数据仓库的步骤数据进入数据仓库的基本过程与建立数据仓库的步骤1数据进入数据仓库的基本过程数据进入数据仓库的基本过程操作数据向数据仓库的移动包括以下五个过程:提取、变换、净化、加载和汇总。2建立数据仓库的步骤建立数据仓库的步骤1)收集和分析业务需求;2)建立数据模型和数据仓库的物理设计;3)定义数据源;4)选择数据仓库技术和平台;5)从操作型数据库中提取、转换和净化数据到数据仓库;6)选择访问和报表工具;7)选择数据库连接软件;8)选择数据分析和数据展示软件;9)更新数据仓库; E-MAIL:BXXHSSINA.COM1.1.5 分析数据仓库的内容

9、分析数据仓库的内容操作型数据分析型数据细节的综合的,或提炼的在存取期间是准确的代表过去的数据可更新不更新操作需求事先可知道操作需求事先不知道生命周期符合SDLC完全不同的生命周期(CLDS)对性能要求高对性能要求宽松一个时刻操作一单元一个时刻操作一人集合事务驱动分析驱动面向应用面向分析一次操作数据最小一次操作数据量大支持日常操作支持管理需求操作型数据和分析型数据的区别操作型数据和分析型数据的区别 E-MAIL:BXXHSSINA.COM1.2.1 为什么要进行数据挖掘为什么要进行数据挖掘 1数据挖掘的作用数据挖掘的作用数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(cus

10、tomer retention)、 消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。 E-MAIL:BXXHSSINA.COM2数据挖掘的背景数据挖掘的背景(1)数据挖掘的商业背景(2)数据挖掘的技术背景(3)数据挖掘的社会背景 E

11、-MAIL:BXXHSSINA.COM3数据挖掘对企业的影响数据挖掘对企业的影响 零售业业务问题增加对直接信函(direct mail)的响应率解决方案销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应获得的收益由于将直接信函发送给正确的客户而增加了销售额保险业业务问题减少保险欺诈案件的发生数量解决方案业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性获得的收益由于减少欺诈造成的费用而增加了利润金融业业务问题改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。解决方案金融分析员通过数据

12、挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式获得的收益由于投资更加准确而增加了收入 E-MAIL:BXXHSSINA.COM1.2.2 什么是数据挖掘什么是数据挖掘1数据挖掘概念数据挖掘概念定义1 G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2 有人简单认为,数据挖掘就是数据库中知识的发现。定义3 有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义4 有人认为,数据挖掘就是从大量数据中提取或挖掘知识。定义5 Fayyad等在“知识发现96国际会议上”认为,

13、知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6 数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。 综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。 E-MAIL:BXXHSSINA.COM2数据挖掘的分类数据挖掘的分类分类标准类别按数据挖掘方法的直接性直接数据挖掘、间接数据挖掘按数据分析的角度分类描述式数据挖

14、掘、预测式数据挖掘按挖掘的数据库分类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的规则类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按采用的技术分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按挖掘知识的抽象层次分类原始层次、高层次和多层次按挖掘知识的反映事物之间的性质分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识、 E-MAIL:BXXHSSINA.COM3与数据挖掘相关的几个概念与数据挖掘相关的几个概念v1)直接数据挖掘v利用可用的数据建立一个模型,模型

15、对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述,分类、估值、预言属于直接数据挖掘。v2)间接数据挖掘v不是选出某一具体的变量用模型进行描述;而是在所有的变量中建立起某种关系。相关性分组或关联规则、聚集、描述和可视化属于间接数据挖掘。v3)描述式数据挖掘v以简洁概要的方式描述数据,并提供数据的有意义的一般知识。v4)预测式数据挖掘v分析数据,建立一个或一组模型,并试图预测新数据集的行为。 E-MAIL:BXXHSSINA.COM3与数据挖掘相关的几个概念(续)与数据挖掘相关的几个概念(续)v5)数据库查询工具和数据挖掘工具之间的差异查询工具能帮助用户从数据库数据中找到

16、新的、有意义的事实。这类问题是查询所要访问的是对象是否在某一特定的位置。这与目前数据库系统中大部分的查询操作是相似的。通过这类问题使你可以确定对象将到达的位置。v6)信息v7)知识(knowledge)v8)数据、信息与知识的转化关系 E-MAIL:BXXHSSINA.COM1.2.3 数据挖掘的特点数据挖掘的特点v1)处理的数据规模十分庞大;v2)由于用户不能形成精确的查询要求,因此需要靠DM技术来寻找其可能感兴趣的东西;v3)DM对数据的迅速变化做出快速响应,以提供决策支持信息;v4)DM既要发现潜在规则,还要管理和维护规则,随着新数据的不断加入,规则需要随着新数据更新;v5)DM中规则的

17、发现基于统计规律,发现的规则不必适合于所有数据,而且当达到某一阈值时,便认为有此规则。 E-MAIL:BXXHSSINA.COM1.2.4 数据挖掘的基本过程与步骤数据挖掘的基本过程与步骤1数据挖掘的基本过程数据挖掘的基本过程v (1)数据准备v数据准备(data preparation):本阶段又可进一步细分成数据集成、数据选择和预分析。 v(2) 挖掘v挖掘(mining):DM处理器(data mining processor)综合利用前面提到的多种DM方法分析数据。v(3) 表述v表述(presentation):与检验证型工具一样,DM将获取的信息以便于用户理解和观察的方式反映给用户

18、,这时可以利用可视化工具。 v(4) 评价v评价(assess):如果分析人员对分析结果不满意,可以递归地执行上述三个过程,直到满意为止。 E-MAIL:BXXHSSINA.COM2进行数据挖掘的步骤进行数据挖掘的步骤v (1) 问题定义问题定义问题定义主要是指利用数据挖掘可以分析哪些问题。问题定义主要是指利用数据挖掘可以分析哪些问题。 v (2)发现信息发现信息通过数据挖掘分析从其客户那里发现更多的信息。通过数据挖掘分析从其客户那里发现更多的信息。v (3)制定计划制定计划v (4)采取行动采取行动v (5) 监测效果监测效果 E-MAIL:BXXHSSINA.COM1.2.5 分析数据挖掘

19、的内容分析数据挖掘的内容v1)直销v2)争取客户v3)保留客户v4)交叉销售v5)趋势分析v6)欺诈检测 E-MAIL:BXXHSSINA.COM1.3 数据挖掘与数据仓库的关系数据挖掘与数据仓库的关系 E-MAIL:BXXHSSINA.COMv用户包括偶然用户(casual user)、高级用户(power user)和专家(expert)。 v查询协同管理包括一些访问工具和系统管理工具,为用户访问数据仓库和其他系统提供手段。 v数据仓库管理包括安全和特权管理,跟踪数据的更新,数据质量检查,管理和更新元数据,审计和报告数据仓库的使用和状态,删除数据,复制、分割和分发数据,备份和恢复,存储管理

20、。 v信息发布系统即把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。 E-MAIL:BXXHSSINA.COM1.4.1 数据挖掘在零售业的应用数据挖掘在零售业的应用v超市可以采用两种不同的方式从事信息中介,一种方式是针对匿名客户,另一种是针对注册或有忠诚卡的客户。 (1)重心从商品转换到客户分析特定客户群的购买模式,厂商可以了解特定的客户的购买模型。 (2)数据分析卖主(供应商)可以通过数据挖掘技术来增加商品的利润率,通过竞争成为“种类首领”。 E-MAIL:BXXHSSINA.COM1.4.2 数据挖掘技术在商业银行中的应用数据挖掘技术在商业银行中的应用v在银行业,数据挖掘主要用

21、于信用欺诈的建模和预测、风险评估、趋势分析、收益分析以及辅助直销活动。 v在金融市场,已将神经网络用于股票价格预测、购买权交易、债券等级评定、资产组合管理、商品价格预测、合并和买进以及金融危机预测等方面。 E-MAIL:BXXHSSINA.COMv1996年,年,银行系统和技术银行系统和技术评论认为评论认为“数据挖掘技术将是本年度金融服务领域最数据挖掘技术将是本年度金融服务领域最重要的应用。重要的应用。” v在进行数据挖掘的银行包括美国第一银行、Headland抵押公司、FCC国家银行、联邦住房贷款抵押公司、Wells Fargo银行、NationsBanc服务公司、N.A.Mellon银行、

22、Advata抵押公司、化学银行、Chevy Chase银行、美国银行公司和USAA联邦储蓄银行 E-MAIL:BXXHSSINA.COM1.4.3 数据挖掘在电信部门的应用数据挖掘在电信部门的应用v1998年,西部电信用SAS的企业挖掘数据产品作为数据挖掘平台,开发了一项企业营销战略系统。 v1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份报告对客户跳槽造成的损失进行了量化,同时他们估计获得一个新客户的费用高达400美元。 E-MAIL:BXXHSSINA.COM1.4.4 数据挖掘在贝斯出口公司的应用数据挖掘在贝斯出口公司的应用v贝斯出口公司是英

23、国最大的啤酒出口商。该公司选择了IBM的智能挖掘器作为其数据挖掘的商务解决方案。 E-MAIL:BXXHSSINA.COM1.4.5 数据挖掘如何预测信用卡欺诈数据挖掘如何预测信用卡欺诈v对于这一问题可以有下列3种解决的途径: v1)使用查询工具从关系数据库中以适当的格式抽取所需要的信息。采用Brio,Businee Objects及Congnos等公司开发的工具将很容易构造出模型。由于用这种方法需要将数据下载到客户端计算机中,所以能够从数据仓库中创建视图来表示将要挖掘的虚拟数据。v2)通过从关系数据仓库中抽取记录数据,这将会受到一定的限制。v3)通过构造SQL语句以适当格式得到所需的数据。

24、E-MAIL:BXXHSSINA.COM1.4.6 数据挖掘在证券行业的应用数据挖掘在证券行业的应用v关于股票预测,市场上有许多采用数据挖掘技术对股票进行预测的软件。如NETPROPHET是神经网络应用公司开发的一个股票预测应用软件,它采用了神经网络技术,将输出的结果用两条曲线分别表示实际股票值和预测股票值。 E-MAIL:BXXHSSINA.COM第二章第二章 数据仓库的分析数据仓库的分析 v2.1影响数据仓库成功的因素46v2.2数据仓库的生命周期47v2.2.1数据仓库计划与准备阶段48v2.2.2数据仓库的其他阶段54v2.3数据仓库的基本体系结构56v2.4数据仓库的逻辑结构60v2

25、.4.1数据仓库中的粒度60v2.4.2数据仓库中的数据分割61v2.4.3数据仓库中的数据组织61v2.4.4数据仓库中的快照62v2.4.5数据仓库中的元数据62v思考练习题二63 E-MAIL:BXXHSSINA.COM2.1 影响数据仓库成功的因素影响数据仓库成功的因素特征操作(事务处理)需要数据仓库(DSS)需要易变性动态静态通用性当前的历史的时间维暗指“现在”明确的,可见的粒度原始的,详细的详细的和可导出的汇总更新连续的,随机的定期的,计划的任务可重复的不可预期的灵活性低高性能要求高性能通常可接受低性能决策支持系统与事务之间在数据库要求上的差异 E-MAIL:BXXHSSINA.C

26、OM影响数据仓库成功的因素 E-MAIL:BXXHSSINA.COM2.2.1 数据仓库计划与准备阶段数据仓库计划与准备阶段1用户需求分析用户需求分析2可行性研究可行性研究3用户的认可用户的认可4建设数据仓库的协调与阻力分析建设数据仓库的协调与阻力分析5开发项目计划制定开发项目计划制定6创建数据仓库所使用的关键资源创建数据仓库所使用的关键资源 E-MAIL:BXXHSSINA.COM数据仓库的生命周期 E-MAIL:BXXHSSINA.COM2.2.2 数据仓库的其他阶段数据仓库的其他阶段v1)系统分析v2)系统设计(整体设计与详细设计)v3)系统测试 E-MAIL:BXXHSSINA.COM

27、2.3 数据仓库的基本体系结构 E-MAIL:BXXHSSINA.COMv客户应用,是供用户访问查询,并以直观方式展示分析结果;v数据仓库,是存储不同程度的数据和元数据;v集成器,是将从运作数据库中提取的数据经过转换、计算、综合等操作,集成到数据仓库中;v监视器,是负责感知数据源发生的变化,并按需求提取数据;v数据源,是为DW提供最底层的运作数据库系统及外部数据。 E-MAIL:BXXHSSINA.COM E-MAIL:BXXHSSINA.COM E-MAIL:BXXHSSINA.COM2.4.1 数据仓库中的粒度数据仓库中的粒度 E-MAIL:BXXHSSINA.COM2.4.2 数据仓库中

28、的数据分割数据仓库中的数据分割v数据分割的常用标准:按时间、商业行业、地理位置、组织单位等。这些标准都是由开发人员来选择,且还要选择是在应用层上进行分割,还是在系统层上进行分割。在系统层进行分割在一定程度上是DBMS和系统的一种功能。而在应用层分割需要应用程序代码来完成,每年的数据定义既可以相同,也可以不相同,同时从一个处理集转移到另一个处理集没有损失。 E-MAIL:BXXHSSINA.COM2.4.3 数据仓库中的数据组织数据仓库中的数据组织v数据仓库中有这些数据组织:简单堆积结构、轮转综合数据存储、简单直接文件和连续组织。 E-MAIL:BXXHSSINA.COM2.4.4 数据仓库中的

29、快照数据仓库中的快照v快照是为一些事件的发生而产生的。 v本组成形式由4个部分组成:键码(key)、时间单元、只和关键码相关联的初始数据、与初始数据或关键码无直接关系的二次数据。 E-MAIL:BXXHSSINA.COM2.4.5 数据仓库中的元数据数据仓库中的元数据v元数据(metadata)是关于数据的数据,对数据的结构、内容、键码、索引等的描述。元数据在操作型的环境中和分析型的环境中具有不同的作用。 v元数据是描述数据仓库内数据的结构和建立方法的数据。可按其用途的不同分为两类:技术元数据和商业元数据。v技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。 E-MAI

30、L:BXXHSSINA.COM第三章 数据仓库的设计与实施 v3.1从数据库到数据仓库64v3.2面向主题的数据仓库设计64v3.2.1数据建模64v3.2.2星型连接65v3.3开发数据仓库的物理设计73v3.3.1数据仓库设计工具的选择73v3.3.2物理数据模型设计74v3.3.3数据仓库中数据表的数量与规范化74v3.4数据仓库的实施 75v3.4.1数据仓库的实施应注意的问题75v3.4.2在实施数据仓库过程中应避免的错误76v3.4.3数据仓库项目实施成功的要诀79v思考练习题三83 E-MAIL:BXXHSSINA.COM3.1 从数据库到数据仓库从数据库到数据仓库数据库系统数据

31、仓库系统数据类型操作型数据分析型数据数据组织方式面向应用面向主题视图机制虚表存储,只存视图结构实视图存储系统开发方法需求驱动数据驱动面向应用面向OLTP应用面向OLAP应用工具数据查询、开发分析和一般查询功能复杂简单优化事务处理和访问系统的决策与分析索引有限数量完善结构自由空间需要附加数据空间无更新开销大无更新操作增、删、改频繁少 E-MAIL:BXXHSSINA.COM3.2.1 数据建模数据建模v1)数据仓库的开发过程v2)基于开发过程的数据建模型的主要内容 E-MAIL:BXXHSSINA.COM3.2.2 星型连接星型连接 E-MAIL:BXXHSSINA.COM E-MAIL:BXX

32、HSSINA.COM3.3.1数据仓库设计工具的选择数据仓库设计工具的选择1数据获取工具的选择数据获取工具的选择2数据工具的选择数据工具的选择 E-MAIL:BXXHSSINA.COM3.3.2 物理数据模型设计物理数据模型设计v硬件平台的选择:数据仓库的硬盘容量通常是操作数据库硬盘容量的23倍。选择硬件平台时要考虑的问题:是否提供并行的I/O?对多CPU的支持能力如何?v不同存储介质的特点比较表 存储介质速度价格主存非常快非常贵扩展内存非常快贵高速缓存非常快贵DASD快适中光盘不慢不贵缩微胶片慢便宜 E-MAIL:BXXHSSINA.COM3.3.3 数据仓库中数据表的数量与规范化 v在数据

33、模型处理过程中,如果程序在很多表中跳转,每次程序从一个表跳到另一个,就要进行I/O变换,既要存取数据,又要存取索引找到数据。如果许多程序需要大量的I/O时,性能就会受到影响,这就要进行小计。v当数据序列产生的数量是稳定的、按序列存取的,且数据的创建与修改在统计上是以很规律的方式进行的时候,可以采用数据数组。 E-MAIL:BXXHSSINA.COM3.4.1 数据仓库的实施应注意的问题数据仓库的实施应注意的问题v在数据仓库的实施过程中要考虑以下问题:投资回报率;在具体实施时应自顶向下还是自下到上;在人力资源的问题上要考虑培训还是雇用;在设计上要有前瞻性,把问题覆盖的范围思考大一些,但实施从小处

34、开始。 E-MAIL:BXXHSSINA.COM3.4.2 在实施数据仓库过程中应避免的错误 1错误项目的发起错误项目的发起2制订了不可能完成的目标制订了不可能完成的目标3犯政治幼稚病犯政治幼稚病4把所有能找到的数据全都放到数据仓库中把所有能找到的数据全都放到数据仓库中5认为设计数据仓库就是设计事务数据库认为设计数据仓库就是设计事务数据库6选择一个面向技术的而不是面向用户的人做数据仓库项目经理选择一个面向技术的而不是面向用户的人做数据仓库项目经理 E-MAIL:BXXHSSINA.COM7只专注内部关系型数据,而忽略外部数据、文本、图像甚至声音、视频数据只专注内部关系型数据,而忽略外部数据、文

35、本、图像甚至声音、视频数据8用交叠的或冲突的数据定义交付数据用交叠的或冲突的数据定义交付数据9 相信软硬件供应商对性能、能力和可扩展性的承诺相信软硬件供应商对性能、能力和可扩展性的承诺10相信一旦数据仓库建立起来并开始运行,你的任务就完成了相信一旦数据仓库建立起来并开始运行,你的任务就完成了11专注于动态生成查询、数据挖掘和定期生成报表专注于动态生成查询、数据挖掘和定期生成报表 E-MAIL:BXXHSSINA.COM3.4.3 数据仓库项目实施成功的要诀数据仓库项目实施成功的要诀v许多数据仓库项目的指导方针都是成功的。Anahory和Murray提供了足有145组指导方针,所有这些都是为了那

36、些负责数据仓库项目的人而设计的,目的是帮助他们得到成功的结论。 v数据仓库专家Larry Greenfield已经出版了他关于一个成功数据仓库项目的建议,下面是给仓库建造者的一些建议(http:/ E-MAIL:BXXHSSINA.COM第四章第四章 信息分析的基本技术信息分析的基本技术 v4.1自动信息分析的基本技术84v4.1.1 智能代理84v4.1.2 群体智能87v4.1.3 小波分析90v4.1.4 分形技术分析92v4.2联机分析93v4.2.1 联机分析OLAP的基本术语 95v4.2.2 OLAP体系结构和处理的特性96v4.2.3 OLAP多维数据结构与OLAP的分类 97

37、v4.2.4 OLAP的多维数据分析方法 98v4.2.5 OLAP评价准则100v4.2.6 OLAP的发展与流行的OLAP工具选择103v4.3Rough的信息分析技术104v4.3.1 粗糙集理论的基本概念和理论基础105v4.3.2 粗糙集在信息分析中的特征表示106v思考练习题四 109 E-MAIL:BXXHSSINA.COM信息分析技术的不同方面与层次分类 E-MAIL:BXXHSSINA.COM4.1.1智能代理智能代理v智能代理(Agent)是一种在计算机网络上无疲劳工作执行重复性、可预料任务的,为人们建立知识的软件包。 v智能代理具有长期性、半自动化、参与活动,且具有适应性

38、。 E-MAIL:BXXHSSINA.COM1智能代理定义智能代理定义vAgent的设计是用来完成某类任务的,能在一定环境中自主发挥作用、有生命周期的计算实体。Agent 是一种抽象实体,它能作用于自身和环境,并能对环境做出反映,具有知识、目标和能力。2多多Agent与移动与移动Agentv多Agent是由多个可执行网络计算的Agent组成的集合,能对问题求解,能随环境改变而自动修改自己的行为,并能通过网络与其他Agent进行通信、交换、合作,协同完成求解同一问题的分布式智能系统。 v移动Agent是Agent 与Internet技术相结合的产物,它可以自主地在网络上从一台主机移动到另一台主机

39、,根据用户指定的任务进行自动检索、收据和过滤信息,代表用户进行商务活动。3建造建造Agent的方法的方法 E-MAIL:BXXHSSINA.COM4.1.2 群体智能群体智能1蚁群算法蚁群算法2多多Agent分布式的市场营销知识获取结构分布式的市场营销知识获取结构 E-MAIL:BXXHSSINA.COM多Agent分布式市场营销知识获取结构 E-MAIL:BXXHSSINA.COM4.1.3 小波分析小波分析v小波变换是一种信号处理技术,它将一个信号分解为不同频率的子波段。在实际工程中,有用信号通常表现为低频信号或是一些比较平稳的信号,而噪声(离群)则通常表现为高频信号。 E-MAIL:BX

40、XHSSINA.COM4.1.4 分形技术分析分形技术分析v分形理论(fractal theory)的创始人Mandelbrot在20世纪60年代就应用自相似性和标度不变性,对棉花价格进行了研究。 v称集F是分形的,是具备如下典型的性质:v1)F具有精细的结构,即有任意小比例的不规则的细节;v2)F是如此的不规则以至于无论它的整体和局部都不能用微积分或传统的几何语言来描述;v3)F通常有某种自相似或自仿射的性质,可能是近似的,也可能是统计近似意义上的;v4)一般地F有“分形维数”(以某种定义),通常严格大于它的拓扑维数;v5)在大多令人感兴趣情形下,F以非常简单的方法,可能由迭代给出定义;v6

41、)F通常有“自然”的外貌。 E-MAIL:BXXHSSINA.COM4.2.1联机分析联机分析OLAP的基本术语的基本术语v定义1 OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。v定义2 OLAP(联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的,并对真实反映企业数据特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的一类软件技术 (OLAP委员会的定义)。vOLAP的目标是满足决策支持或多维环境特

42、定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分析工具的集合。 E-MAIL:BXXHSSINA.COM4.2.2 OLAP体系结构和处理的特性体系结构和处理的特性 E-MAIL:BXXHSSINA.COM4.2.3 OLAP多维数据结构与多维数据结构与OLAP的分类的分类1OLAP多维数据结构多维数据结构2OLAP的分类的分类 E-MAIL:BXXHSSINA.COM4.2.4 OLAP的多维数据分析方法的多维数据分析方法1切片(切片(slice)2切块(切块(Dice)3旋转(旋转(turning)/转轴转轴(pivot)4钻取钻取(drill) E-MA

43、IL:BXXHSSINA.COM4.2.5 OLAP评价准则评价准则v准则1 OLAP模型必须提供多维概念视图。v准则2 透明性准则。v准则3 存取能力准则。v准则4 稳定的报表性能。v准则5 客户/服务器体系结构。v准则6 维的等同性准则。v准则7 动态的稀疏矩阵处理准则。v准则8 多用户支持能力准则。v准则9 非受限的跨维操作。v准则10 直观的数据操纵。v准则11 灵活的报表生成。v准则12 非受限维与聚集层次。 E-MAIL:BXXHSSINA.COM4.2.6 OLAP的发展与流行的的发展与流行的OLAP工具选择工具选择1OLAP的发展的发展2流行的流行的OLAP工具选择工具选择1)

44、Hyperion Essbase: 2)Oracle Express 3)IBM DB2 OLAP Server 4)Sybase Power dimension 5)Informix Metacube E-MAIL:BXXHSSINA.COM4.3.1 粗糙集理论的基本概念和理论基础粗糙集理论的基本概念和理论基础1.知识、划分与等价关系知识、划分与等价关系2.信息表、不可分辨关系和基本集信息表、不可分辨关系和基本集3.粗糙集的下、上近似及边界区粗糙集的下、上近似及边界区 E-MAIL:BXXHSSINA.COM4.3.2 粗糙集在信息分析中的特征表示粗糙集在信息分析中的特征表示v定义4 设U

45、是论域,=1, 2,m是对象集,v ,中任何对象所具有的特征所组成的集合,称为特征集(property set):T=t1,t2,tn。这些特征可由如下的“属性-值”表示:t=(a,v), , 。由特征集构成的表,称之为特征表 E-MAIL:BXXHSSINA.COM第五章第五章 数据挖掘过程数据挖掘过程v5.1数据挖掘的方法与基本流程110v5.1.1SEMMA方法 110v5.1.2数据挖掘的基本流程111v5.2确定主题和定义数据挖掘任务112v5.2.1确定主题113v5.2.2定义数据挖掘任务115v5.3数据预处理115v5.3.1数据的收集和准备116v5.3.2数据清理(dat

46、a cleaning),116v5.3.3数据集成(data integration)118v5.3.4数据变换(data transformation)119v5.3.5数据归约(data reduction)119v5.3.6微软数据转换服务(DTS)120v5.4数据挖掘的模型建立与理解120v5.4.1关于模型的准确性123v5.4.2关于模型的可理解性123v5.4.3关于模型的性能124v5.4.4描述和可视化124v5.4.5验证与评估125v5.5数据挖掘中常见的一些问题127v5.5.1商业用户提出的问题127v5.5.2技术问题127v5.5.3数据挖掘应用问题127v5.

47、5.4实施数据挖掘项目考虑的问题128v5.5.5数据挖掘对社会的影响有关隐私问题128v5.6事先无法预测的有价值知识129v思考练习题五130 E-MAIL:BXXHSSINA.COM5.1.1 SEMMA方法方法vSAS的Enterprise Miner中包含了一个可以影射为SEMMA方法的分析流图vSAS的SEMMA方法即抽样(sample)、探索(explore)、修改(modify)、模型(model)和评价(assess)等英文头的缩写,它是由一个过程流图驱动的 E-MAIL:BXXHSSINA.COM5.1.2 数据挖掘的基本流程 E-MAIL:BXXHSSINA.COM5.2

48、 确定主题和定义数据挖掘任务 v首先确定与任务相关的数据,即我想挖掘什么数据集 v确定数据挖掘研究的范围,即想挖掘什么类型的知识,什么背景知识在这里可能有用,哪些度量可以用来评估模式的兴趣度 E-MAIL:BXXHSSINA.COM5.2.1 确定主题确定主题v保持力控制、风险预测、收益率分析、数据趋势分析、雇员分析、区域分析、分类、聚类和可视化研究都可作为主题的类型。 E-MAIL:BXXHSSINA.COM5.2.2 定义数据挖掘任务定义数据挖掘任务v1)首先定义与任务相关的数据,即要确定数据选择的条件、数据分组条件、相关属性或维等。要使得挖掘效率高,可建立视图进行挖掘,数据仓库可满足这些

49、条件。v2)确定与数据挖掘任务相关的知识类型,即从特征化和判别式、关联、分类、预测、聚类和演变分析等中找出一种或几种类型。模式模板,包括元模式(元规则或元查询)可以指导知识的发现过程。v3)获取一定的背景知识,背景知识是正确的作出概念分层和用户对数据保持联系。概念分层包括模式分层、集合分组分层、操作导出的分层和基于规则的分层。v4)度量与数据挖掘任务相关的模式兴趣度:兴趣度度量包括评估模式的简洁性(如规则长度)、确定性(置信度)、实用性(支持度)和新颖性。 E-MAIL:BXXHSSINA.COM5.3.1数据的收集和准备数据的收集和准备v数据的收集和准备是开展数据挖掘的最大障碍。v数据准备一

50、般包含两方面:从多种数据源中去综合数据挖掘所需要的数据,保证数据质量的综合性、易用性和时效性,这有可能要用到数据仓库的思想和技术;如何从现有数据中衍生出所需要的指标,这主要取决于数据挖掘者的分析经验和工具的方便性。 E-MAIL:BXXHSSINA.COM5.3.2 数据清理(data cleaning) v数据清理要解决如下的一些问题:(1)数据质量(2)冗余数据(3)过时数据(4)术语定义的变化v数据清洗将会使数据集产生哪些问题 1)一致性问题 2)失效数据的清洗问题 3)印刷错误的清洗问题 4)数值缺失 5)数据导出 E-MAIL:BXXHSSINA.COM5.3.3 数据集成(数据集成

51、(data integration)v数据集成的关键是获取数据,如访问数据仓库。通过如下几种方法访问数据:1)通过基于事务的关系数据库或基于PC的数据库访问数据 2)通过数据转换工具访问数据 3)用查询工具访问数据 4)从平面文件中访问数据 E-MAIL:BXXHSSINA.COM5.3.4 数据变换(数据变换(data transformation)v数据变换就是将数据进行规范化和聚集。v规范化可以改进涉及距离度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚类和回归)来去掉噪声数据;v聚集来对数据进行汇总;数据概化使用高层次概念替换低层次“原始”数据来进行概念分层;规范化将属性数

52、据按比例缩放,使之落入一个小的特定区间;属性构造(特征构造)来帮助提高精度和对高维数据结构的理解。 E-MAIL:BXXHSSINA.COM5.3.5 数据归约(data reduction) v数据归约通过聚集、删除冗余特性或聚类等方法来压缩数据。 v常用的方法:数据立方体聚集维归约数据压缩数值归约离散化概念分层产生 E-MAIL:BXXHSSINA.COM5.3.6 微软数据转换服务(微软数据转换服务(DTS)v微软数据转换服务(microsoft data transformaton serverics,DTS)是一个从不同的数据源收集数据的重要工具。 vDTS是一个面向批处理的程序。包

53、( package)是基本的DTS单元,DTS对象包含在包中。包的4种对象类型包括:数据连接、DTS任务、数据转换和工作流。 vDTS的内容包括:COM对象集合,其中每一个对象完成一项特定的任务;OLE DB数据连接的中心;工作流程开发平台和应用开发环境。 E-MAIL:BXXHSSINA.COM5.4 数据挖掘的模型建立与理解数据挖掘的模型建立与理解v数据挖掘中的各种方法 :1)概要统计(summary statistics) 2)关联度分析(find dependencies) 3)聚类分析(cluster ) 4)线性回归是最常用的统计分析方法 5)市场货篮分析(market baske

54、t analysis) 6)分类分析(classify) 7)近邻预测(nearest neighbor) 8)神经网络预测,神经网络(neural networks) 9)决策树分析(dcision tree,DT) 10)规则分析(find laws)算法 E-MAIL:BXXHSSINA.COM5.4.1 关于模型的准确性关于模型的准确性v由数据挖掘工具产生的模型一般可通过时间来检验其有多大程度的准确性,但是如果模型的准确性受到政府法令的限制并且必须是经过验证的,则就有必要综合地使用几种不同的数据挖掘方法。例如,HNC公司数据挖掘产品Falcon在侦测信用卡欺诈方面是一个很好的工具。但它

55、并没有在信用卡贷款审批中得到广泛使用,其原因是受到了政府规章的限制。 E-MAIL:BXXHSSINA.COM5.4.2 关于模型的可理解性关于模型的可理解性v可供考虑的因素: 首先,模型是否可以使我们了解输入对结果会产生什么作用?其次,模型是否可以使我们了解预测为什么会成功或失败?第三,模型是否可以使我们对复杂的数据集产生预测的结果?第四,模型是否能对其产生的结果进行检测? E-MAIL:BXXHSSINA.COM5.4.3关于模型的性能关于模型的性能v对模性的性能考虑可以分为两个方面:一是你需要以什么速度构造出模型;二是你需要以什么速度从模型中获得预测结果。 E-MAIL:BXXHSSIN

56、A.COM5.4.4 描述和可视化描述和可视化v描述和可视化(description and visualization),是通过规则、表、报告、图表、图像、判定树和数据立方体下钻或上卷等形式对数据挖掘的结果进行表示的方式。v图形可以帮助人们更好的理解原始数据。通过在地图上面叠加产品的销量来显示产品的销量情况。同时,也可用颜色表示各个地方的销量,以标识销量最大的区域。v树形可视化工具以层次化互连节点的方式表示数据,从而展示出这些数据的数量和关系特征。 E-MAIL:BXXHSSINA.COM5.4.5验证与评估验证与评估1验证验证评价模型应考虑以下几方面的问题:第一,用与建立模型相同的数据集对

57、模型进行评价比用不同的数据集对其进行评价会获得更好的结果;第二,模型的某些预测结果会比其他预测结果更加准确;第三,由于模型以样例数据为基础建立的,应具有好的结果。2评估评估虽然不同的数据挖掘方法分类、聚类、可视化和关联分析等方法都汇集在数据挖掘算法下,但它们的确存在着很大的区别。数据挖掘从人工智能领域借鉴了很多东西,既然人工智能技术的种类繁多,我们也就不难理解存在众多不同数据挖掘方法的原因了。 E-MAIL:BXXHSSINA.COM5.5 数据挖掘中常见的一些问题数据挖掘中常见的一些问题1.商业用户提出的问题商业用户提出的问题2.技术问题技术问题3.数据挖掘应用问题数据挖掘应用问题4.实施数据挖掘项目考虑的问题实施数据挖掘项目考虑的问题5.数据挖掘对社会的影响数据挖掘对社会的影响有关隐私问题有关隐私问题 E-MAIL:BXXHSSINA.COM5.6 事先无法预测的有价值知识事先无法预测的有价值知识v1)其他候选结果:我们除了想要知道模型将会预测出什么结果之外,可能还会对其他候选预测结果也产生兴趣。 v2)获选边际率:人们对预测结果非常感兴趣的一点是最终预测结果与其他候选结果之间的差距有多大。 v3)预测:我们对预测过程可能想要知道的另一件事情就是模型为什么会得到这样的预测结果。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号