《数据仓库与数据挖掘-课件》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘-课件(126页珍藏版)》请在金锄头文库上搜索。
1、第四章第四章数据仓库数据仓库与数据挖掘与数据挖掘教学目的教学目的v了解数据仓库(DW)的产生、应用,熟悉数据集市的概念;v掌握DW的概念、 DW结构;v理解多维数据结构、元数据的概念;v理解联机分析处理(OLAP)的概念、OLAP与OLTP的区别,掌握OLAP的决策支持多维数据分析;教学目的教学目的v理解数据挖掘(DM)概念、应用及DM的方法论;理解数据挖掘的几种决策支持技术,掌握ID3法构建决策树;v了解综合决策支持系统。 4.1 4.1数据仓库基本原理数据仓库基本原理 1 1数据仓库的产生数据仓库的产生 v早期的数据库主要支持联机事务v处理传统数据库系统不适宜DSS数据集成问题历史数据问题
2、数据的综合问题1 1数据仓库的产生数据仓库的产生 v数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,它并不是所谓的“大型数据库”。 DW首先应用于金融、电信、保险等主要传统的数据处理密集的行业。这些行业有两个基本条件:v该行业有较为成熟的联机事务处理系统,它为DW提供客观条件;v该行是市场竞争压大力,它为DW的建立提供外在动力。2 2DWDW的应用现状的应用现状 DWDWDWDW的应用行业的应用行业的应用行业的应用行业 2 2DWDW的应用现状的应用现状v计算机应用水平低,无法提出决策支持需求v缺乏DW方面的人才 v缺乏以国内环境为背景的范例和成功应用
3、vDW概念过大,让用户觉得可望而不可及 DWDWDWDW在中国应用的特点在中国应用的特点在中国应用的特点在中国应用的特点2 2DWDW的应用现状的应用现状DWDWDWDW在中国应用的特点在中国应用的特点在中国应用的特点在中国应用的特点中国商业智能网站2007年第一次评选的中国十大数据仓库3 3、数据仓库数据仓库的概念的概念 SAS研究所:DW是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。BillInmon(1991):DW是面向主题的、集成的、稳定的、不同时间的数据集合,用于支持经营管理中 决 策 的 制 定 过 程 “Building the Data Wareho
4、use”(建立数据仓库)数据仓库定义数据仓库定义数据仓库定义数据仓库定义 3 3、数据仓库数据仓库的概念的概念 v传统的数据库是面向应用而进行数据组织的,这种方式能较好地将企业业务活动与数据库模式相对应,利于从手工处理向计算机处理过渡,因而具有较好的可操作性;v数据仓库是面向主题而进行数据组织的。主题是一个在较高层次上对数据的抽象,在逻辑意义上,它是对企业中某一宏观领域所涉及的分析对象,即将数据组织成主题域。面向主题可以独立于数据处理逻辑,适用于分析型数据环境。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 操作型环境 数据仓库顾客保险费索赔汽
5、车人寿健康意外伤害3 3、数据仓库数据仓库的概念的概念 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 某连锁超市(采用会员制)根据工作需要在数年之前分别构建了若干个软件系统并分别存放于不同服务器内。这些系统是采购系统、销售系统、库存管理系统以及人事管理系统,它们构成了该超市数据仓库的数据源。其结构图如图3.4所示。 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v上面4个系统的关系表结构如下:1)采购系统:F订单(订
6、单号,供应商号,总金额,日期)F订单明细(订单号,商品名,商品号,类别,单价,数量)F供应商(供应商号,供应商名,地址,电话)2)销售系统:F顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)F销售(员工号,顾客号,商品号,数量,单价,日期)数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 3)库存管理系统:F领料单(领料单号,领料人,商品号,数量,日期)F进料单(进料单号,订单号,进料人,收料人,日期)F库存(商品号,库房号,库存量,日期)F库房(库房号,仓库管理员,地点,库存商品描述)4)人事管理系统
7、:F员工(员工号,姓名,性别,年龄,文化程度,部门号)F部门(部门号,部门名称,部门主管,电话) 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v主题选择根据市场发展需要,该超市领导须对其销售商品、提供商品的供应商以及购买商品的顾客作详细的分析,并最终形成决策意见。这样,就确定了超市数据仓库的主题有3个,它们是商品、供应商和顾客。 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v主题域 商品主题域P商品主题域中的数据
8、分别来自采购、销售、库存管理等数据源。其数据关系表为:P1商品固有信息:商品号,商品名,类名。P2商品采购信息:商品号,供应商号,供应价,供应日期,供应量。P3商品销售信息:商品号,顾客号,售价,销售日期,销售量P4商品库存信息:商品号,库房号,库存量,日期。在此主题域中主题码为商品号。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v主题域 供应商主题域S供应商主题域中数据来自采购系统,其数据关系表为:S1供应商固有信息:供应商号,供应商名,地址,电话。S2供应商品信息:供应商号,商品号,供应价,供应日期
9、,供应量。在此主题域中主题码为供应商号。 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v主题域 顾客主题域C顾客主题域中数据来自销售系统,其数据关系表为:C1顾客固有信息:顾客号,顾客姓名,性别,年龄,文化程度,地址, 电话C2顾客购物信息:顾客号,商品号,售价,购买日期,购买量。在此主题域中主题码为顾客号。 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点面向主题面向主题面向主题面向主题 3 3、数据仓库数据仓库的概念的概念 v不同来源的数据的数据结构是不同的,有诸多的矛盾之处,如字段
10、的同名异义、异名同义、单位不统一、字长不一致等。v数据仓库中的数据是集成的,即数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。主要工作有:一是,统一源数据中所有不一致和矛盾的地方;二是,进行数据的综合和计算。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点集成的集成的集成的集成的 3 3、数据仓库数据仓库的概念的概念 v操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,一旦某个数据进入数据仓库以后,一般情况
11、下将被长期保留,修改和删除操作很少,通常只需要定期的加载、刷新。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点稳定的(非易失性)稳定的(非易失性)稳定的(非易失性)稳定的(非易失性) 3 3、数据仓库数据仓库的概念的概念 数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点稳定的(非易失性)稳定的(非易失性)稳定的(非易失性)稳定的(非易失性) 3 3、数据仓库数据仓库的概念的概念 v操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对
12、企业的发展历程和未来趋势做出定量分析和预测,需定期加载。v数据仓库中的数据时间期限要远远长于操作型系统中的数据时间期限。操作型系统的时间期限一般是6 09 0天,而数据仓库中数据的时间期限通常是51 0年。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点随时间变化随时间变化随时间变化随时间变化 3 3、数据仓库数据仓库的概念的概念 v操作型数据的键码结构可能包含也可能不包含时间元素,如年、月、日等。数据仓库的数据码键都包含时间项,用作标明数据的历史时期。数据仓库中的数据包含有大量综合数据,很多与时间有关,如按时间段进行综合或隔时间片进行抽样。随着时间变化,数据仓库需要不断增加新
13、数据。数据仓库四个特点数据仓库四个特点数据仓库四个特点数据仓库四个特点随时间变化随时间变化随时间变化随时间变化 4 4、数据仓库结构数据仓库结构 数据仓库从原有的业务数据库中获得的基本数据和综合数据被分成不同的层次,其一般结构如图:高度综合数据层轻度综合数据层当前基本数据层历史基本数据层元数据5 5、数据集市(数据集市(Data MartData Mart) 数据集市是具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的应用,支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的解决方案,是一种更小的更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。5 5、数据集
14、市(数据集市(Data MartData Mart) 数据集市的两种结构数据集市的两种结构数据集市的两种结构数据集市的两种结构 DW从属数据集市数据源数据分析独立数据集市数据源数据分析5 5、数据集市(数据集市(Data MartData Mart) v规模小、灵活、可按多种方式组织,如按特定的部门、特定的应用、主题;v开发工作一般由业务部门主持定义、设计、实施、管理和维护;v能快速实现,代价较低,投资回收期短,风险小;v可升级到完整的DW 。数据集市的特点数据集市的特点数据集市的特点数据集市的特点 5 5、数据集市(数据集市(Data MartData Mart) v数据仓库是基于整个企业的
15、数据模型建立的,它面向企业范围内的主题;而数据集市是按照某一特定部门的数据模型建立的,由于每个部门有自己特定的需求,因此,他们对数据集市的期望也不一样,因此也将数据集市称为部门级数据仓库。v部门的主题与企业的主题之间可能存在关联,也可能不存在关联。数据仓库中存储整个企业内非常详细的数据;而数据集市中的数据的详细程度要低一些,包含概要和累加数据要多一些。v数据集市的数据组织一般采用星形模型;而大型数据仓库的数据组织,如NCR公司采用第三范式。数据集市与数据仓库的区别数据集市与数据仓库的区别数据集市与数据仓库的区别数据集市与数据仓库的区别 4.2 4.2 数据仓库系统数据仓库系统 1 1数据仓库系
16、统结构数据仓库系统结构(P180)(P180)(P180)(P180) 综合数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具关系数据库数据文件其他数据数据仓库管理工具抽取、转换、装载元数据管理数据建模工具源数据仓库管理数据仓库分析工具1 1数据仓库系统结构数据仓库系统结构定义部件,这一部件用于定义和建立DW系统,包括:E设计和定义DW的数据库;E定义数据源;E确定数据源向DW复制数据的清洗、映射、转换规则 数据仓库管理数据仓库管理数据仓库管理数据仓库管理1 1数据仓库系统结构数据仓库系统结构数据获取部件依据数据定义部件定义的规则从源数据中将数据抽取到DW中,完成清洗、转化和集成工
17、作,将DATA装载到DW,一般情况下需要编制特定的工具完成。数据仓库管理数据仓库管理数据仓库管理数据仓库管理 1 1数据仓库系统结构数据仓库系统结构管理工具:对DW中数据的维护、安全、备份、恢复等工作,这些需借助DBMS的功能实现。 元数据管理,也叫信息目录管理,完成对元数据的管理 。数据仓库管理数据仓库管理数据仓库管理数据仓库管理2 2、元数据、元数据(P178)(P178)(P178)(P178) 元数据通常定义为:关于数据的数据。相当于数据库系统中的数据字典,但是元数据作用远非数据字典能比。元数据在DW中起着举足轻重的作用。它不仅定义了DW有什么,指明DW中信息的内容和位置,刻画了数据的
18、抽取和转换规则,存储了DW的主题有关的各种商业信息,而且整个DW运行都是基于元数据的,如数据的修改、跟踪、抽取、装入等。2 2、元数据、元数据(P178)(P178)(P178)(P178) 元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。 2 2、元数据、元数据 v关于数据源的元数据 v关于数据模型的元数据v关于DW映射的元数据v关于DW使用的元数据 v关于数据源的元数据关于数据源
19、的元数据关于数据源的元数据关于数据源的元数据 是现有的业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:数据源中所有的物理数据结构,包括所有的数据项及数据类型。所有数据项的业务定义。每个数据项更新的频率,以及由谁或哪个过程更新的说明。每个数据项的有效值。其他系统中具有相同业务含义的数据项的清单。v关于数据模型的元数据关于数据模型的元数据关于数据模型的元数据关于数据模型的元数据 这类元数据描述了数据仓库中有什么数据以及数据之间的关系,它们是用户使用管理数据仓库的基础,支持用户从数据仓库中获取数据。要定义以下内容:I/O对象:支持数据仓库I/O操作的各种对象。关系:
20、两个I/O对象之间的关联,三种类型:一对一、一对多和多对多 。关系成员:描述每个关系中两个I/O对象的具体角色、关系度及约束条件(必须满足还是可选关系)。关系关键字:描述两个I/O对象如何建立关联。v关于关于关于关于DWDW映射的元数据映射的元数据映射的元数据映射的元数据 当数据源中的一个数据项与数据仓库建立了映射关系,就应该记下这些数据项发生的任何变换或变动。即用元数据反映数据仓库中的数据项是从哪个特定的数据源填充的,经过哪些转换、变换和加载过程。v关于关于关于关于DWDW映射的元数据映射的元数据映射的元数据映射的元数据 从源系统的数据到数据仓库中的目标数据的转移是一项复杂的工作,其工作量占
21、整个数据仓库开发的80%。一个抽取要经过以下步骤:获取:从外部或内部源数据系统获取对DSS用户有用的数据。过滤:过滤掉不需要的内容。验证:从用户的角度验证数据的质量。融合:把本次抽取的数据与数据仓库中的数据进行融合。综合:对数据进行综合,生成综合级数据。装载:把新数据装入到数据仓库中。存档:把新装入的数据单独存为一个文件,以便减少更新操作的数据量。v关于关于关于关于DWDW使用的元数据使用的元数据使用的元数据使用的元数据 对数据仓库中信息的使用情况描述,能帮助用户到数据仓库查询所需要的信息,用于解决企业决策问题。用户最关心的是两类元数据:元数据告诉数据仓库中有什么数据,它们从哪里来。即如何按主
22、题查看数据仓库的内容。元数据提供已有的可重复利用的查询语言信息。如果某个查询能够满足用户的需求,或者与用户的愿望相似,用户就可以再次使用那些查询而不必从头开始编程。3 3、数据仓库的存储、数据仓库的存储(P182)P182)P182)P182) 数据仓库存储的数据模型是数据的多维视图,它直接影响前端工具和OLAP的查询引擎。在多维数据模型中,一部分数据是数量值,如销售额、投资额、收入等。而这些数量值是依赖于一组“维”的,这些维提供了数量值的上下文关系。例如销售量与城市、商品名称、销售时间有关,这些相关的维唯一决定了这个销售数量值。3 3、数据仓库的存储、数据仓库的存储 v 维维是人们观察问题的
23、特定角度,例如:时间维、地理维、产品维。假定某百货零售商,有一些因素会影响他的销售业务,如商品、时间、商店或流通渠道,更具体一点,如品牌、月份、地区等。如对某一给定的商品,也许他想知道该商品在哪个商店和哪段时间的销售情况。这里,商店、时间都是维。各个商店的集合是一维,时间的集合是一维。维就是相同类数据的集合。v事实:一个数值的度量3 3、数据仓库的存储、数据仓库的存储 v维表:存放维详细信息的表,人们在观察数据的某个特定角度。v事实表:存放了事实的名称和度量,以及相关的维表的关键字。3 3、数据仓库的存储、数据仓库的存储 对于逻辑上的多维数据模型,可以使用不同的存储机制和表示模式来实现多维数据
24、模型。多维模型有两种最基本的结构,即星型结构和雪花结构。 3 3、数据仓库的存储、数据仓库的存储 v星型模型:包含一个大的包含大批数据星型模型:包含一个大的包含大批数据的事实表和一系列维表。的事实表和一系列维表。事实表时间维业务维供应商维地区维资费维顾客维销售事实定单号销售员号客户号产品号日期标识地区名称数量金额产品号产品名称产品目录单价定单号订货日期客户号客户名称客户地址销售员号销售员姓名城市时间日月年地区名称省别股票交易客户_ID营业部_ID股票_ID时间_ID交易方式_ID资金帐号股数增加买入股票数量买入股票价格买入股票金额卖出股票数量卖出股票价格卖出股票金额客户客户_ID年龄学历职业收
25、入性别地址地区省份身份证号码开户日期销户日期经纪人交易方式交易方式_ID交易方式名称营业部营业部_ID负责人电话号码地址地区省份股票股票_ID股票名称所属地区省份行业板块帐户资金帐号货币代码银行帐号银行代码客户代码客户类别时间时间_ID天周月份季度年度3 3、数据仓库的存储、数据仓库的存储 vv事事实实表表是是星星型型结结构构的的核核心心,它它是是多多维维查查询询的的焦焦点点,那那里里存存储储了了真真正正的的数数据据(事事实实),事事实实是是数数量量属属性性,是是被被事事实实表表管管理理的的主主体体的的可可度度量量的的数数量量值值,能能被被统统计计、求求和和,能能根根据据各各种种统统计计操作来
26、聚类。操作来聚类。vv维维表表提提供供了了在在事事实实表表中中的的每每行行的的描描述述信信息息,每每个个维维表表都都有有一一个个维维作作为为主主键键,所所有有这这些些维维组组合合成成事事实实表表的的主主键键,事事实实表表的的非非主主属属性性称称为为事事实实,它它们们都都是是数数值值或或其其他他可可进进行行计计算算的的数数据据,而维表中大都是文字、时间等类型的。而维表中大都是文字、时间等类型的。 3 3、数据仓库的存储、数据仓库的存储 vv 星星形形模模型型存存取取数数据据速速度度快快,主主要要在在于于针针对对各各个个维维作作了了大大量量的的预预处处理理,如如按按照照维维进进行行预预先先的的统统
27、计计、分分类、排序等。类、排序等。vv 星星形形模模型型以以存存储储空空间间为为代代价价,使使用用了了大大量量的的维维表表来适应任意维组合查询。来适应任意维组合查询。vv 当当业业务务问问题题发发生生变变化化,原原来来的的维维不不能能满满足足要要求求时时,需需要要增增加加新新的的维维。由由于于事事实实表表的的主主键键由由所所有有的的维维表表的的主主键键组组成成,这这种种维维的的变变化化带带来来的的数数据据变变化化将将是是非非常复杂、非常耗时的。常复杂、非常耗时的。vv 星星形形模模型型的的数数据据冗冗余余量量很很大大,不不适适合合于于大大数数据据量量的情况。的情况。3 3、数据仓库的存储、数据
28、仓库的存储 v雪花模型:是对星形模型的扩展,对星雪花模型:是对星形模型的扩展,对星形模型的维表进一步层次化,原来的各维形模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局表可能被扩展为小的事实表,形成一些局部的部的“ “层次层次” ”区域。它的优点是最大限度区域。它的优点是最大限度地减少数据存储量,以及把较小的维表联地减少数据存储量,以及把较小的维表联合在一起来改善查询性能。合在一起来改善查询性能。3 3、数据仓库的存储、数据仓库的存储 vv 雪花模型增加了用户必须处理的表的数量,雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性,但这种方式可以使系增加了某些查询
29、的复杂性,但这种方式可以使系统更进一步专业化和实用化,同时降低了系统的统更进一步专业化和实用化,同时降低了系统的通用程度。通用程度。vv 在雪花模型中能够定义多重在雪花模型中能够定义多重“ “父类父类” ”维来描维来描述某些特殊的维表。如在时间维上增加月维和年述某些特殊的维表。如在时间维上增加月维和年维,通过查看与时间有关的父类维,能够定义特维,通过查看与时间有关的父类维,能够定义特殊的时间统计信息,如销售月统计、销售年统计殊的时间统计信息,如销售月统计、销售年统计等。等。3 3、数据仓库的存储、数据仓库的存储 v雪花模式是星型模式的变种,把星型模型的维表进一步层次化。4 4、数据仓库开发应用
30、实例、数据仓库开发应用实例p 基于基于ERPERP的数据仓库的数据仓库捷克爱格富集团爱格富集团(Agrofert)是捷克第一大化工公司,一直致力于化工、农业和食品领域产品的研发、生产和贸易。Agrofert 发现,随着企业的快速发展,旗下子公司已经有 160 多个不同的系统在运行。很难提供统一的报告,而且支持和许可成本也不断上升。如果每新购一个系统就扩大一次基础架构,显然不是一种可以扩展的战略。Agrofert采用 SAP ERP 应用程序作为其部分子公司的共享服务,目的是将其逐渐推广到整个企业,这些应用程序在两个地点的 IBM Power Systems 服务器上集中管理。公司从混合数据库环
31、境(包括 Oracle 和 Microsoft SQL Server)迁移到 IBM DB2,将 IBM DB2 作为其标准数据库,同时还为关键的业务数据部署集中的存储系统。迁移后,不再需要本地系统,能够极大地降低管理、支持和许可成本;借助IBM DB2 可降低许可费用,简化管理并减少员工教育及培训;整合的存储有助于降低成本,而 IBM DB2 深度压缩将会降低总体存储需求;总成本估计减少 20%。 4.3 4.3 联机分析处理(联机分析处理(OLAP)(on line analytical processing(on line analytical processing )1 1数据分析技术
32、数据分析技术 v统计分析技术v联机分析处理(OLAP) v数据挖掘(DM)v联机挖掘(OLAM)2 2OLAPOLAP的概念的概念 联机分析处理(OLAP)的概念最早是由关系数据库之父E.F.Codd于1993年提出的。Codd认为随着企业数据量的急剧增加,联机事务处理(OLTP)已经不能满足终端用户对数据库查询分析的需要,SQL对大数据库进行的简单查询及报告不能满足用户分析的需求,决策分析需要对关系数据库进行大量的计算才能得到结果,而且查询的结果并不能满足决策者所提出的问题。因此Codd提出了多维数据库和多维分析的概念,即OLAP的概念。2 2OLAPOLAP的概念的概念 大多数情况下,人们
33、直接采取传统的关系的报表和查询工具,但是它不能提供各维的视图。在实际决策中,决策者需要的数据往往不是某一指标的单一性,而是需要从多个角度观察某一指标或多个指标。OLAP是专门设计用于支持复杂的分析操作,侧重对分析人员和决策人员的决策支持的要求,快速灵活的进行大数据量的复杂查询处理,并将结果以一种直观易懂的形式提供给决策者。2 2OLAPOLAP的概念的概念 OLAP的基本思想是企业的决策者应能灵活地操纵企业的数据,从多方面和多角度以多维的形式来观察企业的状态和了解企业的变化。 比如,决策者可能想知道“东北地区和西南地区今年一季度和去年一季度在销售总额上的对比情况,并且销售额按10万50万、50
34、万100万以及100万以上分组”。OLTPOLTP 数据库数据数据库数据 数据库或数据仓库数据数据库或数据仓库数据 细节性数据细节性数据 综合性数据综合性数据 当前数据当前数据 历史性数据历史性数据 经常更新经常更新 不更新,但周期性刷新不更新,但周期性刷新 一次处理的数据量小一次处理的数据量小 一次处理的数据量大一次处理的数据量大 响应时间要求高响应时间要求高 响应时间合理响应时间合理 用户量大用户量大 用户数量相对少用户数量相对少 面向操作人员,支持日常操作面向操作人员,支持日常操作 面向决策人员,支持管面向决策人员,支持管 理需求理需求 OLAPOLAPOLTP vs OLAP2 2、
35、OLAPOLAP的基本概念的基本概念 OLAPOLAP理理事事会会给给出出的的定定义义:OLAPOLAP是是一一种种软软件件技技术术,它它使使分分析析人人员员能能够够迅迅速速、一一致致、交交互互地地从从各各个个方方面面(维维,即即坐坐标标)观观察察信信息息,以以达达到到深深入入了了解解数数据据的的目目的的。 OLAPOLAP逐逐步步成成为为数数据据的的多多维维视视图图的的同同义义语语。多多维维结结构构是是决决策策支支持持的的支支柱柱,也也是是OLAPOLAP的的核核心心,OLAPOLAP展展现现在在用户面前的是一幅幅多维视图。用户面前的是一幅幅多维视图。 2 2、 OLAPOLAP的基本概念的
36、基本概念 v维层次人们在观察数据的某个特定角度(即某个维)时可以存在细节程度不同的多个描述方面,我们称这多个描述方面为维的层次。例时间维:日期,月份,季度,年不同层次。v维成员维的一个取值成为该维的一个维成员。如果维已经分成了多层次的,则维成员就是不同维层次取值的组合。例如:某公司销售数据在省、市、县,地理维有三个层次,则“甘肃省兰州市七里河区”就构成地理维的一个维成员。维成员并不一定要在维的每一个层次上都取值,例如:甘肃省,甘肃省兰州市,兰州市七里河区都是地理维的维成员。2 2、 OLAPOLAP的基本概念的基本概念 v多维数据集数据立方体或超立方。多维数据集是决策支持的支柱,也是OLAP的
37、核心。数据仓库的数据都以多维数据的形式存储。多维数据集可以用一个多维数组表示。多维数据集的形式化表示:(维1,维2,维n,观察变量)。如(产品,地区,时间,销售渠道,销售额)2 2、 OLAPOLAP的基本概念的基本概念 2 2、 OLAPOLAP的基本概念的基本概念 v多维数据集的度量值(测量值): 多维数据集的度量值是基于多维数据集中事实表的一列或多列数值型数字。多维数据集的度量值是OLAP分析的核心值,是用户在DW中需要查看的数据,一般是销售量、成本、费用等。3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 OLAP的决策支持是通过多维数据分析来实现的。基本的多维
38、数据分析方法包括切片、切块、旋转、钻取等各种分析,以求剖析数据,使最终用户能从多个角度、多个侧面观察数据,从而深入地了解数据中的信息、内涵。 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 选定多维数组的一个二维子集的操作叫切片,即选定多维数组(维1、维2维N,观察变量)中的两个维,如i,j,在这两个维上取任一区间或任意成员,而将其他维都取定一个维成员,得到的就是多维数组在维i,j上的一个二维字集,称这个二维子集为多维数组在维i,j上的一个切片,表示为:(维i,维j,变量)。 切片切片切片切片 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析
39、切片切片切片切片 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 v切片的意义:维是观察数据的角度,切片的作用是舍弃一些观察角度,使人们能在两个维上集中观察数据。因为人的空间想象力毕竟有限,一般很难想象四维以上的空间结构。所以对于维数较多的多维数据,数据切片是很有意义的。 切片切片切片切片 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 定义:选定多维数组的三维子集的动作称为切块。从另一角度讲,切块可看成在切片的基础上,进一步确定各个维成员的区间得到的片段体,即多个切片叠合起来。如对于时间维的切片,将时间维上的取值设定为一个区间(如20002
40、009年)而非单一维成员时,就得到一个数据切块。 切块切块切块切块 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 旋转操作相当于平面数据将坐标旋转。如旋转可能包含了交换行和列,或是把页面显示中的一个维和页面外的维进行交换。通过旋转可以得到不同视角的数据。 旋转旋转旋转旋转3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 旋转旋转旋转旋转3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 钻取包含向下钻取和向上钻取操作,向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据,向上钻取获取概括性的数据。 钻取钻取钻
41、取钻取3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 钻取钻取钻取钻取60按时间维向上钻取按时间维向下钻取3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 多维度观察数据的思想和技术,早已出现在常见的 Office软件中,其中以Excel中的“数据透视表”为最明显的代表,即完成从不同角度来统计、观察我们所关心的数据。但若在Excel中进行数据透视:必须将DB下载到EXCEL本地; 最多容纳六万条数据;即便可以顺利下载,Excel不适合处理大量数据。 3 3、 OLAPOLAP的决策支持的决策支持 多维数据分析多维数据分析 例:假设有一个五维数据
42、模型,5个维分别为商店、方案、部门、时间和销售。1.1.三维表查询三维表查询在指定两维“商店=All,方案=现有”为定值的情况下的三维表(部门、时间和销售量) OLAP OLAP OLAP OLAP应用实例应用实例应用实例应用实例 OLAP OLAP OLAP OLAP应用实例应用实例应用实例应用实例类别1994年1995年增长率(%)销售量利润增长(%)销售量利润增长(%)销售量利润增长服装23467027.238110221.562. 4(20.0)家具6254833.86600531.15.6(8.0)汽车37509822.432540227.2(13.2)21.4所有其他2023882
43、1.330667721.750.71.9三维表三维表商店商店ALL 方案方案现有现有对于汽车部门出现的奇怪现对于汽车部门出现的奇怪现象,即销售量下降了象,即销售量下降了13.2%,而利润却增加了而利润却增加了21.4%,此时,此时进行向下钻取。进行向下钻取。上表中,无括号数为增长率,有括号数表示下降率类别1994年1995年增长率(%)销售量利润增长(%)销售量利润增长(%)销售量利润增长汽车汽车37509822.432540227.2(13.2)21.4维修19505114.218078615.0(7.3)5.6附件11628043.912254547.55.38.2音乐637678.222
44、07114.2(63.4)7.3下钻数据下钻数据2.向下钻取向下钻取 对汽车部门向下钻取出具体项目(维修、附件、音乐)的销售情况和利润增长情况切片表切片表3.切片切片 切片操作是除去一些列或行不显示商店商店ALL 方案方案现有现有类别1995年销售量利润增长(%)服装38110221.5家具6600531.1汽车32540227.2所有其他30667721.7旋转表旋转表4.旋转旋转 将方案维加入到销售维中。加入方案维的两种情况:现有和计划,这次旋转操作得到1995年的方案为:现有、计划、差量、差量%。类别1995年销售量现有计划差量差量(%)服装381102350000311028.9家具6
45、600569000(2995)(4.3)汽车325402300000254028.5所有其他306677350000(44322)12.7商店商店ALL 方案方案现有现有4 4、 OLAPOLAP的数据组织的数据组织 建立OLAP的基础是多维数据模型,多维数据模型 的 存 储 可 以 有 多 种 不 同 的 形 式 。MOLAP(multi-dimension OLAP)和ROLAP(relation OLAP)是OLAP的两种具体形式,其中MOLAP是基于多维数据库存储方式建立的OLAP;ROLAP是基于关系数据库存储方式建立的OLAP。 4 4、 OLAPOLAP的数据组织的数据组织 vM
46、OLAP:将按照主题分析要求的数据,生成并存储成多维数据库,形成超立方体的结构。 vROLAP:以关系型结构进行多维数据的表示和存储,而不生成多维立方体,只存储数据模型与DW的数据之间的映射关系,真正的物理关系存储在DW中。 5 5、 OLAPOLAP与与DWDW vOLAP与DW日关系十分紧密。DW的建立,解决了依据主题进行数据存储问题,提高数据存取速度,而OLAP分析构建了DW的表现层,将DW中的数据通过不同的维和指标,灵活地展现出来,提高了数据的展现力,进而提高了数据的分析能力。 vOLAP对DW是有很强的依赖性,没有DW,OLAP很难实现;同样,DW选择主题时,也要参考OLAP分析的维
47、度、指标,这样DW才能更好的为信息服务。 4.4 4.4 数据挖掘(数据挖掘(Data MiningData Mining) 1 1数据挖掘的产生和概念数据挖掘的产生和概念 随着DB技术的迅速发展和DBMS的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要信息,人们希望对其进行高层次的分析,以便更好地利用这些数据。缺乏挖掘数据背后隐藏的知识手段,导致知识贫乏的现象。 v支持DM技术的基础 E超大规模数据库的出现 E先进的计算机技术 E数据挖掘算法 1 1数据挖掘的产生和概念数据挖掘的产生和概念 vDM的概念 DM是从大量的、有噪声的、模糊的、随机数据中,提取隐含在其中的人们事先不
48、知道的,但又潜在有用的知识的过程。 1 1数据挖掘的产生和概念数据挖掘的产生和概念 v注意: EDM面临的最大的挑战也是大多数专家们无法解决的难题:一切结论都有可能是一种怀疑。 E并不要求发现是放之四海皆准的知识,仅支持特定的问题。E DW技术与DM有着密切的联系 。EDM需要的人员 1 1数据挖掘的产生和概念数据挖掘的产生和概念 目前比较流行的数据挖掘方法论主要有以NCR、SPSS公司提出的跨行业标准数据挖掘过程CRISP-DM(Cross Industry Standard Process for Data Mining),IBM公司提出的通用数据挖掘方法(The generic data
49、 mining method)以及SAS公司提出的SEMMA(Sample,Explore ,Modify,Model,Access)方法论。实质上它们的内容大同小异,基本上都包括了数据准备、数据抽取、模型建立、模型评估和模型修正等过程。 2 2DMDM的方法与基本流程的方法与基本流程 SAS公司将DM定义为对数据进行选择、探索、修改和建模的过程,即SEMMA方法,勾划了DM的大致过程。 SEMMA SEMMA SEMMA SEMMA方法论方法论方法论方法论2 2DMDM的方法论的方法论( (基本流程基本流程) ) 数据取样Sample数据探索Explore数据调整Modify模式化Model
50、评价Assess选数据样本可视化数据探索聚类、因子分析等数据重组和细分添加和拆分记录人工神经网络决策树模型数理统计分析时间序列分析结论综合和评价数据修改?v商业理解 v数据理解 v数据准备 v建立模型 v模型评估 v结果发布 SPSS SPSS SPSS SPSS的的的的CRISP-DMCRISP-DMCRISP-DMCRISP-DM方法论方法论方法论方法论 2 2DMDM的方法论的方法论( (基本流程基本流程) ) 2 2DMDM的方法论的方法论( (基本流程基本流程) ) 花费时间重要性商业理解10%79%数据理解20-30%3%数据准备50-70%15%建模、评估10%2%模型发布5-1
51、0%1% SPSS SPSS SPSS SPSS的的的的CRISP-DMCRISP-DMCRISP-DMCRISP-DM方法论方法论方法论方法论 数据仓库产品及解决方案大致由以下几部分组成:ETL工具、数据仓库引擎产品、OLAP产品、数据挖掘工具、统计产品和展现工具,以及集成以上几种产品的针对某个应用的整体解决方案。3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例 IBM在20世纪90年代中后期开始提倡数据仓库的概念,是最早提出商业智能的厂商之一。目前具有完备的商业智能解决方案。v数据仓库产品:IBM DB2 UDB8.1vOLAP分析产品:DB2 OLAP SERVERIBMIBM
52、IBMIBM公司的相关系列产品公司的相关系列产品公司的相关系列产品公司的相关系列产品 3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例 v数据挖掘产品:Intelligent miner Intelligent miner 不单单用统计方法,还提供机器学习、神经网络技术,它支持多种算法:决策树、神经网络、Regression、radial basis function、clustering和association rulers。IBMIBMIBMIBM公司的相关系列产品公司的相关系列产品公司的相关系列产品公司的相关系列产品 3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例
53、v数据仓库产品:Oracle8i Release 3vOLAP分析产品:Oracle Expressv数据挖掘产品:Oracle Darwin Oracle Darwin是基于数据仓库的数据挖掘工具,支持多种算法,包括神经网络、线性回归、逻辑回归、决策树、匹配模型、聚类和探测数据分析。OracleOracleOracleOracle相关系列产品相关系列产品相关系列产品相关系列产品 3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例 SPSS拥有比较完整的数据分析产品。主要产品包括基础统计软件SPSS BASE,基于决策树的数据挖掘软件Answer Tree,基于神经网络的数据挖掘软件N
54、eural Connection,以及通用数据挖掘软件Clementine等。SPSSSPSSSPSSSPSS产品产品产品产品 3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例 Clementinev预示和分类:神经网络、决策树、线性回归、逻辑回归、因子分析和主成分分析。v聚类和分段:Kononen网络、Kmeans、Two Step。v联 合 检 查 : GRI、 演 绎 、 Web可 视 化 、SequenceSPSSSPSSSPSSSPSS产品产品产品产品 3 3数据仓库产品及解决方案举例数据仓库产品及解决方案举例 关联分析是从数据库中发现知识的一类重要方法,若两个或多个数据项
55、的取值重复出现的概率很高,可以建立起这些数据项的关联知识,为决策服务。常用的两种技术是关联规则和时序模式。 关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策支持 关联规则:即为AB就是一个条件和一个结果的和if condition then result关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策支持 关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策支持 v“尿布与啤酒”的故事 美国沃尔玛连锁超市买尿布的顾客有30%40%的人还会买啤酒,这是一条关联规则。买面包的顾客有90%的人还会买牛奶,这也是一条关联规则。如某零售商某类交易总数1000笔
56、,其中:关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策支持 交易交易数A包含“锤子” 500B包含“钉子 ” 800C包含“钳子 ” 200AB包含“锤子、钉子” 150BC包含“钉子、钳子” 100AC包含“锤子、钳子” 100设规则“购买了商品X的顾客同时也买商品Y”,进行关联分析时需要输入两个参数:支持度(S):某一特定关联在DB中出现的频率 ,即置信度(C):以过滤掉可能性过小的规则。即这里设最小支持度和置信度分别为15%和30%。关联分析关联分析关联分析关联分析 如某零售商某类交易总数1000笔,其中:关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策
57、支持 交易交易数支持度置信度A包含“锤子” 500B包含“钉子 ” 800C包含“钳子 ” 200AB包含“锤子、钉子” 15015%30%BC包含“钉子、钳子” 10010%12.5%AC包含“锤子、钳子” 10010%20%时序模式是通过时间序列搜索出重复发生概率较高的模式。这强调是时间序列的影响。如在所有买了激光打印机的人中,半年后有80%的人再购买新的硒鼓,20%的人用旧硒鼓装碳粉;在所有买了电视的人中,一个月内有60%的人再买DVD。 关联分析关联分析关联分析关联分析 4 4DMDM的决策支持的决策支持 数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较
58、小,而不同类别上的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念,有效地帮助人们认识客观事物,鉴别事物。聚类的方法有划分法、层次法和遗传算法等。 聚类聚类聚类聚类 4 4DMDM的决策支持的决策支持 分类法也可称分类分析法,是寻找分类数据中的每类数据的规律,我们知道世界上的事物可按其不同表象而分为不同的类,而这些类间具有其内在的本质差异,如何由不同表象而进一步挖掘出其内在性质的不同,这就是分类方法的主要工作。分类法中的算法很多,有决策树方法、粗集算法、贝叶斯算法、人工神经网络及遗传算法等多种算法。决策树算法、人工神经网络、贝叶斯算法、遗传算法及粗集算法是目前分类法中
59、最常用的算法。 分类分类分类分类 4 4DMDM的决策支持的决策支持 预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等,是一种很重要的决策支持手段。典型的方法是回归分析 ,近年来发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但分类一般用于离散数值。回归预测用于连续数值。神经网络方法预测既可用于连续数值,也可用于离散数值。 预测预测预测预测 4 4DMDM的决策支持的决策支持 决策树是用样本的属性作为结点,用属性的取值作为分支的树结构。它是利用信息论原理对大量样本的属性进行分析和归纳而产生的。决策树的根结点是
60、所有样本中信息量最大的属性。树的中间结点是该结点为根的子树所包含的样本子集中信息量最大的属性。决策树的叶结点是样本的类别值。 决策树概念决策树概念决策树概念决策树概念 5 5决策树及其应用决策树及其应用 决策树用于对新样本的分类,即通过决策树对新样本属性值的测试,从树的根结点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶结点,该叶结点表示的类别就是新样本的类别。决策树概念决策树概念决策树概念决策树概念 5 5决策树及其应用决策树及其应用 决策树概念最早出现在CLS中,影响最大的是J.R.Quinlan于1986年提出的ID3方法,他提出用信息增益(即信息论中的互信息)来选择属性作为决
61、策树的结点。工作过程是,首先找出最有判别力(信息增益)的属性,把数据分成多个子集,每个子集又选择最有判别力的属性进行划分,一直进行到所有子集仅包含同一类型的数据为止。最后得到一颗决策树,可以用它来对新的实例进行分类。ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 v建树算法的操作步骤如下 对当前例子集合,计算各属性的互信息。选择互信息最大的属性A为根节点。把在A处取值相同的例子归于同一子集,A取几个值就得几个子集。对既含正例又含反例的子集,递归调用建树算法。若子集仅含正例或反例,对应分支标上P或N,返回调用处。 ID3ID3ID3ID3方法方法方法方法 5 5决策
62、树及其应用决策树及其应用 天气天气温度温度热热热适中冷冷冷湿度湿度风况风况运动类别运动类别晴高无不适合晴高有不适合多云高无适合有雨高无适合有雨正常无适合有雨正常有不适合多云正常有适合晴适中高无不适合晴冷正常无适合有雨适中正常无适合晴适中正常有适合多云适中高有适合多云热正常无适合有雨适中高有不适合vID3算法 概率空间(确定事件和事件发生的概率) P(u1)=9/14 P(u2)=5/14自信息计算(反映信号ui输出前的不确定性) I(ui)=log(1/P(ui)=-logP(ui)ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 信息熵计算(信号输出前的平均不确定
63、性) H(u)=P(ui)log(1/P(ui) =-P(ui)logP(ui) =ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 后验熵计算(当信道接收端接收到输出符号vj后关于u的信息度量。) H(u/vj)=ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 条件熵计算(后验熵的数学期望)H(u/v)=属性A1取值Vj时,类别ui的条件概率:ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 A1=天气的取值:v1=晴,v2=多云,v3=雨P(v1)= 5/14 P(v2)= 4/14 P(v3)= 5/1
64、4P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4,P(u2/v2)=0, P(u1/v3)=2/5,P(u2/v3)=3/5H(u/v)= (5/14)( (2/5)log (5/2)+(3/5)log(5/3)+ (4/14)( (4/4)log (4/4)+0)+(5/14)( (2/5)log (5/2)+(3/5)log(5/3) =0.694bitID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 互信息的计算H(u)表示收到字符集v以前关于u的平均不确定性,H(u/v)表示收到字符集v后关于u的平均不确定性,可见通过信道
65、传输消除了一定的不确定性,获得了一定的信息。其减少的不确定性即为字符集v的信息量。 I(v)=H(u)-H(u/v)ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 互信息的计算I(天气)=H(u)-H(u/天气) =0.94-0.694=0.246bitI(气温)=0.029bitI(湿度)=0.151bitI(风)=0.048bitID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 建立决策树的根接点和分枝 根据以上计算的各属性的信息量,把信息量最大的属性“天气”作为根节点,对天气的3个取值进行分析,建3个分支,3个分支对应3个子集,分
66、别是:F1=1,2,8,9,11,F2=3,7,12,13,F3=4,5,6,10,14,其中,F2中的例子全属于P类,因此对应分支标记为P,其余两个子集既含有正例P又含有反例,将递归调用建树算法。ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各属性求互信息。F1中的天气全取“晴”值,则I(天气)=0,在余下的3个属性中求出“湿度”互信息最大,以它为该分支的根结点。再向下分支,“湿度”取“高”的例子全为N类,该分支标记N;取值“正常”的例子全为P类,该分支标记P。在F3中,对4个属性求互信息,得到“风”
67、属性互信息最大,则以它为该分支的根结点。再向下分支,“风”取“有风”时全为N类,该分支标记N;取“无风”时全为P类,该分支标记P。 ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 ID3ID3ID3ID3方法方法方法方法 5 5决策树及其应用决策树及其应用 天气?湿度?风况?天晴天晴有雨不适合不适合适合适合适合多云高正常无有vC4.5算法用“信息增益率”来选择属性,它克服了用“信息增益”选择属性时偏向选择取值多的属性的不足。在树构造过程中或者构造完成后,进行剪枝。能够完成对连续属性的离散化处理。能够完成对不完整数据的处理,例如未知的属性值。采用的知识表示形式为决策
68、树,并最终可以形成产生式规则。C4.5C4.5C4.5C4.5方法方法方法方法 5 5决策树及其应用决策树及其应用 v配隐形眼镜问题实例(1)患者配隐形眼镜的类别: 1:患者应配隐形眼镜; 2:患者应配软隐形眼镜; 3:患者不适合配隐形眼镜。实例实例实例实例 5 5决策树及其应用决策树及其应用 实例实例实例实例 5 5决策树及其应用决策树及其应用 (2)患者眼镜诊断信息(属性) a:患者的年纪 年轻;前老花眼;老花眼 b:患者的眼睛诊断结果 近视;远视 c:是否散光 是;否 d:患者的泪腺 不发达;正常(3)配隐形眼镜实例 现有24个患者实例分别属于3个类别序号序号属性取值属性取值a b c d诊断值诊断值序号序号属性取值属性取值a b c d诊断值诊断值11 1 1 13132 2 1 1321 1 1 22142 2 1 2231 1 2 13152 2 2 1341 1 2 21162 2 2 2351 2 1 13173 1 1 1361 2 1 22183 1 1 2371 2 2 13193 1 2 1381 2 2 21203 1 2 2192 1 1 13213 2 1 13102 1 1 22223 2 1 22112 1 2 13233 2 2 13122 1 2 21243 2 2 23