数据挖掘zqq答案

上传人:夏** 文档编号:485496834 上传时间:2022-11-14 格式:DOC 页数:9 大小:61KB
返回 下载 相关 举报
数据挖掘zqq答案_第1页
第1页 / 共9页
数据挖掘zqq答案_第2页
第2页 / 共9页
数据挖掘zqq答案_第3页
第3页 / 共9页
数据挖掘zqq答案_第4页
第4页 / 共9页
数据挖掘zqq答案_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《数据挖掘zqq答案》由会员分享,可在线阅读,更多相关《数据挖掘zqq答案(9页珍藏版)》请在金锄头文库上搜索。

1、-数据仓库与数据挖掘习题答案第1章 数据仓库的概念与体系构造1. 面向主题的,相对稳定的。2. 技术元数据,业务元数据。3. 联机分析处理OLAP。4. 切片Slice,钻取Drill-down和Roll-up等。5. 基于关系数据库。6. 数据抽取,数据存储与管理。7. 两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库。8. 可更新的,当前值的。9. 接近实时。10. 以报表为主,以分析为主,以预测模型为主,以营运导向为主。11. 答:数据仓库就是一个面向主题的Subject Oriented、集成的Integrate、相对稳定的Non-Volatile

2、、反映历史变化Time Variant的数据集合,通常用于辅助决策支持。数据仓库的特点包含以下几个方面:1 面向主题。操作型数据库的数据组织是面向事务处理任务,各个业务系统之间各自别离;而数据仓库中的数据是按照一定的主题域进展组织。主题是一个抽象的概念,是指用户使用数据仓库进展决策时所关心的重点领域,一个主题通常与多个操作型业务系统或外部档案数据相关。2集成的。面向事务处理的操作型数据库通常与*些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据作抽取、清理的根底上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息

3、是关于整个企事业单位一致的全局信息。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、编码构造和相关特性来定义。3相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供单位决策分析之用,对所涉及的数据操作主要是数据查询和加载,一旦*个数据加载到数据仓库以后,一般情况下将作为数据档案长期保存,几乎不再做修改和删除操作,也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载或刷新操作。4反映历史变化。操作型数据库OLTP主要关心当前*一个时间段内的数据,而数据仓库中的数据通常包含较长远的历史数据,因此总是包括一个时间维,以便可以研究趋势和变化。数据

4、仓库系统通常记录了一个单位从过去*一时点(如开场启用数据仓库系统的时点)到目前的所有时期的信息,通过这些信息,可以对单位的开展历程和未来趋势做出定量分析和预测。12. 答:1两层架构Generic Two-Level Architecture。2独立型数据集市Independent Data Mart。3依赖型数据集市和操作型数据存储Dependent Data Mart and Operational Data Store。4逻辑型数据集市和实时数据仓库Logical Data Mart and Real-Time Data Warehouse。13. 答:数据仓库技术的开展包括数据抽取、存

5、储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术开展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的开展将使数据库厂商明确推出数据仓库引擎,作为数据仓库效劳器产品与数据库效劳器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具开展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术严密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一局部。数据仓库实现过程的方法论将更加普及,将成为数

6、据库设计的一个明确分支,成为管理信息系统设计的必备。14. 答:1IBM公司提供了一套基于可视化数据仓库的商业智能BI解决方案,包括:Visual WarehouseVW、Essbase/DB2 OLAP Server 5.0、IBM DB2 UDB,以及来自第三方的前端数据展现工具如BO和数据挖掘工具如SAS。其中,VW是一个功能很强的集成环境,既可用于数据仓库建模和元数据管理,又可用于数据抽取、转换、装载和调度。Essbase/DB2 OLAP Server支持“维的定义和数据装载。Essbase/DB2 OLAP Server不是ROLAPRelational OLAP效劳器,而是一个R

7、OLAP和MOLAP混合的HOLAP效劳器,在Essbase完成数据装载后,数据存放在系统指定的DB2 UDB数据库中。它的前端数据展现工具可以选择Business Objects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query Management Facility;多维分析工具支持Arbor Software的Essbase和IBM与Arbor联合开发的DB2 OLAP效劳器;统计分析工具采用SAS系统。2Oracle数据仓库解决方案主要包括Oracle E*press和Oracle Discoverer两个局部。Oracle E*press由四个

8、工具组成:Oracle E*press Server是一个MOLAP(多维OLAP)效劳器,它利用多维模型,存储和管理多维数据库或多维高速缓存,同时也能够多种关系数据库;Oracle E*press Web Agent通过CGI或Web插件支持基于Web的动态多维数据展现;Oracle E*press Objects前端数据分析工具目前仅支持Windows平台提供了图形化建模和假设分析功能,支持可视化开发和事件驱动编程技术,提供了兼容Visual Basic语法的语言,支持OC*和OLE;Oracle E*press Analyzer是通用的、面向最终用户的报告和分析工具目前仅支持Window

9、s平台。Oracle Discoverer即席查询工具是专门为最终用户设计的,分为最终用户版和管理员版。在Oracle数据仓库解决方案的实施过程中,通常把汇总数据存储在E*press多维数据库中,而将详细数据存储在Oracle关系数据库中,当需要详细数据时,E*press Server通过构造SQL语句关系数据库。3Microsoft将OLAP功能集成到SQL Server数据库中,其解决方案包括BI平台、BI终端工具、BI门户和BI应用四个局部,如图1.1。BI平台是BI解决方案的根底,包括ETL平台SQL Server 2005 Integration Service(SSIS)、数据仓库

10、引擎SQL Server 2005 RDBMS以及多维分析和数据挖掘引擎SQL Server 2005 Analysis Service、报表管理引擎SQL Server 2005 Reporting Service。 BI终端用户工具,用户通过终端用户工具和Analysis Service中的OLAP效劳和数据挖掘效劳进展交互来使用多维数据集和数据挖掘模型,终端用户通常可使用预定义报表、交互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。BI门户提供了各种不同用户BI信息的统一入口。BI门户是一个数据的聚集地,集成了来自不同系统的相关信息。用户可以制定个性化的个人门户,选择和自己相关性

11、最强的数据,提高信息和使用的效率。BI应用是建立在BI平台、BI终端用户工具和BI统一门户这些公共技术手段之上的满足*个特定业务需求的应用,例如零售业务分析、企业工程管理组合分析等。第2章 数据仓库的数据存储与处理1. 企业级数据仓库EDW。2. 单一的,详细的。3. 最初填充数据仓库。4. 越高,越低,越多。5. 提高,预处理,事实表。6. 自然键Natural Key,代理键Surrogate Key。7. 星型模式。8. 早期细节级,轻度综合级。9. 答:简单地说,数据是从企业内外部的各业务处理系统操作型数据流向企业级数据仓库EDW或操作型数据存储区(ODS),在这个过程中,要根据企业或

12、其他组织的数据模型和元数据库对数据进展调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层EDW、ODS将数据引入导出数据层,如形成满足各类分析需求的数据集市。10. 答:数据的ETL过程就是负责将操作型数据转换成调和数据的过程。如上面的小节所述,这两种数据具有明显的区别,因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的局部。在为企业级数据仓库填充数据的过程中,数据调和可分为两个阶段:一是企业级数据仓库EDW首次创立时的原始加载;二是接下来的定期修改,以保持EDW的当前有效性和扩展性。整个过程由四个步骤组成:抽取、清洗、转换、加载和索引。事实上,这些步骤可以进展不同的组合,

13、如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。通常,在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中,然后将数据在源系统中加以处理,以便在以后重新抽取。11. 答:在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。位于星形中心的实体是事实表,是用户最关心的根本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小*围。每个维表都有自己的属性,维表和事实表通过关键字相关联。12. 答:因为数据仓库或数据集市的数据总是历史的数据,需要时间维来区别。第3章 数据仓库系统的设计与开

14、发1. 在线分析处理(OLAP) 分析。2. 信息包图法,维度,类别,度量。3. 逻辑模型。4. 事务事实,快照事实,线性工程事实。5. 聚合。6. 时间,区域。7. 退化维。8. 无变化,缓慢变化,剧烈变化。9. 索引。10. 反向规*化,引入冗余。11. 答:信息包图法,也叫用户信息需求表,就是在一*平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等;而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行代表超立方体中的单元格即为指标度量值,例如,*年在*销售点的*类产品的实际销售额。创立信息包图时

15、需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开场设计用户的观点是通过与用户交流得到的,站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。12. 答:收集、分析和确认业务分析需求,分析和理解主题和元数据、事实及其量度、粒度和维度的选择与设计、数据仓库的物理存储方式的设计等。13. 答:1收集和分析业务需求;2建立数据模型和数据仓库的物理设计;3定义数据源;4选择数据仓库技术和平台;5从操作型数据库中抽取、清洗及转换数据到数据仓库;6选择和报表工具,选择数据库连接软件,选择数据分析和数据展示软件;7更新数据仓库。14. 答:参考3.3节的过程。第4章 关联规则1. apriori,fp-growth,fp-growth。2. abcabdacd,abcabd。3. abc,ac。4. 答:关联规则挖掘最初由R.Agrawal等人提出,用来发现超级市场中用户购置的商品之间的隐含关联关系,并用规则的形式表

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号