（2020年整理）数据仓库复习提纲.pptx

资源描述

《（2020年整理）数据仓库复习提纲.pptx》由会员分享，可在线阅读，更多相关《（2020年整理）数据仓库复习提纲.pptx（9页珍藏版）》请在金锄头文库上搜索。

1、学海无涯数据库应用技术数据仓库与数据挖掘复习提纲说明考试形式闭卷考试题型填空选择判断名词解释简答题综合题由于试题是随机从试题库中抽取有可能抽取的试题中不会全部包含上述的所有题型另外本提纲仅针对试题中的名词解释简答题和综合题提供复习参考不包括填空选择判断等其它题型的参考一名词解释 1 数据仓库是面向主题的综合的不同时间的稳定的数据的集合用以支持经营管理中的决策制定过程 2 数据挖掘就是从大量数据中获取有效的新颖的潜在有用的最终可以理解的模式的过程简单的说是从大量数据中提取或挖掘知识又被称为数据库中的知识发现 3 操作数据存储是一种D

2、W的混合形式它面向主题的及时的最近的和集成的信息用于支持企业的日常的全局应用和决策制定其中数据可以作为DW的通用数据源 4 OLAP 是数据库系统主要应用支持复杂的分析操作侧重决策支持且提供直观易懂的结果 5 商业智能是数据仓库 DW 联机分析处理 OLAP 数据挖掘等技术与资源管理系统ERP结合起来应用于商业活动实际过程中实现了技术服务于决策的目的二简答题 1 试叙述数据仓库系统与传统数据库系统的区别操作型数据库中的数据针对事务处理任务各个业务系统之间各自分离而数据仓库中的数据是按照一定的主题域进行组织的操作型数据库通常与某些特定的应用相关数据库之间相互独立

3、并且往往是并构的而数据仓库中的数据在对原有分期的数据库数据做抽取清理的基础上经过系统的加工汇总和整理得到的操作型数据库中的数据通常实时更新数据根据需要及时发生变化数据仓库的数据主要用于决策分析对涉及的数据操作主要是数据查询和定期更细一旦某个数据加载到数据仓库以后一般情况下将作为数据档案长期保存操作型数据库主要关心当前某一个时间段内的数据而数据仓库中的数据通常包含较久远的历史单位因此总是包括一个时间维以便可以研究趋势和变化 2 试叙述数据仓库设计的步骤及每一步完成的工作概念模型界定系统的边界确定主要的主题域技术准备工作技术评估技术环境准备逻辑模型设计分

4、析主题域粒度层次的划分确定数据分割策略关系模式定义定义记录系统物理模型设计确定数据存储结构确定索引策略确定数据存放位置确定存储分配数据仓库生成设计接口和数据装入数据仓库的使用和维护建立DSS 不断理解需求和完善系统维护DW 学海无涯3 OLAP与OLTP的区别有哪些它们适合于运行在同一个服务器上吗为什么 4 为什么要进行数据的预处理及其方法适当举例即可 1 在现实社会中存在着大量的脏数据不完整性缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据没有详细数据噪音数据数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性数据结构的

5、不一致性 Label的不一致性数据值的不一致性数据挖掘的数据源可能是多个互相独立的数据源关系数据库多维数据库 DataCube 文件文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约在获得相同或者相似结果的前提下数据预处理的方法数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库 DataCube和文件系统的集成数据转换规范化聚集等数据归约在可能获得相同或相似结果的前提下对数据的容量进行有效的缩减数据离散化对于一个特定的连续属性尤其是连续的数字属性可以把属性值划分成若干区间以区间值来代替实际数据值以减少属性值的个数

6、5 在现实世界的数据中元组在某些属性上缺少值是常有的描述处理该问题的各种方法 6 对于类特征化基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么讨论哪种方法最有效在什么条件下最有效学海无涯7 数据仓库和数据集市的区别是什么数据仓库的体系环境具有什么特点有哪些建立数据仓库体系化环境的方法它们各有何优劣 8 为了提高数据仓库的性能可以在哪些方面作一些努力在各个方面分别采用什么样的技术这些技术易于实现吗 9 数据仓库中的数据是数据库中数据的简单堆积吗它有哪些常用的数据组织方式 1 简单堆积文件 2 轮转综合文件 3 简单直接文件 4 连续文件10 一般来说

7、数据仓库采用什么样的数据模型与OLTP的数据库模型相比这些模型有什么特点 11 数据仓库的设计包括哪些内容收集分析和确认业务分析需求分析和理解主题和元数据事实及其量度粒度和维度的选择与设计数据仓库的物理存储方式的设计等 12 在内容和使用者方面数据仓库环境中的元数据与操作型环境中的元数据有何异同内容 DW的主题描述主题名公共码键描述信息等外部数据和非结构化数据的描述外部数据源名存储地点存储内容描述记录系统定义主题名属性名数据源系统源表名源属性名逻辑模型的定义关系名属性1 属性n 数据进入DW的转换规则数据的抽取历史粒度的定义数据分割的

8、定义广义索引广义索引名属性1 属性n 有关存储路径和结构的描述定义元数据是关于数据的数据它描述了数据的结构内容码索引等项内容功能元数据为决策人员访问DW提供直接或辅助信息元数据描述和管理从DBS到DW的数据转换元数据要管理DW中的数据 13 什么是维维层次维成员举例说明维观察数据的特定角度比如时间维维层次数据的维可以存在细节程度不同的多个描述方面比如时间维可以由日期月份季度年等不同的层次来描述维成员维的一个取值称为该维的一个维成员若一个维是多层次的则该维的维成员是在不同维层次的取值的组合比如2014年夏季6月22日 14 OLAP提供

9、哪些基本操作切片选定二维数组的一个二维子集的动作切块选定二维数组的一个三维子集的动作旋转改变一个页面显示的维方向的操作上卷通过一个维的概念分层向上攀升或者通过维归约在数据立方体上进行聚集下钻下钻是上卷的逆操作它由不太详细的数据到更详细的数据下钻可以通过沿维的概念分层向下或引入新的维来实现查询多维数据库的星型网查询模型多维数据库查询也可以基于星型网模型星型网由从中点发出的射线组成其中每一条射线代表一个维概念分层学海无涯15 OLAP服务器有哪些实现方法它们的优劣是什么关系OLAP ROLAP 服务器优势没有大小限制现有的关系数据库技术可以沿用可以通过

10、SQL实现详细数据与概要数据的存储现有数据库已经对OLAP做了很多优化包括并行存储并行查询并行数据管理基于成本的查询优化位图索引 SQL的OLAP扩展等大大提高了OLAP的速度缺点一般比MDD相应的速度慢不支持有关预计算的读写操作 SQL无法完成部分计算无法完成多行的计算无法完成维之间的计算多维OLAP MOLAP 服务器优势性能好相应速度快专为OLAP所设计支持高性能的决策支持计算如复杂的跨维的计算多用户的读写操作行级的计算缺点增加系统复杂度增加系统培训及维护费用受操作系统平台中文件大小的限制难以达到TB级 10 20G 需要进行预计算可能导

11、致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准混合OLAP HOLAP 服务器16 为什么不能依靠传统的业务处理系统决策分析所有联机事务处理强调的是密集的数据更新处理性能和系统的可靠性并不太关心数据查询的方便与快捷业务数据往往被存放于分散的衣钩环境中不易统一查询问题而且还有大量的历史数据处于脱机状态形同虚设业务数据的数据库模式针对事务处理系统而设计数据的格式和描述方式并不太适合非计算机专业人员进行业务上的分析和统计 17 自然演化体系结构中存在的问题蜘蛛网问题数据缺乏可信性 a 数据无时机 b 数据算法上的差异 c 抽取的多层 d 外部数据问题生产问题

12、生产率低从信息到数据的转换不可行性 a 集成化问题 b 没有足够的历史数据18 试述建立多维数据库的过程选择主题域及其主题域的商业过程确定事实表的粒度区分每一个事实表的维层次区分事实表的度量确定每一个维表的属性让用户验证数据类型 19 数据挖掘的主要方法统计分析方法决策树人工神经网络基因算法粗糙集联机分析处理技术20 数据挖掘中的数据分类是个两步过程简述每步过程学习建立一个模型描述预定的数据类集或概念集该模型是通过分析由属性描述的DB元组而构造的假定每个元组属于一个预定义的类由类标号属性确定为建立模型所使用的元组形成训练数据集其中的单个元组称作训练样

13、本并随机地由样本群选取由于提供了每个训练样本的类标号该步也称作有指导的学习分类首先评估模型分类法的预测准确率保持方法是一种使用类标号样本测试集的简单方法这些样本随机选取并独立于训练样本模型在给定测试集上的准确率是正学海无涯确被模型分类的测试样本的百分比对于每个测试样本将已知的类标号与该样本的学习模型类预测比较 21 试述商业智能系统的演化过程第一代基于主机的查询与报表面向专家早期的商务信息系统使用批处理应用程序为商业用户提供它们所需的信息第一代的商务信息系统只能被诸如业务分析人员之类的熟悉数据且有相当计算机经验的人员使用管理人员很少能够使用这些早期的系统

14、他们必须依靠信息提供者来解答他们的问题并给他们所需要的信息第二代数据仓库第二代信息系统应用了数据仓库技术从而使性能有了一个飞跃第三代商业智能数据仓库仍然不能完全解决商业用户的需求问题 22 ODS与DW的区别存放的数据内容不同最大差别 ODS 当前或接近当前数据细节数据可联机更新DW 历史数据细节数据和综合数据不可变快照数据量是不同等级技术支持不同ODS 要支持面向记录的联机更新又要保证数据与源数据库系统中数据的一致性需要的技术支持同面向应用的DBS的一样复杂 DW 只需支持装入和存取面向的需求不同ODS 满足企业的全局应用企业级OLTP和即时OLAP 或作

15、为DW的通用数据源 DW 长期趋势分析或战略决策用户不同ODS 企业的中层管理者 DW DSS分析员或企业高级决策者 23 ODS的作用在ODS上可实现企业级的OLTP 在ODS上可实现即时OLAP 分层ODS体系24 ODS在DB ODS DW三层体系结构的作用一方面在原来独立的各个DB基础上建立了一个一致的面向主题的数据环境使原有的DBS得到改造另一面 ODS将DW和DB隔离开使DW卸去数据集成结构转换等一系列负担使往DW的数据追加通过ODS进行从而变得异常简单大大简化了DW的数据传输接口及DW管理数据的复杂度由于数据已经过ODS集成并且是面向主题组织的所以所作

16、的变换仅限于数据模式上某些差异的转换以及对码结构的改造这样使得DW与操作型环境的界面变得简单了 25 概念分层最常用的两种类型概念分层以DB模式中属性的全序或偏序来定义的概念分层称作模式分层集合分组分层通过将给定维或属性的值离散化或分组来定义概念分层学海无涯26 试述维层次和类的概念有什么不同维层次和类表达的意义不同维层次是维所描述的变量的不同综合层次类某一子集维成员的共同特征在层次和类上进行分析的动作不同按维层次关系分析从维低层到高层的数据综合分析从维高层到低层的数据钻取分析按维成员的类分析分类选择类属性分类归纳归纳出类的共同特征三计算题1 假设有如下的雇员基本信息表的结构及数据其中属性工资为类别标识属性属性部门职位年龄作为决策属性集其中属性年龄与工资以离散化表中给出的是离散化后的数据属性工资列中同时给出了相应元组的类别属性根据示例中的类别标识属性的取值将该示例分为3类即m 3 分别是c1 c2 c3 训练样本数据集S中共有11个元组其中c1 c2 c3类所对应的子集R1 R2 R3中元组的个数分别为

展开阅读全文

（2020年整理）数据仓库复习提纲.pptx

最新文档