数据仓库基础知识

上传人:hs****ma 文档编号:431526974 上传时间:2022-09-21 格式:DOCX 页数:20 大小:234.15KB
返回 下载 相关 举报
数据仓库基础知识_第1页
第1页 / 共20页
数据仓库基础知识_第2页
第2页 / 共20页
数据仓库基础知识_第3页
第3页 / 共20页
数据仓库基础知识_第4页
第4页 / 共20页
数据仓库基础知识_第5页
第5页 / 共20页
点击查看更多>>
资源描述

《数据仓库基础知识》由会员分享,可在线阅读,更多相关《数据仓库基础知识(20页珍藏版)》请在金锄头文库上搜索。

1、数据仓库基础知识数据仓库,是为企业所有级别的决策制定过程,提供所有类型数 据支持的战略集合,它可以为需要业务智能的企业,提供指导业务流 程改进、监视时间、成本、质量以及控制。面对大数据的多样性,在 存储和处理这些大数据时,我们就必须要知道两个重要的技术,其分 别是:数据仓库技术、Hadoop。当数据为结构化数据,来自传统的数 据源,则采用数据仓库技术来存储和处理这些数据,如下图:酸据仓库数据应用般据雄掘敎扬辭|菸持叢市抽匪(Exlract) 珏换(Transform)数据分祈报表展示1.什么是数据仓库数据仓库之父 Bill Inmon 将数据仓库描述为一个面向主题的、集成的、随时间变化的、非易

2、失的数据集合,用于支持管理者的决策过程。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策 支持。数据仓库本身并不“生产”任何数据;同时自身也不需要“消 费”任何的数据,数据来源于外部,并且开放给外部应用,这也是 为什么叫“仓库” ,而不叫“工厂”的原因。2.数据仓库的基本概念2.1数据源构建一个数据仓库,必然要有充足的数据源,从外部为数据仓库 系统提供进行分析的“原材料” 数据,这些数据来源称为数据 仓库的数据源。数据源并不局限于传统数据库,可以是非结构化的信息,如爬取 日志,也可以是埋点日志。2.2 ETL在BI项目中ETL会花掉整个项目至少1/3的时间,ETL设计 的好坏直接关

3、系到BI项目的成败。其中,花费时间最长的是“T” (Transform,清洗、转换)的部分,一般情况下这部分工作量是整 个 ETL 的 2/3 。ETL是将业务系统中的数据经过抽取(Extract)、清洗转换 (Transform)和加载(Load)到数据仓库的过程,目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。抽取定义数堀抽廉数据存储ETL 处理分为五大模块,分别是:数据抽取、数据清洗、数据转换、规则检查、数据装载。各模块之间灵活组合,形成ETL处理流程。 下面简单介绍一下各模块之间的功能。2.2.1数据抽取在构建数据仓库过程中,数据源所提供的数据并不都是

4、有用的, 有些数据对决策并不能提供支持。同时,外部数据源中数据冗余的现象也很普遍。数据仓库既然是 面向主题的,那么在数据源中,只有那些与主题相关的内容才是必需 的、有使用价值的。因此,必须以主题的需求为依据,对数据源的内容进行有目的地 选择,这一过程被称为“数据抽取”(Data Extraction)。对于数 据的抽取,是从各个不同的数据源抽取到 ODS(Operational Data St ore,操作型数据存储)中。具体步骤为,首先要搞清楚数据是从哪几个业务系统中来,各个 业务系统的数据库服务器运行什么 DBMS ,是否存在非结构化的数据 等,当收集完这些信息后才可以进行数据抽取的设计。

5、1) 对于与存放 DW 的数据库系统相同的数据源处理方法这类数据源在设计上比较容易处理。一般情况下,DBMS (Mysql、 SQLServer)都会提供数据库连接功能,在DW数据库服务器和原业 务系统之间建立直接的连接关系,接下来就可以写查询语句直接访 问。2) 对于与存放 DW 的数据库系统不同的数据源处理方法对于这类数据源,一般情况下也可以通过ODBC的方式建立数据 库连接。如果不能建立数据库连接,可以用两种方法完成,一种是通 过工具将数据源导出成 .txt 或者 .xls 文件,然后再将这些源系统文件导入到 ODS 中。另一种方法是通过程序接口来完成。3)对于文件类型数据源(.txt/

6、.xls)业务人员可以利用数据库工具将这些数据导入到指定的数据库, 然后从指定的数据库中抽取。或者业务人员借助工具实现。4)增量更新问题对于数据量大的系统,必须考虑增量抽取。一般情况,业务系统会记录业务发生的时间,可以用作增量的标 志,每次抽取之前首先判断 ODS 中记录最大的时间,然后根据这个 时间去业务系统取大于这个时间的所有记录。2.2.2数据清洗转换一般情况下,数据仓库分为ODS、DW两部分。通过的做法是从业务系统到 ODS 做清洗,将脏数据和不完整数据过滤掉,再从 ODS 到 DW 的过程中转换,进行一些业务规则的计算和聚合。1)数据清洗数据仓库的数据源所提供的数据内容并不完美,存在

7、着“脏数 据” 即数据有缺省值、异常值等缺陷,而且在数据仓库的各数 据源之间,其内容也存在着不一致的现象。 为了控制这些“脏数据”对数据仓库分析结果的影响程度,必须采 取各种有效的措施,对其进行处理,这一处理过程称为“数据清洗” (Data Transform)。对于任何数据仓库而言,数据清洗过程都是不可缺少的。不同类 型的 “脏数据” ,清洗处理的方法是不同的。对于缺省值:产生的原因可能是,信息暂时无法获取、信息被遗 漏、属性值不存在,比如一个儿童的固定收入等。解决方法是,通过简单的统计分析,得到含有缺失值的属性个数, 以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、 对可能值

8、进行插补和不处理三种情况。对于异常值:产生的原因可能是:业务系统检查不充分。解决方 法是,先对变量做一个描述性统计,进而查看哪些数据是不合理的。 最常用的统计量是最大值和最小值,然后判断变量是否超过了合理的 范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定 值中与平均值的偏差超过 3 倍标准的值,如果不符合正态分布,也 可以用原理平均值的多少倍标准差来描述。对于不一致值:产生的原因可能是:被挖掘的数据是来自不同的 数据源、对于重复性存放的数据未能进行一致性更新造成。 例如:两张表中都存储了用户电话号码,但在用户的号码发生改变时 只更新了一张表中的数据,那么两张表中就有了不一致的数

9、据。解决办法是,注意数据抽取的规则,对于业务数据变动的控制应 该保证数据仓库中数据抽取是最新数据。数据清洗是一个反复的过程,不可能在几天内完成,只有不断的 发现问题,解决问题。对于是否过滤、是否修正一般要求客户确认;寸于过滤掉的数据, 写入Excel文件或者将过滤数据写入数据表,在ETL开发的初期可 以每天向业务单位发送过来数据的邮件,促使他们尽快的修正错误, 同时也可以作为将来验证数据的依据。数据清洗需要注意的是不要将有用的数据过滤掉了,对于每个过 滤规则认真进行验证,并要用户确认才行。2)数据转换数据转换的任务主要是进行不一致的数据转换、数据粒度的转换 和一些商务规则的计算等。不一致的数据

10、转换:这个过程是一个整合的过程,将不同业务 系统的相同类型的数据统一,比如同一个用户在用户管理系统的 编码是XX0001,而在订单系统的编码是YY0001,这样在抽取 过来之后统一转换成一个编码;数据粒度的转换:业务系统一般存储粒度较小的数据,而数据 仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况 下,会将业务系统数据按照数据仓库粒度进行聚合;商务规则的计算:不同的企业有不同的业务规则,不同的数据 指标,这些指标有时候不能简单的加加减减就能完成,这个时候 需要在ETL中将这些数据指标计算好了之后存储在数据仓库中, 供分析使用。2.3元数据所谓“元数据”(MetaData),就是关于数

11、据仓库中数据的数 据。它是关于数据仓库中数据、操作数据以及应用程序的结构和意 义的描述信息。它的作用类似于数据库管理系统的数据字典,保存了 逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构 和建立方法的数据。元数据是整个数据仓库的核心部件,元数据管理器是企业级数据 仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据 仓库的构建、使用和维护。将数据仓库功能区域包括数据获取、数据存储和信息传递三个部 分,按照这三个功能区域可以相应地将元数据分为数据获取区域元数 据、数据存储区域元数据和信息传递区域元数据。2.3.1 数据获取区域元数据在这个区

12、域中,数据仓库的处理过程主要包括数据抽取、数据转 换、数据清洗、数据集成、数据准备五项功能。这些处理过程是通过相应的工具完成的,在这些处理过程进行 时,相应的工具就记录下了与这些处理相关的元数据。在以后的数据 仓库维护和管理过程中,技术人员也将使用这些已记录下来的元数据 管理和监控正在运行的功能。2.3.2 数据存储区域元数据在这个区域中,数据仓库的处理过程主要包括数据装载、数据存 储、数据管理三项功能。这些处理过程同样是通过相应的工具完成的,在这些处理过程进 行时,相应的工具就记录下了与这些处理相关的元数据。数据仓库的管理员在进行完全数据刷新和数据增量装载中会用 到这些元数据;在数据备份、恢

13、复的处理中,以及对数据仓库的清理 和数据定期归档中也需要用到这些元数据。对用户来说,也有可能用 到这些元数据。2.3.3 信息传递区域元数据在这个区域中,数据仓库的处理过程主要包括报表生成、查询处 理、复杂分析三项功能。信息传递区域的处理过程主要是为最终用户服务的,所记录的元 数据为用户提供预定义查询和预定义报表解疑,定义了用户查询和报 表生成需要输入的相关参数,也包括与OLAP相关的元数据,系统的 开发者和管理员都会参加这个区域的处理过程。在该区域中,当用户在查询处理工具的辅助下构建一条查询时也会引用数据获取区域和数据存储区域中记录的元数据。故样存fifiit理MJE转尊.釈适存曹、啟弼皆區

14、氐条王民、扁分折5CH0J貌遐玄届欧曲臭且杼It影垫 氓遇迂Bi!S书丑口 目拘阵肉氐區 覘雄&融雌丸辭舀准帝区増故更著沟馥擢曲取舟址削fl理到目忖陣的:K元影皓裘毘馥摑1!眾凱甲色尅撞内客的据甕締定宜疏砖库虫酬!SSKHi斛ItDSSLifiKI冃闻事删刁啞目押阵曲u卒玄.尊y_-4_._._J.-啟据汇启.厲対故赵弄頁爭J*嚴据犀越斛IttBB毎翻剳罔业务朋=8車堆的冃西童沟事博31前直韵EiOIHAifc出施嘗删嘉冃塚位務JW曼JOLP0. 元曲禧类世元数据定义了数据仓库中的数据的模式、来源、抽取和转换规则 等,而且是整个数据仓库系统运行的基础,元数据把数据仓库系统中 各个松散的组件联系

15、起来,组成了一个有机的整体。2.4数据集市数据集市(Data Market, DM)是为企业特定部门的决策支持而组织起来的一批数据和业务规划。它是一种小型的、部门级数据仓库,习惯上称之为“主题域”企业的不同部门有不同的“主题域”,因而就有不同的数据集市。数据集市有两种类型:独立型数据集市(Independent Data Mart)和从属型数据集市(Dependent Data Mart)。独立型数据集市的实质,是为了满足企业内各部门的分析需求而 建立的微型数据仓库。有些企业在实施数据仓库项目时,为了节省投资,尽快见效,针 对不同部门的需要,分布建立起这类数据集市,已解决一些较为迫切 的问题。但是,当多个独立的数据集市增长到一定规模后,由于没有统一 的数据仓库协调,企业只会又增长出一些新的信息孤岛,仍然不能以 整个企业的视角来分析数据。从属型数据集市的内容并不直接来自外部数据源,而是从数据仓X-1F抽取与清理库中得到。在数据仓库内部,数据根据分析主题,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号