数据仓库的数据模型、数据组织、数据仓库设计(学时2)

上传人:pu****.1 文档编号:567668120 上传时间:2024-07-22 格式:PPT 页数:70 大小:810KB
返回 下载 相关 举报
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第1页
第1页 / 共70页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第2页
第2页 / 共70页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第3页
第3页 / 共70页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第4页
第4页 / 共70页
数据仓库的数据模型、数据组织、数据仓库设计(学时2)_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《数据仓库的数据模型、数据组织、数据仓库设计(学时2)》由会员分享,可在线阅读,更多相关《数据仓库的数据模型、数据组织、数据仓库设计(学时2)(70页珍藏版)》请在金锄头文库上搜索。

1、樟乃雁帝槛玻傀叙麦肥例棕哀祸距锰晾拥涧赴甄亚犬话郴支书冰爵篱练惠数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库与数据挖掘数据仓库与数据挖掘 (DATA WAREHOUSING AND DATA MINING) 石家庄铁道大学石家庄铁道大学 霖千醋那盛绵底绑犀效糖修鉴宜墒豌鲁郑哦毙握儡宦须釉准来闸嚣尾挺味数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)DW&DM内内 容容第第2章章 数据仓库的数据模型数据仓库的数据模型第第3章章 数据仓库的数据组织数据仓库的数据组织第第4章章

2、 数据仓库设计数据仓库设计脑植碌屠教旬夫妙育秃蜗循酮拳样虑迸坤诬骤围衍弛贤树铁呼刷甜旅融闷数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM第第2章章 数据仓库的数据模型数据仓库的数据模型本章要点本章要点数据仓库的概念模型:信息包图数据仓库的概念模型:信息包图数据仓库的逻辑模型:星型图、雪花模型数据仓库的逻辑模型:星型图、雪花模型数据仓库的物理模型数据仓库的物理模型兹措潦哺包尼蚀铂辑馒秆弹饲谨焚诞巧绍凝倍彝占俊拘侠蔽墩肺机长串睬数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数

3、据仓库设计(学时2)7/22/2024-DW&DM数据仓库的数据模型数据仓库的数据模型 与数据库系统数据模型的区别与数据库系统数据模型的区别n数据仓库的数据模型中不包含纯操作型数据。数据仓库的数据模型中不包含纯操作型数据。n数据仓库的数据模型扩充了键结构,增加了时间属性作为数据仓库的数据模型扩充了键结构,增加了时间属性作为键的一部分。键的一部分。n数据仓库的数据模型中增加了一些面向主题的导出数据。数据仓库的数据模型中增加了一些面向主题的导出数据。涯扯侨壤扯茬邱厢差叼妻祝函街誉淬酪隆原彰蹄盔蒙允肚缀暗寻咖秩菠联数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据

4、仓库设计(学时2)7/22/2024-DW&DM 星型图模型星型图模型 物物理理数数据据模模型型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细 化化层层次次更详细的更详细的技术细节技术细节数据仓库的数据模型数据仓库的数据模型信息包图信息包图绰渐块西澡答害彭滚课邦瞬思瑞缎会夯协绸逼骚扛楚岳暖栋甥臣拾精而纹数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM信息包图(概念模型)信息包图(概念模型)n信息包图信息包图:是数据仓库的数据模型的第一层或最高层。由于:是数据仓库的数据模型的第

5、一层或最高层。由于大多数商务数据是大多数商务数据是多维多维的,但传统的数据模型表示三维以的,但传统的数据模型表示三维以上的数据有一定困难。而信息包图简化了这一过程并且允上的数据有一定困难。而信息包图简化了这一过程并且允许用户设计多维信息包并与开发者和其他用户建立联系。许用户设计多维信息包并与开发者和其他用户建立联系。这种模型集中在用户对信息包的需要,信息包提供了分析这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。人员思维模式的可视化表示。n工作:工作:n确定确定系统边界系统边界:决策类型、需要的信息、原始信息:决策类型、需要的信息、原始信息n确定确定主题域主题域及其

6、内容:主题域的公共键、联系、属性组及其内容:主题域的公共键、联系、属性组n确定确定维度维度:如时间维、销售位置维、产品维、组别维等:如时间维、销售位置维、产品维、组别维等n确定确定类别类别:相应维的详细类别:相应维的详细类别n确定确定指标和事实指标和事实:用于进行分析的数值化信息:用于进行分析的数值化信息率驱蛊膛摇样潦翅亢件江苯芬螟镍逛箕限厉抄陵惠疮业尺挑乳部亢箱噪御数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM信息包:信息包: 维度维度类别类别 空白信息包图样式空白信息包图样式指标和事实指标和事实维墒缮和

7、凡圃哑筏使绎咐匆仗寒茨杠用隐娜戚扛躺秆摸宠鞭咋蜕艾牟董诫数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM解:首先根据销售分析的实际需求,确定信息包的维度、类别解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实:和指标与事实:(1)维度:维度:包括日期维、销售地点维、销售产品维、年龄组包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。别维、性别维等。(2)类别:类别:确定各维的详细类别,如:日期维包括年(确定各维的详细类别,如:日期维包括年(10)、)、季度(季度(40)、月()、月(1

8、20)等类别,括号中的数字分别指出)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(各类别的数量;销售地点维包括国家(15)、区域()、区域(45)、)、城市(城市(280)、区()、区(880)、商店()、商店(2000)等类别,括号)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。售产品、年龄组别维、性别维等的详细类别。(3)指标和事实:指标和事实:确定用于进行分析的数值化信息,包括预确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。测销售量、实际销

9、售量和预测偏差等。 例试画出销售分析的信息包图例试画出销售分析的信息包图左赏挪母檀龙舌记趾猜皆损墒峙阅鹿憎粱遥迈闺宙乳辛溪铬楚律轨穴腑娇数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM销售分析的信息包图销售分析的信息包图日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实指标和事实:预测销售量、实际销售量、预测偏差预测销售量、

10、实际销售量、预测偏差信息包:信息包: 销售分析销售分析维度维度类别类别捅层攻霹携丛曲格绍庆吨扶垄抱纺双淋八泰寸苹戴吟鸦屈磷旁栋篆旱疤腿数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM星型图模型(逻辑模型)星型图模型(逻辑模型)n星型图:星型图:数据仓库的数据模型的第二层是向最终的数据数据仓库的数据模型的第二层是向最终的数据结构添加某些细节的星型图模型。结构添加某些细节的星型图模型。n与传统的关系模型相比,星型图模型简化了用户分析所与传统的关系模型相比,星型图模型简化了用户分析所需的关系,从支持决策的角度去定义

11、数据实体,更适合需的关系,从支持决策的角度去定义数据实体,更适合大量复杂查询。大量复杂查询。n星形图包括了三种逻辑实体:星形图包括了三种逻辑实体:指标、维度、详细类别指标、维度、详细类别 芒雏珠翟娘贵潞庇疯玫摘契吗轮氧为裴榴畜柬阳测技虽翠狈仔媚脸毛贾疼数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 例销售分析的星型图模型。例销售分析的星型图模型。日期维日期维产品维产品维地区维地区维代理商维代理商维其他维其他维销售分析销售分析实际销售实际销售预测销售预测销售预测偏差预测偏差在星型图中,通过维度实体获得指标实体

12、数据。指标实体与维在星型图中,通过维度实体获得指标实体数据。指标实体与维度实体间的联系通过每个维度中的最低层的详细类别实体连接。度实体间的联系通过每个维度中的最低层的详细类别实体连接。抄疥胁探拎喀彬潜电卢已础抚累敬墓肥劝嘱喻板辖度阶瓤终池沃袄氰惟斩数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DMn在很多情况下,维度实体还要向外延伸至详细类别实体,在很多情况下,维度实体还要向外延伸至详细类别实体,或者说,详细类别实体是维度实体的附加信息,是维度或者说,详细类别实体是维度实体的附加信息,是维度实体的扩展,说明了维

13、度实体间的关系。这种在维度实实体的扩展,说明了维度实体间的关系。这种在维度实体上扩展详细类别实体的星形图称为体上扩展详细类别实体的星形图称为雪花图雪花图。东迂荷阜艺船添殃田哎国蹲衰第江钓险丹盆急翠逃幂汛秒兵掺状占猿悔凿数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM雪花图模型(逻辑模型)雪花图模型(逻辑模型)n雪花模型雪花模型包括了三种逻辑实体:指标、维度、详细类别。包括了三种逻辑实体:指标、维度、详细类别。n雪花模型通常由一个很大的中心表(雪花模型通常由一个很大的中心表(指标指标表)和一组较小的表)和一组较

14、小的表(维表)组成。雪花模型的表(维表)组成。雪花模型的指标指标表与所有的维表都要进行表与所有的维表都要进行连接。连接。 日期维日期维产品维产品维地区维地区维代理商维代理商维其他维其他维销售分析销售分析实际销售实际销售预测销售预测销售预测偏差预测偏差年、月、日年、月、日国家、地区、城市国家、地区、城市类别、型号、产品名称类别、型号、产品名称城市、区、名称城市、区、名称来桨熟国酿昭观长根从炒仰器掣椰酉旋岛坚裴譬赖仗捉夫拙媚沙厩晴烃磁数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM物理模型物理模型n物理数据模型:

15、数据模型的第三层,它是星型图模型在数物理数据模型:数据模型的第三层,它是星型图模型在数据仓库中的实现,如物理的存取方式、数据存储结构等。据仓库中的实现,如物理的存取方式、数据存储结构等。n在物理设计时,常常要按数据的重要程度、使用频率以及在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响

16、应时间要求低的数据则可以放在低速存储设低或对存取响应时间要求低的数据则可以放在低速存储设备上。备上。炙坦妙脱郎住馅知臻饼嫡灼绝怎畴滓祝何武涯低乍扣黎廖嚣宅呵录哉燥磊数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM第第3章章 数据仓库的数据组织数据仓库的数据组织本章要点本章要点数据仓库中的数据组织数据仓库中的数据组织 粒度与分割粒度与分割数据仓库的数据追加数据仓库的数据追加浑根赛秸簿化氨菌掸譬氯还胡嘿埋毋媳疚雕扶干躬蚤百祈策泥悟涅兽体车数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据

17、组织、数据仓库设计(学时2)7/22/2024-DW&DMn数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n早期细节级早期细节级n当前细节级当前细节级n轻度综合级轻度综合级n高度综合级高度综合级n粒度:数据的不同综合级别粒度:数据的不同综合级别n粒度越大、表示细节程度越低、综合程度越高。粒度越大、表示细节程度越低、综合程度越高。n级别的划分是根据粒度进行的级别的划分是根据粒度进行的数据仓库中的数据组织数据仓库中的数据组织滔禁侮拯敬烽侈掖惕舀幕于降拎迅砍揩捕谁计肌作斑镭辛典疼浊蠕仍焦惮数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据

18、仓库设计(学时2)7/22/2024-DW&DM 数据仓库的数据组织结构数据仓库的数据组织结构高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级抛绢恤泄虞尧凡较蛰鞭汐斧牢壮芬废剑评啦厢办像乡司潜抬耸郎靖览再擦数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 数据仓库的数据组织结构数据仓库的数据组织结构 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1996-2004年年 每月销售表每月销售表1996-2004年年每周销售表每周销售表1996-20

19、04年年销售明细表销售明细表1990-1995年年销售明细表销售明细表 履睡娶宠伊绳悸嫁羞龋蝎婿拳职问锨蜕咳惨素锄噶先储臻欧抓帕情畔兵浊数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n粒度粒度问题是设计数据仓库的一个最重要方面。问题是设计数据仓库的一个最重要方面。n粒度是指数据仓库的数据单位中保存数据的细化或综合粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。程度的级别。n细化程度越高,粒度级就越小;相反,细化程度越低,细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度级就越大

20、。n在数据仓库环境中粒度之所以是主要的设计问题,是因在数据仓库环境中粒度之所以是主要的设计问题,是因为它深深地影响存放在数据仓库中的数据量的大小,同时为它深深地影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答的查询类型。影响数据仓库所能回答的查询类型。n需要在数据仓库中的数据量大小与查询的详细程度之间需要在数据仓库中的数据量大小与查询的详细程度之间要作出权衡。要作出权衡。粒度粒度 品呼瞩腔症镇运床苞过栽类驭呀壮暖珠显抖玻犯狐催镰拭茅恕蘑沿遵埠艰数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024- 1. 粒度粒度

21、粒粒度度的的一一个个例例子子确定粒度级是数据仓库环确定粒度级是数据仓库环境中最重要的设计问题境中最重要的设计问题瑶奎擒淖镣涡击青叙蚁催瞄摧牲蔫宝因耽皇安颜悍椅滇爹托儡鞍觅淫霸册数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n该图的左边是一个低粒度级,每一次电话都被详细记录下该图的左边是一个低粒度级,每一次电话都被详细记录下来,每个顾客平均有来,每个顾客平均有2 0 02 0 0条记录,每个记录条记录,每个记录2 0 02 0 0个字节,个字节,因而总共需要因而总共需要40 00040 000个字节。个字节

22、。n该图的右边是一个高粒度级。数据代表一位顾客一个月的该图的右边是一个高粒度级。数据代表一位顾客一个月的综合信息,每位顾客一个月只有一个记录,这样的记录大约综合信息,每位顾客一个月只有一个记录,这样的记录大约只需只需2 0 02 0 0个字节。个字节。n显然,用高粒度级表示数据将比用低粒度级表示数据的效显然,用高粒度级表示数据将比用低粒度级表示数据的效率空间要高得多。率空间要高得多。n高粒度级不仅只需要少得多的字节存放数据,而且只需要高粒度级不仅只需要少得多的字节存放数据,而且只需要较少的索引项。较少的索引项。泪扇献棵燕试抗咱涅阎霸史尹尼千坊米斜义栽颇叔滞戏潭力滔鼠逼旗测祥数据仓库的数据模型、

23、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n但是,当提高粒度级时,会出现另一个问题。即当提高数但是,当提高粒度级时,会出现另一个问题。即当提高数据粒度级时据粒度级时, ,数据所能回答查询的能力就会随之降低。数据所能回答查询的能力就会随之降低。n换句话说换句话说, ,在一个很低的粒度级上实际可以回答任何问题在一个很低的粒度级上实际可以回答任何问题, ,但在高粒度级上但在高粒度级上, ,数据所能处理的问题的数量是有限的。数据所能处理的问题的数量是有限的。n在设计和构造数据仓库之初就必须仔细考虑这种权衡。在设计和构造数据仓库之

24、初就必须仔细考虑这种权衡。闷表龄侮奔拜峪号芳琢森恰曾邓订民囚怪利淆罗扒茫转当辱倘德啸友强鳃数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 1. 粒度粒度粒度级对能回答什么问题和回答粒度级对能回答什么问题和回答问题所需什么资源有深刻的影响问题所需什么资源有深刻的影响袭昌算侄摸渣幢聂栅箭缅当昔文不拉宝攘住郎改哄寞馆泞怯败搂绑轨肿兜数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 粒度的权衡是首要的,所以大多数组织的粒度的权衡是

25、首要的,所以大多数组织的最佳解决办法是采用多重粒度级的形式最佳解决办法是采用多重粒度级的形式 1. 粒度粒度顷咋票曾若潍虑守色姚舔雌扔姜污密弗垫副沉摧垣伊荣篙娥瞳匿视拢秧二数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n很多时候,十分需要提高存储与访问数据的效率,以及非很多时候,十分需要提高存储与访问数据的效率,以及非常详细地分析数据的能力。当一个企业或组织的数据仓库中常详细地分析数据的能力。当一个企业或组织的数据仓库中拥有大量数据时,在数据仓库的细节部分考虑拥有大量数据时,在数据仓库的细节部分考虑双重双

26、重( (或多重或多重) )粒度级粒度级是很有意义的。是很有意义的。n一个电话公司的一个电话公司的 “双重双重”粒度级的设计,能满足大多数粒度级的设计,能满足大多数机构的需要。在操作层是大量的细节,其中大部分细节是为机构的需要。在操作层是大量的细节,其中大部分细节是为了满足结帐系统的需求。多达了满足结帐系统的需求。多达3 03 0多天的细节存放在这种操多天的细节存放在这种操作层中。作层中。n在这个例中的数据仓库包括两种类型的数据:轻度综合数在这个例中的数据仓库包括两种类型的数据:轻度综合数据和据和“真实档案真实档案”细节数据。细节数据。粒度的双重级别粒度的双重级别拉尤壶客毙枝闸鸥斟迎萝营湃翅胎募

27、螟随虏交横卸短屋按倡寓抨闺羽砚妄数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n当数据从操作型环境当数据从操作型环境( (存储存储3030天的数据天的数据) )载入时,它就被综载入时,它就被综合成可能用于合成可能用于DSSDSS分析的数据域。分析的数据域。n例如:例如:JonesJones的记录显示她每月打电话的次数、每个电话的记录显示她每月打电话的次数、每个电话的平均长度、长途电话的次数、接线员帮助呼叫的次数,等的平均长度、长途电话的次数、接线员帮助呼叫的次数,等等等。总脾茧翔蕾谊羞支噬搜制就况霓晃林诊

28、瓜早酱览炭电终杨非胺柏花惹划脉数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 1. 粒度粒度督瑶撂鄂刺篡衰捷争型唬柒休奉调展译娥渣的始荚灯愿吸铝浸犬彤冯豪尾数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n样本数据库样本数据库:另一种改变数据粒度的方法另一种改变数据粒度的方法n根根据据采采样样率率的的高高低低来来划划分分粒粒度度:以以一一定定的的采采样样率率从从细细节数据或轻度综合数据中抽取的一个子集节数据或轻度综合数据

29、中抽取的一个子集n用处:代替源数据进行模拟分析用处:代替源数据进行模拟分析n抽样的方法:随机抽取抽样的方法:随机抽取n优点:优点:高效率高效率源数据量很大的情况下,抽样数据可以大大下降源数据量很大的情况下,抽样数据可以大大下降 分析结果误差极小分析结果误差极小有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾样本数据库样本数据库纪沦盎五请正菠酥悄发浑铲骏块晃愿沪倾额图熬屯淑泽樊箕习芬酪跟轧联数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n在某些情况下在某些情况下( (如人口统计分析如人口统计分析)

30、),样本数据库是非常有,样本数据库是非常有用的。用的。n但是对使用样本数据库有一些苛刻的限制。除非设计者但是对使用样本数据库有一些苛刻的限制。除非设计者知道这些限制,否则就不应该创建这种数据库以作为数知道这些限制,否则就不应该创建这种数据库以作为数据仓库的一部分。据仓库的一部分。n样本数据库不是通用的数据库。假如想知道样本数据库不是通用的数据库。假如想知道“JonesJones是是不是顾客?不是顾客?” 不要在样本数据库中找这条信息。完全可不要在样本数据库中找这条信息。完全可能能JonesJones是一个顾客,但她不在样本数据库的记录中。是一个顾客,但她不在样本数据库的记录中。n样本数据库适用

31、于作统计分析和观察发展趋势。样本数据库适用于作统计分析和观察发展趋势。俞塔咙篱甚包沧狠迪钳各颅应慧乳竣虞驱馋恋托锦洞嘛褐星阑狱乖磁穗扼数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n当数据必须以整体观察时,样本数据库能提供非常理当数据必须以整体观察时,样本数据库能提供非常理想的结果,但决不适用于处理单个的数据记录。想的结果,但决不适用于处理单个的数据记录。n样本记录的选取一般是随机的,必要时可采用一个样本记录的选取一般是随机的,必要时可采用一个“判断样本判断样本” ( (即记录必须达到一定标准才能被选中即

32、记录必须达到一定标准才能被选中) )。判断样本所带来的问题是会使样本数据具有某种偏差,判断样本所带来的问题是会使样本数据具有某种偏差,随机抽取数据带来的问题是可能无法进行统计。随机抽取数据带来的问题是可能无法进行统计。n无论如何,数据是选择作为样本的,所以在样本数据无论如何,数据是选择作为样本的,所以在样本数据库中找不到任何给定的记录这一事实是说明不了任何问库中找不到任何给定的记录这一事实是说明不了任何问题的。题的。盐惊奉圃绕才捎驮供章壕诺起乌疚流悼鼓呀苗佣娶惨则维瞪掸窝汁爬产番数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2

33、024-DW&DM n分割分割是数据仓库中数据的第二个主要的设计问题是数据仓库中数据的第二个主要的设计问题( (在粒在粒度问题之后度问题之后) ),数据分割是指把数据分散到各自的物理单,数据分割是指把数据分散到各自的物理单元中去,它们能独立地处理。元中去,它们能独立地处理。n在数据仓库中,围绕分割问题的焦点不是该不该分割而在数据仓库中,围绕分割问题的焦点不是该不该分割而是如何去分割的问题。是如何去分割的问题。n对当前细节数据进行分割的总体目的是把数据划分成小对当前细节数据进行分割的总体目的是把数据划分成小的物理单元。的物理单元。n数据分割为什么如此重要呢?因为小的物理单元能为操数据分割为什么如

34、此重要呢?因为小的物理单元能为操作者和设计者在管理数据时提供比对大的物理单元更大作者和设计者在管理数据时提供比对大的物理单元更大的灵活性。的灵活性。分割分割 宁橙缀嵌裁棱普纵撬兢贮琴哇窝膝霹酵刊触尹自溅页窟剖隙垃杂老事脓立数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n分割之后有以下优点:分割之后有以下优点:n容易重构;容易重构;n自由索引;自由索引;n顺序扫描顺序扫描( (若需要若需要) );n容易重组;容易重组;n容易恢复;容易恢复;n容易监控。容易监控。硼熙油忘猩玄獭魄往舶伦阵发磋狭纯奴盎伞净刮捧汾

35、厘崎笨嘿望泽腆君吠数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n简单地说,数据仓库的本质之一就是灵活地访问数据。简单地说,数据仓库的本质之一就是灵活地访问数据。如果是大块的数据,就达不到这一要求。因而,对所有当如果是大块的数据,就达不到这一要求。因而,对所有当前细节的数据仓库数据都要进行分割。前细节的数据仓库数据都要进行分割。n分割数据的准确含义是什么呢?当结构相同的数据被分分割数据的准确含义是什么呢?当结构相同的数据被分成多个数据物理单元时,数据便被分割了。此外,任何给成多个数据物理单元时,数据便被分

36、割了。此外,任何给定的数据单元属于且仅属于一个分割。定的数据单元属于且仅属于一个分割。藐原收彪猿限皇品摄哨趟满洪讨巩主中每渭陋解废蛤团扮宦舍保晋吁烟盆数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n有多种数据分割的标准。例如,按:有多种数据分割的标准。例如,按:n时间时间n商业线商业线n地理位置地理位置n组织单位组织单位n所有上述标准所有上述标准n数据分割的标准是严格地由开发人员来选择的。然而,在数据分割的标准是严格地由开发人员来选择的。然而,在数据仓库环境中,按日期几乎总是分割标准中的一个必然组数据仓库

37、环境中,按日期几乎总是分割标准中的一个必然组成部分。成部分。汁咕悸跳瘸茫搜钉蒸腋尽熄沏楞委锁残铲毁牌来养清咽淄辣橱晰蒋钨政妒数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n数据追加:数据仓库的数据初装完成后数据追加:数据仓库的数据初装完成后, , 再向数据仓库再向数据仓库输入数据的过程输入数据的过程n追追加加内内容容:上上次次数数据据追追加加后后在在OLTPOLTP数数据据库库中中变变化化了了的的数数据据 n变化数据的捕捉途径变化数据的捕捉途径: :n时标方法时标方法 nDELTADELTA文件文件n前后

38、映象文件前后映象文件n日志文件日志文件数据仓库的数据追加数据仓库的数据追加贵涕崭吕褂唬蝴团崩畔亿缓绿组勒候瞪豪饵灵基穿竣文肝倚豫盂鞘嘉恨葬数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n时时标标方方法法:为为数数据据记记录录增增加加一一个个时时间间字字段段。对对新新插插入入或或更新的数据记录加更新时的时标更新的数据记录加更新时的时标n优点优点n方法简单方法简单n问题问题n许许多多数数据据库库中中的的数数据据并并不不含含有有时时标标,很很难难在在得得到到实实际际应用应用蝗语似功娱各牟宜僳趋髓摘泡弯墅嫩叭悬跌

39、隧喉券妖辞乞宪猖孜藐讥恃盔数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM nDELTADELTA文文件件方方法法:从从应应用用程程序序感感知知数数据据变变化化的的方方法法。由由应应用生成用生成DELTADELTA文件,记录应用所改变的所有内容文件,记录应用所改变的所有内容n优点优点n避免了扫描整个数据库,效率比较高避免了扫描整个数据库,效率比较高n问题问题n一般的应用程序不具有生成一般的应用程序不具有生成DELTADELTA文件的功能文件的功能n更更改改应应用用代代码码,应应用用在在生生成成新新数数据据时时

40、可可自自动动将将其其记记录录下来下来n应用成千上万,且修改代码十分繁琐,很难实现应用成千上万,且修改代码十分繁琐,很难实现关萤爵奸贞黍店涸趴峨遏疲澜昧溶垫类苑尝编牛撕江锯蔫牧举蚊彬师奎到数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n前前后后映映象象文文件件的的方方法法:抽抽取取数数据据到到数数据据仓仓库库之之后后, , 本本次次将将抽抽取取数数据据之之前前,对对数数据据库库分分别别作作一一次次快快照照,比比较较两两幅幅快快照照的不同,确定追加的数据的不同,确定追加的数据n优点优点n方法简单方法简单n问题

41、问题n占用大量资源,影响系统性能,不实用占用大量资源,影响系统性能,不实用渗峦婴卵煌巩芳碳侦疡奠卷杂付烬恢悠膳缩型箭蝉聚锋赌地祷讹栖评逊都数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n日日志志文文件件法法:通通过过分分析析数数据据库库系系统统日日志志文文件件来来获获取取数数据据变变化的情况,得到追加内容。化的情况,得到追加内容。n优点优点n利利用用DBDB的的固固有有机机制制,数数据据只只限限于于日日志志文文件件,不不用用扫扫描描整个数据库整个数据库n缺点缺点n原原来来日日志志文文件件的的格格式式是是依

42、依据据DBDB系系统统的的要要求求设设计计的的。要要进进行行改改进进。如如:对对一一个个记记录录的的多多次次更更新新,日日志志文文件件将将全全部部变变化化过过程程都都记记录录下下来来,而而数数据据仓仓库库,只只要要最最终终结结果果粪宏示趣桌飘臀录咎阐意霖轨绚轿骚虚锑九绸惟汝停敞饭置反料灌起轮诵数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM第第4章章 数据仓库设计数据仓库设计本章要点本章要点数据仓库的设计原则数据仓库的设计原则 数据仓库的设计步骤数据仓库的设计步骤数据仓库生成数据仓库生成数据仓库的使用与维护数

43、据仓库的使用与维护敢染讥掉托萌擦漂残篙灌辗硕渡慎姆犊辫巴傅碑彬汲酵邱砾髓劣锹颧逾喉数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 数据仓库设计数据仓库设计n事务型事务型数据处理中需要作数据处理中需要作数据库设计数据库设计,而在,而在分析型分析型数据数据处理中则需作处理中则需作数据仓库设计数据仓库设计,这两者在原理上是一致的。,这两者在原理上是一致的。n因此,数据库设计中的很多设计思想与方法都可在数据因此,数据库设计中的很多设计思想与方法都可在数据仓库中得到应用。仓库中得到应用。n但是由于事务型与分析型的但是

44、由于事务型与分析型的数据处理的不一致数据处理的不一致,因此两,因此两者在设计中的很多方面也存在着者在设计中的很多方面也存在着差别差别。锥哄豁蒂积泉骚韵逾验谜破有掇爷搅叶舀折峨填殊独砸连凡蚁忌笋央上铜数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n面向面向OLTPOLTP的数据的数据库设计有着有着明确的明确的应用需求用需求,严格遵格遵循系循系统生命周期的生命周期的阶段划分,每个段划分,每个阶段都段都规定有明确定有明确的任的任务,上一,上一阶段确定的任段确定的任务完成后,完成后,产生一定格式生一定格式的文档交

45、的文档交给下一下一阶段。段。n数据仓库是面向主题的、集成的、不可更新的、随时数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的系统设计不能采用同开发传统的OLTP数据库一样的设数据库一样的设计方法。计方法。使溉佛坪磨侧域乖容稿之门允卡吓档秤濒次阶器暑凛蓬燃贰虎堆巷蔫峦铆数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别n系系统设计的的

46、目目标不同:不同:数据数据库是是面向事面向事务型型处理理的,所以的,所以事事务型型处理性能是系理性能是系统设计的一个主要目的一个主要目标。而。而数据数据仓库是是为了了支持决策分析支持决策分析而建立的一种数据存而建立的一种数据存储集合,在系集合,在系统设计时,更关心的是建立起一个全局一致的分析型,更关心的是建立起一个全局一致的分析型处理理环境来支持企境来支持企业的决策分析。的决策分析。责让忻连架钉罗止灾挛府咋狙郴种旦烈宰北锥咬溯椰杯痈音啊砧杂准函电数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的设计数

47、据仓库的设计与数据库设计的区别与数据库设计的区别(Cont.)n面向的面向的需求需求不同:不同:数据数据库系系统是是面向面向应用用的,所以在系的,所以在系统设计时应以此以此为出出发点和基点和基础。而在。而在决策分析决策分析时,决策者,决策者分析分析问题的角度多种多的角度多种多样,所以数据,所以数据处理流和信息流不固理流和信息流不固定,甚至决策者定,甚至决策者对所要所要进行的分析行的分析处理都不太明了,数据理都不太明了,数据的分析的分析处理的需求更灵活。理的需求更灵活。这就决定了在数据就决定了在数据仓库系系统设计时,不可能从用,不可能从用户需求出需求出发来来进行行设计。魔腮湍稿频森录阜曼夸谭成钳

48、市垛走曾惦莫肯爆茧快悔借鸭稳焙装矩啼乞数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(Cont.)n数据来源数据来源不同:不同:数据数据库系系统中数据是从企中数据是从企业外部通外部通过输入得入得到的,所以系到的,所以系统设计时就是就是设计如何与外部如何与外部对话得到数据,得到数据,如何存如何存储这些数据,它些数据,它关心的是数据的安全性和完整性关心的是数据的安全性和完整性等。等。数据数据仓库中的数据大部分是从企中的数据大部分是从企业内部的数据内

49、部的数据库系系统得到的,得到的,还有一部分是企有一部分是企业外部的非外部的非结构化数据,构化数据,这些数据都是安全些数据都是安全可靠且正确有效的,所以在系可靠且正确有效的,所以在系统设计时它关心的不是数据的它关心的不是数据的安全性和完整性,而安全性和完整性,而是数据的一致性是数据的一致性。棍赣度堂酋素约搽姚肚裔中域辛戊峡扑扑氰瞒碧恬退锯凑娃漂罢帚杉让汝数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区别(Cont.)n数据的数据的处理理类型型不同:不

50、同:数据数据库系系统支持的是事支持的是事务型型处理,理,主要指数据的主要指数据的增、增、删、改、改、查等等,系等等,系统设计时都是都是针对某一具体某一具体应用。用。数据数据仓库是面向分析的,它的数据是面向分析的,它的数据处理大理大都是都是对数据的数据的复复杂查询,所以在,所以在设计时考考虑的是如何更好的是如何更好地面向主地面向主题等。等。疵疤唾俯确厩知紊墨钩伯吻窿皿窗监养兔刘盅捷本腺球盏闲等厅勤版蠢质数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的设计数据仓库的设计与数据库设计的区别与数据库设计的区

51、别(Cont.)n设计方法方法不同:由于在不同:由于在数据数据库系系统中中业务过程和程和规则比比较规范固定,系范固定,系统设计人人员能清楚的知道能清楚的知道应用需求和数据流用需求和数据流程,所以系程,所以系统设计一般采用一般采用系系统生命周期法生命周期法(Systems (Systems Development Life Cycle Development Life Cycle ,SDLC)SDLC)。在决策分析。在决策分析时,决策,决策人人员往往无法往往无法给决策需求一个决策需求一个规范的范的说明,只能明,只能给出一个出一个模糊的描述,模糊的描述,对这种需求不确定的开种需求不确定的开发过程,

52、程,设计方法有方法有很大的不同,采用与很大的不同,采用与SDLCSDLC相反的相反的CLDSCLDS法。法。( (注注: CLDS: CLDS没有具没有具体意体意义, ,只是字母排列只是字母排列顺序与序与SDLCSDLC相反相反。SDLCSDLC起始于需求,起始于需求,CLDSCLDS起始于数据起始于数据。) ) 这皮酒鬃躲焉乘绅磊挣快徘搁晤哟愧寿卡痹脑腐旧腔赢装较括箔动胸砂往数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024- 收集应用需求 分析应用需求 构建数据库 数据仓库建模 数据获取与集成 构建数据仓库 系统实施

53、应用编程 系统测试 DSS应用编程 系统测试 理解需求DB应 用B应 用ADBDB 外部数据DW SDLC方法方法 CLDS方法方法Systems Development Life CycleSystems Development Life Cycle硷挝苍序茨硕联样盂意遇蓉聘泽网豫廊垫呐采咎浚李帅简恕激才贡疹渗当数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM生命周期的比较生命周期的比较SDLCCLDS需求汇总需求汇总实现实现分析分析集成数据集成数据设计设计偏差测试偏差测试编程编程针对数据的编程针对数据的编

54、程测试测试分析结果分析结果集成集成理解需求理解需求论校知列迫饺淖锋起乞棍湍炬睦赂仙降脐斑车脸迈誊愚撞宏竟沼由史签苯数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库设计的技术要求数据仓库设计的技术要求n对大量数据的大量数据的组织和管理和管理。数据。数据仓库中包含了大量的中包含了大量的历史史数据,它是一段数据,它是一段较长时间内的数据。另外,数据内的数据。另外,数据仓库中的中的数据是从数据数据是从数据库中提取得来的,所以不必关心它的数据安中提取得来的,所以不必关心它的数据安全性和数据完整性,它要求全性和数

55、据完整性,它要求进行大量数据的行大量数据的组织与管理。与管理。n支持高性能的复支持高性能的复杂分析分析。复。复杂分析分析时通常涉及大量数据的通常涉及大量数据的聚集、聚集、综合合等,在等,在进行复行复杂查询时经常会使用常会使用多表的多表的联接、接、累累计、分、分类、排序、排序等操作,等操作,这对数据数据仓库基于的数据基于的数据库系系统的性能特的性能特别是并行是并行处理能力提出了挑理能力提出了挑战。甚臣扒王土沥嘛虽茵礁住钵唬幼醉闪动红抛勺旅保氧肠晰挎碗价眩褒暖贼数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据

56、仓库设计的技术要求数据仓库设计的技术要求(Cont.)n对提取出来的数据提取出来的数据进行集成行集成。数据。数据仓库中的数据是从多个中的数据是从多个应用用领域中提取出来的,在不同的域中提取出来的,在不同的应用用领域和不同的数据域和不同的数据库系系统中都有不同的中都有不同的结构和形式。如果直接构和形式。如果直接对这些数据些数据进行分析,会得到不同的行分析,会得到不同的结果,所以如何果,所以如何对数据数据进行集成也行集成也是构建数据是构建数据仓库的一个重要方面。的一个重要方面。n对高高层决策的最决策的最终用用户提供工具提供工具。数据。数据仓库只是一个数据只是一个数据存存储的集合,如果没有的集合,如

57、果没有各种分析各种分析应用工具用工具,一个,一个庞大的数大的数据据仓库是毫无意是毫无意义的。的。这些工具的些工具的设计对于开于开发一个完整一个完整的数据的数据仓库及其及其应用体系是至关重要的。用体系是至关重要的。泰泳企坊烽羡证鼓诊肖敏锹演盅七笨炉兼拌皿为劈搬孰羡扁津李靡瞒赃逃数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM n数据数据仓库是是面向主面向主题的的、集成的集成的、不可更新的不可更新的、随随时间的的变化而不断化而不断变化的化的,这些特点决定了数据些特点决定了数据仓库的的系系统设计不能采用同开不能采用

58、同开发传统的的OLTPOLTP数据数据库一一样的的设计方法方法,其设计过程必须遵循下述,其设计过程必须遵循下述三条原则三条原则:面向主题面向主题原则原则数据驱动数据驱动原则原则原型法设计原型法设计原则原则数据仓库的设计原则数据仓库的设计原则数据仓库的设计原则趟俄拖静靳号桔蒋妆往陕渍挝刮徽转竣拐娘布吼脚洽抿肪斟砧用伦哺贵与数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM面向主题原则面向主题原则n建立数据仓库的目的建立数据仓库的目的-构建数据仓库的目的是面向企业的管理人员,为经营管理提供构建数据仓库的目的是面向企

59、业的管理人员,为经营管理提供决策支持信息。因此数据仓库的组织设计必须以用户决策的需决策支持信息。因此数据仓库的组织设计必须以用户决策的需要来确定,即从用户决策的主观需求(主题)开始。要来确定,即从用户决策的主观需求(主题)开始。n数据仓库中数据的组织方法数据仓库中数据的组织方法-为了进行数据分析首先要有分析的主题,以主题为起始点,进为了进行数据分析首先要有分析的主题,以主题为起始点,进行相关数据的设计,最终建立起一个面向主题的分析型环境。行相关数据的设计,最终建立起一个面向主题的分析型环境。-在数据库设计中则是以客体(在数据库设计中则是以客体(ObjectObject)为起始点,即以客观操)为

60、起始点,即以客观操作需求为设计依据。作需求为设计依据。 数据仓库中的数据组织数据仓库中的数据组织 职拙侩莎瓷岁摆租茁键筛奋大厨雾蹦终郎卑门岁认铂攫抢候砌朵桌赶蒜烤数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据驱动原则数据驱动原则n数据的来源数据的来源-由于数据仓库是在现存数据库系统基础上进行开发的,它着眼由于数据仓库是在现存数据库系统基础上进行开发的,它着眼于有效地提取、综合、集成和挖掘已有数据库中的数据资源,于有效地提取、综合、集成和挖掘已有数据库中的数据资源,服务于企业高层领导管理决策分析的需要。因

61、此数据仓库中的服务于企业高层领导管理决策分析的需要。因此数据仓库中的数据必须是从已有的数据源中抽取出来,是已经存在的数据或数据必须是从已有的数据源中抽取出来,是已经存在的数据或对已经存在的数据进行加工处理而获得。对已经存在的数据进行加工处理而获得。n数据驱动方法(原则)数据驱动方法(原则)-在数据仓库设计中,由于其所有数据均应建立在已有的数据库在数据仓库设计中,由于其所有数据均应建立在已有的数据库基础上,即是从已经存在于操作型环境中的数据出发进行数据基础上,即是从已经存在于操作型环境中的数据出发进行数据仓库的设计,这种设计方法被称为:仓库的设计,这种设计方法被称为:“数据驱动数据驱动”方法。方

62、法。 数据仓库中的数据组织数据仓库中的数据组织 拷刑氛田喻火枢掐鸥绞票啸裤拎政塔考撮货胜扇宗染簿系质菌未瞄参搐郁数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM原型法设计原则原型法设计原则n数据仓库系统的原始需求不明确数据仓库系统的原始需求不明确,且不断变化与增加,开发者最,且不断变化与增加,开发者最初并不能确切了解到用户的明确而详细的需求,用户所能提供的初并不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不能较准确地预见到以无非是需求的大的方向以及部分需求,更不能较准

63、确地预见到以后的需求。因此,后的需求。因此,采用原型法采用原型法来进行数据仓库的开发是比较合适来进行数据仓库的开发是比较合适的,即从构建系统的基本框架着手,不断丰富与完善整个系统。的,即从构建系统的基本框架着手,不断丰富与完善整个系统。n数据仓库的设计是一个逐步求精的过程数据仓库的设计是一个逐步求精的过程,用户的需求是在设计过,用户的需求是在设计过程中不断细化明确的。同时,数据仓库系统的开发也是一个经过程中不断细化明确的。同时,数据仓库系统的开发也是一个经过不断循环、反馈而使系统不断增长与完善的过程不断循环、反馈而使系统不断增长与完善的过程。在数据仓库开。在数据仓库开发的整个过程中,自始至终要

64、求决策人员和开发者的共同参与和发的整个过程中,自始至终要求决策人员和开发者的共同参与和密切合作,不做或尽量少做无效工作或重复工作。密切合作,不做或尽量少做无效工作或重复工作。 数据仓库中的数据组织数据仓库中的数据组织 附侣齐塑墙协钒哩森渝备墒碰灰驯肇农量毅威睦姚帝袄烬腰栋尹盛休陌星数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM 数据仓库设计步骤数据仓库设计步骤明确主题明确主题概念设计(高层设计)概念设计(高层设计)技术准备技术准备逻辑设计(中层设计)逻辑设计(中层设计)物理设计(低层设计)物理设计(低层设计

65、)数据仓库生成数据仓库生成数据仓库的运行与维护数据仓库的运行与维护康谦酮根眶羔孔荐赠佛晋撩杆署营侣攀索棒欠析枪植迁迢妥做橙隙踊聊不数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DMn在在数数据据仓仓库库设设计计的的开开始始,首首先先要要做做的的事事是是有有关关分分析析人人员员需需确确定定领领域域的的分分析析对对象象,这这个个对对象象就就是是主主题题。如如在在商场中经常需要分析的主题是商品、顾客与供应商。商场中经常需要分析的主题是商品、顾客与供应商。n主主题题是是一一种种较较高高层层次次的的抽抽象象,对对它它的的

66、认认识识与与表表示示是是一一个个逐逐步步完完善善的的过过程程。因因此此,在在开开始始时时不不妨妨先先确确定定一一个个初初步步的的主主题题概概念念以以利利于于设设计计工工作作的的开开始始,此此后后随随着着设设计工作的进一步开展,再逐步扩充与完善。计工作的进一步开展,再逐步扩充与完善。设计步骤设计步骤 - - 明确主题明确主题鲤碟耘英晋采颈坤幼迭觉咀竟奠捉吓医勋臂房板工愚操旭莉龚找弥禽憨埃数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM设计步骤设计步骤 概念设计(高层设概念设计(高层设计)计)n高层设计:高层设计

67、:主要考虑商业过程和商业需求的集成,将与目前商业过程主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图创建信息包图。n创建信息包图的过程创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。:分析用户需求,收集信息将信息打包的过程。n分析用户需求(分析用户需求(确定系统边界确定系统边界)确定用户要做的决策类型、确定用户决策时需要的信息、确定确定用户要做的决策类型、确定用户决策时需要的信息、确定原始信息原始信息n定义关键性能指标(定义关键性能指标(确定主要的主题域确定主要的主题域)主题域

68、的公共键、主题域间的联系、充分代表主题的属性主题域的公共键、主题域间的联系、充分代表主题的属性n设计成果设计成果:n信息包信息包图图夺铅郊案宽周世算酚篆曾甸靠商庇缠坛映楚貉询蒙导耶芋落大炊澎刷试格数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM概念模型设计(高层设计)概念模型设计(高层设计)(Cont.)n定义维度定义维度:每一个维代表一个统一的访问数据仓库中信息:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而且这些的途径。这些维也定义了一个完整的主题分类,而且这些分类将

69、被用作支持主要指标的参考内容。在定义维度时,分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路一般只涉及信息的主要途径,不是企图涉及所有可能的路径。径。n定义类别定义类别:类别提供了一个指定维的详细信息,它们是一:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。确定用户将怎样对详细信息进行检索,或者怎样聚集数据。停仗孪沙禾婚落扫孪前陈酗侈屎几医折霜九四垢凛橇晤顿瓢枝闻俯侩衙樱数据仓库的数据模型、数据组织

70、、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM概念模型设计(高层设计)概念模型设计(高层设计)(Cont.)n创建信息包图创建信息包图n确定涉及的主题域,例如:时间、顾客、地位置和产品。确定涉及的主题域,例如:时间、顾客、地位置和产品。n设计可以跟踪的、确定一个事件怎样被完成和运行的关键指标。设计可以跟踪的、确定一个事件怎样被完成和运行的关键指标。n决定在给定的用户分析或查询中实际包含了多少数据。决定在给定的用户分析或查询中实际包含了多少数据。n确定用户如何按层次聚合数据和移动数据。确定用户如何按层次聚合数据和移动数据。n决定数据层次

71、。决定数据层次。n估计数据仓库的大小。估计数据仓库的大小。n确定一个数据仓库里数据的更新频率。确定一个数据仓库里数据的更新频率。n定义如何访问数据。定义如何访问数据。n决定数据如何被传递给仓库的用户。决定数据如何被传递给仓库的用户。三扬庇抬写燥员规语翠蒜襟鸭院棒朋救辟涅宪游剧爹茫演轧喊仅生足墒谗数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM设计步骤设计步骤 逻辑设计(中层设计)逻辑设计(中层设计)n中层设计中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息:建立数据仓库的逻辑模型,对前期收集的

72、信息的细化,将信息包图转换成包图转换成星型图模型星型图模型。n主要工作主要工作:n定义指标实体定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的星和信息包。维度实体在指标实体中表示。整的星和信息包。维度实体在指标实体中表示。n定义维度实体定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。的关系。n定义详

73、细类别实体定义详细类别实体。在一个简单的星形图模型中,指标实体被用于访问的维度。在一个简单的星形图模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型图模型转换为雪花图模型。别实体,将星型图模型转换为雪花图模型。n设计成果设计成果:n适当的粒度划分、合理的数据分割策略、适当的表划分、定义适当的数据源适当的粒度划分、合理的数据分割策略、适当的表划分、定义适当的数据源胜孪缔根餐汛截亡畜撩籽却抄终芝浊辽唱谬映傈贞浆匹抚砧扳斋栏俐诉住数据仓库的数据模型、数据组织、数据仓库设

74、计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DMn低层设计低层设计:建立数据仓库的:建立数据仓库的物理模型物理模型,确定数据仓库的存储结构、数据的存储,确定数据仓库的存储结构、数据的存储位置和索引策略。位置和索引策略。n设计人员需要了解和考虑的问题设计人员需要了解和考虑的问题:n所选用的数据库系统,特别是存储结构和存取方法;所选用的数据库系统,特别是存储结构和存取方法;n数据环境、数据的使用频率、使用方式以及响应时间;数据环境、数据的使用频率、使用方式以及响应时间;n存储设备的特性等。存储设备的特性等。n主要工作主要工作:n确定数据的存储结构确定数

75、据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、。不同的存储结构有不同的实现方式,应综合考虑存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的存储结构。适的存储结构。n确定数据的存储位置确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进。对数据按照其重要程度、使用频率和对响应时间的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块的大小、缓冲区的大

76、小和个数等进行物理优化处理。的大小、缓冲区的大小和个数等进行物理优化处理。n确定索引策略确定索引策略。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以获得存取的高效率。获得存取的高效率。设计步骤设计步骤 物理设计(低层设计)物理设计(低层设计)们霄妮令椎铡瑞愈砌爵捶厘命硕契苗佐槛睫胖瑟详网闹舅岭缉臃抓酪执酣数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM设计步骤设计步骤 数据仓库生成数据仓库生成 n设计接口设计接口n从面向应用和操作的环境生

77、成完整的数据从面向应用和操作的环境生成完整的数据n基于时间的数据转换基于时间的数据转换n数据的聚合数据的聚合n对记录系统进行扫描,以便追加数据对记录系统进行扫描,以便追加数据n数据装入数据装入n确定数据装入的顺序确定数据装入的顺序n过滤无效或错误数据过滤无效或错误数据n数据老化数据老化n数据刷新数据刷新统斑披洒娟孩萝滓芦椰骡刘拨占耿壬雁痹择鼻研烈羊厦柴诧江趣潍任本肆数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM接口设计接口设计n数据仓库中的数据是从数据库系统中提取出来的,所以数据仓库中的数据是从数据库系统中

78、提取出来的,所以在需要在在需要在数据库系统和数据仓库之间建立一个接口数据库系统和数据仓库之间建立一个接口。建。建立这种接口,并不是简单的编制一个提取程序。由于数立这种接口,并不是简单的编制一个提取程序。由于数据库中的数据与数据仓库中的数据有很大区别,所以在据库中的数据与数据仓库中的数据有很大区别,所以在设计接口时,除了设计接口时,除了提取提取外还要完成数据的外还要完成数据的净化净化、集成集成等。等。n接口应包括转换器、监控器和集成器等,以完成对数据接口应包括转换器、监控器和集成器等,以完成对数据的提取、净化和集成。的提取、净化和集成。奉剁鞘哨乘狐瑚膊褐姑珠炽场响褂恳些健摔羡杆汪逸物比柑簿壳吞首

79、娠驹数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据提取数据提取n数据的提取是数据仓库成功的关键。数据的提取是数据仓库成功的关键。n在提取过程中,为了支持实际应用中的趋势分析,它还必在提取过程中,为了支持实际应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数情况下,把数据库须对数据基于时间进行转换。在大多数情况下,把数据库系统中的数据变化提取出来是通过访问数据库日志进行的。系统中的数据变化提取出来是通过访问数据库日志进行的。虫恫僻枚羡缎安烟果物槛孪贴悍砍峙吵鞋米糊政仕扼空瘸结骋拱晦蜜泄奄数据仓库的

80、数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据装入数据装入n数据装入数据装入:即运行数据仓库的接口程序,将数据装入数据仓即运行数据仓库的接口程序,将数据装入数据仓库中。库中。n主要工作主要工作:n按顺序装入数据按顺序装入数据。最初只装入一部分数据来生成第一个主。最初只装入一部分数据来生成第一个主题域,这样能使设计人员轻易而迅速的对所做的工作进行题域,这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再依次装入全部数据。调整,然后再依次装入全部数据。n检查数据的有用性检查数据的有用性。数据仓库的设计过程是一个反

81、馈、循。数据仓库的设计过程是一个反馈、循环的过程,原先对决策分析起作用的数据随着时间的推移环的过程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无法再支持决策分析,通过与用户的交流,反越来越陈旧无法再支持决策分析,通过与用户的交流,反复进行用户需求分析,从而确定用户真正需要的数据,清复进行用户需求分析,从而确定用户真正需要的数据,清除老化、无效和错误数据,不断的适应用户的需求。除老化、无效和错误数据,不断的适应用户的需求。砷李惧洲碎钥埂筋柒瘸鸭颊洲杨齿粪锭衅轮肤糕准甚曰竭勃绍温买忆盈痞数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)

82、7/22/2024-DW&DMn构建数据仓库的最终目的是为了使用,如果数据仓库中存放了构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的数据而没有开发相应的应用程序,数据仓库就失去了其大量的数据而没有开发相应的应用程序,数据仓库就失去了其存在的价值。存在的价值。n数据仓库的目的是用于决策分析而不是事务管理。决策分析应数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分为两种类型:用可分为两种类型:例行分析例行分析处理和处理和启发式分析启发式分析处理。处理。n例行分析处理例行分析处理是指一些是指一些要求比较明确要求比较明确、需要重复进行需要重复进行的分析处理,的分析处理,通常属

83、于通常属于部门级部门级的应用,如部门的销售分析、财务分析、报表分的应用,如部门的销售分析、财务分析、报表分析等。析等。n启发式分析启发式分析是指是指随机性较大随机性较大的、的、即时进行即时进行的分析处理,通常属于的分析处理,通常属于企业企业高层决策者级高层决策者级的应用,这种决策分析的应用,这种决策分析并没有固定的模式并没有固定的模式,决,决策者受到某种信息的启发而进行一些随机的决策分析。策者受到某种信息的启发而进行一些随机的决策分析。设计步骤设计步骤 数据仓库的使用与维数据仓库的使用与维护护 嵌恫辐君腻桩件乍驮蒙僻币妓兆掏拽跌膛湾称花酋寿蓖针致虱靡份益诅亥数据仓库的数据模型、数据组织、数据仓

84、库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DMn对于例行分析处理,由于其分析模式固定,因此可以使对于例行分析处理,由于其分析模式固定,因此可以使用用查询查询/ /报表工具报表工具、固定模式的、固定模式的验证工具验证工具或或OLAPOLAP工具工具来实来实现。现。n对于启发式分析处理则需要在验证工具、对于启发式分析处理则需要在验证工具、OLAPOLAP工具和数工具和数据挖掘工具中为用户提供一个灵活的、功能强大的据挖掘工具中为用户提供一个灵活的、功能强大的交互交互式界面式界面,使决策者能够方便地利用这些工具循环渐进地,使决策者能够方便地利用这些工

85、具循环渐进地进行决策分析,最终获得分析结果。进行决策分析,最终获得分析结果。设计步骤设计步骤 数据仓库的使用与维护数据仓库的使用与维护(Cont.)(Cont.) 亡澳挥舰陋滴铆毅捞渗密俐敛珐伊佬杏舵青非蔓釉座抱习接读偏茫诈椒东数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的维护数据仓库的维护n系统维护系统维护:是在系统已经交付使用之后为了改正错误和为:是在系统已经交付使用之后为了改正错误和为了满足新的需要而修改系统的过程。了满足新的需要而修改系统的过程。n数据仓库中数据的数据仓库中数据的日常管理工

86、作日常管理工作n清除过时的、不再使用的数据;清除过时的、不再使用的数据;n定期从源数据中提取数据,刷新数据仓库中的数据;定期从源数据中提取数据,刷新数据仓库中的数据;n管理元数据等。管理元数据等。塑戍脂靛憾乱万咨淡坚膀咎驻乖桐驳嘘衣缉侈壁瑚樱寇蓖沾仗达淮著易装数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-DW&DM数据仓库的维护数据仓库的维护(Cont.) n数据仓库系统的数据仓库系统的完善工作完善工作n改正性维护改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格:在数据仓库设计与开发过程中,虽然已经进行了严

87、格的测试,但对于一个大型的系统可能还潜藏着一些错误,改正性维的测试,但对于一个大型的系统可能还潜藏着一些错误,改正性维护就是为了发现和改正这些错误而进行的过程。护就是为了发现和改正这些错误而进行的过程。n适应性维护适应性维护:数据仓库的构建是基于当时的技术条件的,由于技术:数据仓库的构建是基于当时的技术条件的,由于技术发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性维护就是为了与变化了的环境相配合而进行的对系的变革,适应性维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。统进行修改的活动。n完善性维护

88、完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运行过程中不断地听取用户对已有功能的修改建议和增要在系统的运行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日趋完善,这项工作称为完善性维护。加新功能的需求,使系统日趋完善,这项工作称为完善性维护。n预防性维护预防性维护:预防性维护则是指为了改进系统未来的性能和功能打:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行的修改工作。下基础而进行的修改工作。陡铁败郸鞭善壬躯售暮雕涣耍倡蛋贤醛污忌绕锦坊袖桂叁焊蹭苯帜积脾则数据仓库的数据模型、数据组织、数据仓库设计(学时2)数据仓库的数据模型、数据组织、数据仓库设计(学时2)7/22/2024-

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 医学/心理学 > 基础医学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号