SCD缓慢渐变维度

上传人:re****.1 文档编号:509755577 上传时间:2022-10-25 格式:DOCX 页数:27 大小:832.70KB
返回 下载 相关 举报
SCD缓慢渐变维度_第1页
第1页 / 共27页
SCD缓慢渐变维度_第2页
第2页 / 共27页
SCD缓慢渐变维度_第3页
第3页 / 共27页
SCD缓慢渐变维度_第4页
第4页 / 共27页
SCD缓慢渐变维度_第5页
第5页 / 共27页
点击查看更多>>
资源描述

《SCD缓慢渐变维度》由会员分享,可在线阅读,更多相关《SCD缓慢渐变维度(27页珍藏版)》请在金锄头文库上搜索。

1、SCD常用的三种类型(Sowly hangigDimon)在从TP业务数据库向W数据仓库抽取数据的过程中,特别是第一次导入之后的每一次增量抽取往往会遇到这样的问题:业务数据库中的某些数据发生了更改,究竟要不要将这些变化也反映到数据仓库中?在数据仓库中,哪些数据应当随之变化,哪些可以不用变化?考虑到这些变化,在数据仓库中的维度表又应当如何设计以满足这些需要。很显然在业务数据库中数据的变化是非常自然和正常的,例如顾客的联系方式,手机号码等信息也许随着顾客的所在地的更改发生变化,例如商品的价格在不同步期有上涨和下降的变化。那么在业务数据库中,很自然的就会修改并立即反映到实际业务当中去。但是在数据仓库

2、中,其数据重要的特性一是静态历史数据,二是少变化不删除,三是定期增长,其作用重要用来数据分析。因此分析的过程中对历史数据就提出了规定,有某些数据是需要可以反映出在周期内的变化历史,有某些数据缺不需要,那么这些数据应当如何来控制。假设在第一次从业务数据库中加载了一批数据到数据仓库中,当时业务数据库有这样的一条顾客的信息。顾客IRK,居住在北京,目前是一名B的开发工程师。假设IORK由于北京空气质量PM25等因素从北京搬到了三亚。那么这条信息在业务数据库中应当被更新了-那么当下次从业务数据库中抽取此类信息的时候,数据仓库又应当如何解决呢?我们假设在数据仓库中实现了与业务数据库之间的同步,数据仓库中

3、也直接将词条数据修改更新。后来我们创立报表做某些简朴的数据记录分析,这时在数据仓库中所有对顾客BIWORK的销售都指向了BIWORK新的所在地-都市三亚,但是事实上IWOR在之前所有的购买都发生在WORK居住在北京的时候。这是一种非常简朴的例子,它描述了因某些基本信息的更改也许会引起数据归纳和分析浮现的问题。但是有时,这种场景的的确确也许是存在的。为理解决类似于这样的问题需要理解数据仓库中的一种非常重要的概念-缓慢渐变维度。1 缓慢渐变类型一(Tpe 1SCD)在数据仓库中,我们可以保持业务数据和数据仓库中的数据始终处在一致。可以在ustomer维度中使用来自业务数据库中的usinss Ky-

4、CutmI来追踪业务数据的变化,一旦发生变化那么就将旧的业务数据覆盖重写。DW中的记录根据业务数据库中的utomerID获取了最新的ty信息,直接更新到D中。2 缓慢渐变类型二(Te SC)固然在数据仓库中更多是对相对静态的历史数据进行数据的汇总和分析,因此会尽量的维护来自业务系统中的历史数据,可以真正捕获到这种历史数据的变化。以上面的例子来说,也许需要分析的成果是BWORK在的时候购买额度整体平稳,但是从开始购买额度减少了,浮现的因素也许与所在的都市有关系,在北京的门店也许比在三亚的门店相对要多某些。像这种状况,就不能很简朴在数据仓库中将BWR目前所在都市直接更新,而应当新增长一条数据来阐明

5、目前BIWOR所在地是在Sanya。但是如果仅仅在D中新增一条新的数据仍然会浮现新的问题,由于在D中标记这个顾客是通过CutomD来实现的,这条CstoerI来源于业务数据库,它是唯一的。然而在D中新增一条数据来保存业务数据库中历史信息,就无法保证这条数据在DW中的唯一性了,其他的DW数据表关联到这张表就无法懂得应当如何引用这个Custom的信息。事实上,如果Customer在DW中也作为主键来唯一标记ustmer的话,在插入新数据的时候就会发生失败。因此我们需要继续保持Businessey业务键,由于它是关联到业务数据库的唯一纽带。做出变化的部分就是新增长一种ey,一种数据仓库的键。在数据仓

6、库的术语里面,这个唯一标记数据仓库表记录的键我们称之为rogate Ke代理键,一般设立为W表的主键。在上面这张表中,其中 -CstomerID Business Key业务键,用来连接业务数据库和数据仓库的键,注意无论在业务数据库还是数据仓库无论任何时候都不应当发生变化。DWID Srot Key代理键,一般设立为DW维度表的主键,用来在数据仓库内部中的维度表和事实表建立关联。为什么使用代理键,有什么好处?假设我们的业务数据库来自于不同的系统,对这些数据进行整合的时候有也许浮现相似的BusiessKey,这时通过SrrgateKy就可以解决这个问题。一般来自业务数据库中的Buines Key

7、也许字段较长,例如UD,长字符串标记等,使用Srroat K可以直接设立成整形的。事实表自身体积就很大,关联Srrat Key与关联Bsines Key相比,urrogate Ky效率更高,并且节省事实表体积。最重要的一点就是上面举到的这个例子,使用Surroate 可以更好的解决这种缓慢渐变维度,维护历史信息记录。什么时候可以不用代理键?我觉得可以结合我们的实际业务,例如像有些业务表自身的Buses ey就已经是整形的了,并且表中的属性基本上不随着时间或地理发生变化。例如像某些国家名称,地区编号编码等等基本上不会怎么发生变化,虽然变化了也不需要维护历史记录这样的状况下可以直接使用业务数据库中

8、的Busines y而不需要设立新的urrogt Key。接着上面的表构造讲,光这样设立了新的urroga Key -DWID是不够的,由于还需要告诉数据仓库哪一条信息是目前正在使用的。固然可以根据DWID的顺序来查出最新的记录,但是每次都要比较ustmerID然后找出最大的DWD这样的查询比较麻烦。因此可以额外一种标志表达这条数据是最新更改的。此外的一种方式就是通过起始时间来标记,Vaid To为NUL的标记目前数据。固然,也有将两者都综合的。尚有一种状况就是混合使用Typ 和ype2的,例如说cptio这个字段在业务数据库中发生了变化,但是可以不用维护这个历史信息,因此也许的做法是直接将最

9、新的ccuation在数据仓库中覆盖掉。根据实际状况,尚有一种做法就是所有覆盖掉。3 缓慢渐变类型三(Type3 SCD)事实上ype 1 and可以满足大多数需求了,但是仍然有其他的解决方案,例如说Typ 3 SC。Type 3 CD但愿只维护更少的历史记录,例如说把要维护的历史字段新增一列,然后每次只更新Current Column和PrviosColmn。这样,只保存了近来两次的历史记录。但是如果要维护的字段比较多,就比较麻烦,由于要更多的urrent和Prvious字段。因此Tpe SCD用的还是没有Tpe 1和Tye 2那么普遍。4 总结ye 1 SC不记录历史数据。一切不需要维护的

10、历史数据都可以选择Tp ,假设地理信息中的国家名称发生更改,像这种数据基本上不需要维护的话,那么就直接使用e 1 SCD覆盖旧的国家名称。Type 2 SCD-添加新的数据。使用的比较常用,基本上除了Tpe1SC之外的情形都会优先考虑Type2 SD。Tpe CD添加历史列。不会追踪所有的历史记录,只会追踪上一次的历史信息。这种状况往往介于yp 1和Te 2的时候会考虑,需要记录历史数据,但是又不需要记录那么多。其他的有关文章有关在 SS 中如何实现 SC 请参看微软B SIS 系列数据仓库中实现 Slol ChginDimensio缓慢渐变维度的三种方式PS在不同的工具中对 SCD 的实现是

11、不同样的,例如在微软 SSS CD控件的设计当中对SD的实现:Tye0 - FidAtriut不变化的属性。Tp 1 -Changingribute 可变化的属性,会重写数据。Typ- Historial Attri 历史属性。5 CD案例本篇文章总结了实现缓慢渐变维度的几种方式,并且分析了 Changing Attibte和 HitricalAttiut输出的逻辑过程。示例一:SSS 中使用Slowl Chngin insion 控件示例二:使用SQ 中 Merg语句实现简朴的 SCD效果示例三:在 S 中使用 Lou,onditional Splt,Mulast等控件实现D效果5.1 测试

12、表以及测试数据其中 Custmer 是数据源表,DiCusomer 模拟的是数据仓库中的Cutoe 维度表。每个示例都是从空表开始,第一次运营的时候 Dimnsn表没有数据,第二次运营之前将添加几条数据到 Customr 数据源表中,并同步修改若干数据。但是要注意这个示例对数据源数据的加载是所有加载,而不考虑基于数据源数据的增量加载,有关增量加载的实现会放在 BI系列的其他文章中解说。UE BIWRK_SSISGIF BECID(Custoer) ISNT NULLDROP TABE ustomer GOIF OJECT_D(Dimustmer) ISNOT NULRO ABLE DimCut

13、omerCATE TBLECustome( IT PRIMARY EIENITY(1,1), ulNe NVARCHA(0), Cit NAHA(5), Occption NVRHR(5)RAE ABLEDustomer ( CusomerID INTPRIMARY KEY TIT(1,1), CustoerAtrnteKeNT, FullNae NVARCHAR(50), City VRCHA(5), Occution ARCH(50), StatDate DATETME, EdDae DTETM, IsCurent BI DFAUT(1)INSERT INO BWOK_SSS.dboCustomer VLUES(BIOR,Beijing,IT),(Zhagn,nghai,Eduaton),(isi,Gnghou,Studn)5.2 示例一SSI中的Slowly Chgig Dimsn新建一种Pckge并拖放一种 Data lo,在Data low中建立好与 tomer 表的数据源连接,新建 wlyChaing Deni SC_DimCustr。双击 SCD_DimCusome 编辑有关的属性。nput Columns 来源于上游数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号