Data Warehouse(资料仓储)

上传人:206****923 文档编号:51851780 上传时间:2018-08-16 格式:PPT 页数:42 大小:2.37MB
返回 下载 相关 举报
Data Warehouse(资料仓储)_第1页
第1页 / 共42页
Data Warehouse(资料仓储)_第2页
第2页 / 共42页
Data Warehouse(资料仓储)_第3页
第3页 / 共42页
Data Warehouse(资料仓储)_第4页
第4页 / 共42页
Data Warehouse(资料仓储)_第5页
第5页 / 共42页
点击查看更多>>
资源描述

《Data Warehouse(资料仓储)》由会员分享,可在线阅读,更多相关《Data Warehouse(资料仓储)(42页珍藏版)》请在金锄头文库上搜索。

1、Data Warehouse(資料倉儲)包含 OLAP 概論1資料倉儲(data warehouse)定義n定義一:n將操作型(作業型operational)資料庫、外部資料(政府相關 資料、市場統計資料、外來趨勢資訊甚至競爭對手資料等 )經由篩選、萃取、彙總、整合等前置處理,轉換到一個 新的資料庫存放n由於該資料易於決策分析, 就好像倉儲中放置各類成品一樣, 可以讓我們隨時取用或加以包裝出售, 所以稱為資料倉儲P.S. 而一般的資料庫就像是存放各類原料的倉儲,想要得到成品 必須自行以SQL來達成2資料倉儲(data warehouse)定義n定義二:nA subject-oriented,

2、integrated, time-variant , nonupdatable collection of data used in support of management decision-making processes.n資料倉儲之父:Bill Inmonn資料倉儲特性:n主題導向( subject-oriented )n整合的( integrated )n隨時間變化的( time-variant )n不易變動 ( nonupdatable )3資料倉儲基本條件n存取介面:n需提供立即、隨時可取用且高效率的存取介面n高品質資料倉儲:n內部資料須具備一致性,且不可以有不確定或錯誤的 資

3、料夾雜其中n維度查詢:n可根據不同維度,對不同的觀察值作組合或拆散的動 作n分析及展示:n不只提供查詢資料,且須有分析及展示的功能4資料倉儲 12條規則(W.H. Inmon 與 C. Kelley 1994)(1)n應與運作環境分開建置 n完全整合n長時間累積的歷史資料n某時間點所擷取到的狀態資料n主題為導向(subject-oriented)n主要用於讀取,並定時由操作型資料庫做批次更 新(batch update)n不允許線上更新n唯讀的資料n開發生命週期為資料驅動(data driven)的發展 方式n傳統為程序驅動5資料倉儲 12條規則(W.H. Inmon 與 C. Kelley

4、1994)(2)n包含了數個層次的細部資料:n目前的細部資料n以往的細部資料n科子目的加總資料n全體的加總資料n對非常大量的資料集(data mart)作唯讀式異動n具有追蹤資料來源、轉換與儲存的子系統n具有metadata,其作用為標明及定義所有的資料元素n應包含資源使用收費機制,強迫使用者能以最佳運用 方式來使用其中的資料6資料倉儲 資料類型n運算資料(Operational Data):n由OLTP system(On-Line Transaction Processing Systems )的資料庫而來n整合後的詳細資料(Integrated Detail Data):n由運算資料經整

5、合、轉換後的資料n預先加總資料(summarized data)nmetadata(中介資料、中繼資料):n描述資料的資料(Data about data),不是原始資料而是 從資料本身所衍生出來的n又稱系統目錄或資料字典n備份資料(Backup Data)7data mart(資料集、資料超市) n定義:n資料超市是資料倉儲的子集(subset)n資料集的產生:n基於時間金錢等因素考量,有時候只建立單一 部門的決策性參考資料,其規模較資料倉儲小 ,稱之為資料集n依部門需求先建立部門資料集,經過一段時間 運作,再以bottom-up方式整合成一個資料倉儲 系統P.S. Top-Down:方式產

6、生資料倉儲系統8資料倉儲管理師(data warehouse manager)n又稱資料品質管理師(Data Quality Manager,DQM,簡稱資料 品管師)n負責工作:n確保資料一致性n轉換及合併來源資料到資料倉儲表格n建立view及索引(維度)n產生預先加總資料n備份資料9資料倉儲(data warehouse) framework Figure 5.12 Data warehouse framework and views Source: and Data Management Strategies, Cutter Information Operations, Februa

7、ry 1999.10資料倉儲的架構n以往OLTP系統是以便於進行交易處理為目標n關聯式資料庫模型:實體關聯模型(E-R Model )n資料倉儲模型:維度模型(dimensional Model)n資料倉儲的概念很早就被提出,但是具體化是在維 度式資料倉儲提出之後n資料倉儲的維度模式設計:n將資料庫看成是多維資料的立方體(cube)n可以沿著cube的各個維度(dimension)來做切面 (slicing)11資料倉儲的維度模式設計n例如:將銷售資料看成是一個cube,三個維度是時間( time)、產 品(product)及客戶(customer)producttimecustomer每一個

8、基本小 方塊稱為單元塊 (grain)XYZ12維度模式架構n包含二個觀念:n事實表(fact table):n事實表在cube中只會有一個n存放資料倉儲中要分析的主體交易資料(通常是具有累加的數 字資料,如銷售金額),以及與各維度間的聯繫資料(外來鍵 )n事實表除了主鍵外的屬性,就是觀察值(measure)n觀察值就是我們最後要呈現的結果n維度表(dimension table):n維度依照所欲分析的各種構面來規劃n可以有多個維度產生n任一個維度都會對應到一個以上的關聯表,或是關聯表的某個 欄位(稱為虛擬維度 Virtual Dimension),這些關聯表通常 稱為維度表13維度模式架構星

9、狀綱要(star schema)Dimension tableFact tableDimension tableDimension tableDimension table14維度模式架構雪花結構(snowflake)n雪花結構(snowflake):n一個維度通常對應到一個維度表,但有時候因為正 規化的關係,也會對應到數個維度表。這時,星狀 綱要就會變成雪花結構(snowflake)n雪花結構查詢時需做合併(join),效能較差n不過,SQL server 2000允許使用者儘量用雪花結構15維度模式架構雪花結構圖形一Fact tableDimension Table 2Dimension

10、Table 3Dimension Table 1Dimension Table 4Dimension Table 6Dimension Table 5同一個維度16維度模式架構雪花結構圖形二Fact tableDimension Table 2Dimension Table 3Dimension Table 1Dimension Table 4Dimensio n Table 6同一個維度Dimensio n Table 517轉換至資料倉儲的範例n一 OLTP 資料庫中的資料表, 重新整理轉存為資料倉儲的星形結構18資料倉儲維度模式架構探討n資料倉儲的資料表結構不做正規化, 會有許多重複出現

11、的資料 :n例如:n時間維度中存放的是所有交易的日期, 及該日期所屬的年、月 、季等資料, 可以想見, 資料表中會有多筆同年、同月、同季的 記錄n客戶維度中的客戶所在城市也可能有許多重複的, 在 OLTP 資 料庫中就會將地區資料存於另一個資料表n優點:提昇查詢資料倉儲效率n重複情形使得對資料倉儲進行查詢, 不必使用到 JOIN 等複雜的 查詢方式n不必參考多個資料表就能得到分析資料, 可提昇查詢資料倉儲 時的效率, 減少決策者分析時讀取資料的等待時間n星狀架構的維度資料表未做正規化, 有必要仍是可做正規化 將維度分成多個資料表存放19維度資料表做正規化的範例n例如:將客戶維度中客戶所在地資料

12、分離出來為另一個地區資料 表n將維度內容分成多個資料表的方式, 稱為雪花式架構 (Snowflake Schema)20維度模式的設計步驟(R. Kimball,1996 )n決定欲應用的商業程序(busines process)為何:n例如:採購程序、銷售程序n決定商業程序的單元塊(grain):n例如:採購程序可能是:某天採購了某間工廠 的某樣產品的數量資料n根據單元塊決定分析資料的維度:n例如:利用時間、出處及產品名稱,訂定三個 維度表n決定事實表的觀察值:n例如:數量n設定維度表及事實表的主鍵:n以建立兩者間的參考關係21維度模式的設計步驟範例n單元塊:某天某書局購買了某本書的交易資料

13、n三個維度表:n書局維度表:n屬性:書局編號(no)、書局名稱(name)、城市(city)、地區 (region)n階層關係:region city namen書籍維度表:n屬性:書籍編號(id)、書籍名稱(bookname)、種類(category )、作者(author)、出版商(publisher)n階層關係:category bookname n階層關係: author booknamen階層關係: publisher bookname n同一個維度只能有一種階層關係,一個維度表可以用來建立多個 維度,會造成資料有重覆儲存的現象nSQL server 提供虛擬維度(virtual d

14、imensions),減少重覆現象22維度模式的設計步驟範例(續)n銷售書籍的交易時間維度表:n屬性:日期編號(tid)、年(year)、月(month) 、日(day)n階層關係:year month dayn一個訂單事實表:n書局訂購書籍的交易數量資料n屬性:日期編號(tid)、書局編號(no)、書籍編號( id)、數量(quantity)、總金額(total_price)n觀察值:數量(quantity)、總金額(total_price)23維度模式的設計步驟範例維度表書局No Name City region事實表訂單Tid No Id Quantity Total_price維度表書

15、籍id bookName category Author publisher維度表時間tid year month day24維度模式的設計步驟問題n問題:n事實表的total_price,其實可透過書籍維度表 增設一個price屬性,再乘以事實表的quantity 即可。為何不這樣做呢?nAns:n因為資料倉儲處理的是既定事實,total_price不會 再改變n所以,事實表在做資料轉換時,即可將total_price 直接算出來,不用等到要查詢時再計算25關聯式資料庫Figure 5.13 Relational databases 26多維度資料倉儲Figure 5.14 Multidim

16、ensional databases27關聯式資料庫vs.多維度資料倉儲Figure 5.15 Equivalence between relational and multidimensional databases28OLTP(On-Line Transaction Processing)systemn分析資料與交易資料的差異:n一般資料庫做進一步分析不足:n一般資料庫存放資料的方式、資料表結構欄位等都是為方便處理 交易作業而設計的nOLTP定義:n一般資料庫系統之所以稱為操作型資料庫(operational database),是因為可以很容易地建立各式各樣的資料,以及 可以快速地查詢、統計資料。這類資料庫常常會有異動情形 產生,因此可稱作OLTP system(On-Line Tra

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号