{冶金行业管理}建构整合决策树与关连规则之讲义挖矿架构及实证研究

资源描述

《{冶金行业管理}建构整合决策树与关连规则之讲义挖矿架构及实证研究》由会员分享，可在线阅读，更多相关《{冶金行业管理}建构整合决策树与关连规则之讲义挖矿架构及实证研究（81页珍藏版）》请在金锄头文库上搜索。

1、建構整合決策樹與關連規則之資料挖礦架構及實證研究,期末報告組別：三資四B H24932128 謝殿臣資四B H24932089 黃孝慈資四B H24932437 顏姿青,作者：楊景晴,1,一、緒論_研究背景及重要性,隨著資訊科技的進步，企業所記錄或儲存的大量資料，對於不同階層的使用者來，資料代表著不同的意義與價值。當大量的資料被企業儲存起來，如何發揮與創造出資料價值變成為將資料由負債轉換資產的成功關鍵。,2,一、緒論_研究背景及重要性,資訊量價值性,決策者,企業主管,資料分析者,資料庫管理者,圖1.1 企業中的資料階層,3,一、緒論_研究目的,目的：事故排除方法：建構整合決策

2、樹與關連規則之資料挖礦架構及實證研究。實驗對象：以台灣電力公司與某半導體廠兩個不同產業之案例做為實證，已檢驗此資料挖礦架構之效度。,4,一、緒論_論文結構與研究流程,1.2圖研究流程,問題定義與架構,問題定義,理論架構,結果分析與討論,結論,專家訪談,實證研究一台灣電力公司,實證研究二某半導體大廠,5,二、文獻探討_知識發現與資料挖礦,表2.2 資料挖礦的定義 2.2圖資料挖礦的四個循環,確認問題類型,評估挖礦結果,採用適當工具,進行挖礦工作,6,二、文獻探討_知識發現與資料挖礦,2.3圖資料挖礦過程的主要步驟,問題定義,獲取相關領域知識,選取資料,資料前置處理,分析與解釋,報告與

3、使用資訊,7,二、文獻探討_知識發現與資料挖礦,2.4圖資料挖礦專案流程步驟 2.5圖適用各產業之資料挖礦架構,8,二、文獻探討_資料挖礦模式與工具,資料挖礦模式(Model)的六種形式,資料挖礦模式(Model),分類,迴歸,時間序列,分群,關聯分析,順序挖掘,監督式學習,非監督式學習,9,二、文獻探討_資料挖礦模式與工具,2.6圖資料挖礦的技術,資料挖礦 (Data Mining),資料庫技術 (Database Technology),統計學 (Statistics),資訊科學 (Information Science),機器學習 (Machine Learning),視覺化技術 (

4、Visualization),其他領域研究,10,二、文獻探討_資料挖礦挖掘結果類型,資料挖礦所處理的問題類型由上而下:利用現有的模型來建立資料，藉此來描述某一特定變數。由下而上:不需要特別標註在某一變數或某一種値，而是試著尋找所有變數中是否有隱藏某種關係。,分類(Classification) 預測(Prediction),分群(Clustering) 關聯規則分析 (Association Rule),資料挖礦所處理的問題類型,由上而下由下而上,11,二、文獻探討_資料挖礦工具,資料挖礦屬於探索導向，不需事先假設以求驗證。挖礦者需在一開始就釐清處理的工作目的為何？資料挖礦工具

5、依照解決的問題類型與挖礦的目的而異。通常不會只使用單一工具來進行挖掘工作。,12,二、文獻探討_資料挖礦工具,表2.3 挖礦問題類型及可使用的工具 (附註:表工具可使用之挖掘問題類型),13,二、文獻探討_資料挖礦工具,表2.4 資料挖掘工具的基本特性介紹的演算法如下: 遺傳演算法類神經網路 Fuzzy Logic 記憶基礎理解決策樹。使用14種特性作介紹。,14,二、文獻探討_資料挖礦工具,表2.5資料挖礦工具間的比較 (附註:表資料挖礦工具能表現的能力),15,二、文獻探討_關聯規則,是最常被應用的模式之一關聯規則分析（association Rule Analysis）從資

6、料庫龐大的資料中，探索資料間欄位有趣的關係或相關性。購物籃分析如何從日積月累的交易資料中，以有效的方法找出商品間的關聯性，進而推斷消費者購買行為，創造無限商機。,16,二、文獻探討_關聯規則定義與說明,進行關聯規則挖礦時，作業流程的兩大步驟找出所有的高頻項目組(Frequent Itemsets) 高頻項目組所出現的次數必須大於等於事先定義的最小支持度數目。此步驟決定了整體作業的效能從找到高頻項目組產生關聯規則所產生的規則必須滿足決策者所給定支持度與信賴度的最低門檻値，規則才成立。,17,二、文獻探討_關聯規則定義與說明,定義描述,18,二、文獻探討_關聯規則定義與說明,關聯規則的

7、成立必須滿足決策者所訂定之最小支持度（Minmum Support Threshold），和最小信賴度(Minmum Confidence Threshold)。有意義的關聯規則其支持度與信賴度必須大於或等於所訂定之最小門檻値。增益指標加入後，若增益大於1，則表示規則的預測結果比單純的亂數還要好，反之，則較差。,19,二、文獻探討_關聯規則定義與說明,若規則表示為X=Y，則 1.支持度（Support）在規則(Rule)中，項目(Items)一起出現的交易暨路佔全部交易紀錄的百分比。最小支持度控制了一個關聯規則必須涵蓋的最少資料數目，以篩選掉不顯著的規則，在實務上才有應用價値。

8、支持度代表的意義為X與Y一起出現的機率。,20,二、文獻探討_關聯規則定義與說明,若規則表示為X=Y，則 2.信賴度(Confidence) 代表此條規則的預測強度。 X發生之下發生Y結果的機率足以使得此關聯規則得以成立。計算在前提項目X發生的情況下，發生結果Y的機率。,21,二、文獻探討_關聯規則定義與說明,若規則表示為X=Y，則 3.增益(Lift or Improvement) 比較信賴度與結果項目Y單獨發生時之機率兩者間的大小。關聯規則的條件機率比母體中原本發生的機率大才具有意義。,22,二、文獻探討_關聯規則類型,關聯規則類型 1.以屬性質的形態為基礎若挖礦規則焦點放在項目(I

9、tem)是否出現，則稱為布林値的關聯規則(Boolean Association Rule) 。 2.以規則中涵蓋資料維度為基礎若要挖礦的規則的項目或屬性著眼在單一維度時，稱之為單一維度關聯規則(Single Dimensional Association Rule) 。 3.以規則集合中所涵蓋的抽象層級(Level of Abstraction)為基礎規則屬性或是項目全為同一層級，則稱為單一層級關聯規則(Single-Level Association Rule) 。,23,二、文獻探討_關聯規則類型,2.7圖概念層級樹,24,二、文獻探討_關聯規則演算法與特性,表2.6 關聯規則演算

10、法與特性,25,二、文獻探討_關聯規則的應用,1.商業應用藉由關聯規則方法了解顧客購買行為的資訊，協助零售業在進行商品擺放位置規畫。 2.工業應用利用關聯規則發展一彈性且有項的巢式製造系統(Cellular Manufacturing System) ，找出機台間的最佳組合，形成群組技術(Group Technology) 。 3.醫學應用利用關聯規則做藥品櫥位管理，或以過去看診暨路檢式藥品使用量與方法是否正確，並可分析個病例特徵間關聯程度。,26,二、文獻探討_決策樹,決策樹監督式的特徵萃取演算法，廣泛應用來解決分類(Classification)形態問題的工具，亦可做為探索與預測之

11、用。能夠將輸入變數依據某種規則或資料進行分類，並以樹枝狀方式表現類別之間由輸入變數所造成的區別，因此決策樹可對資料進行架構的分類。,27,二、文獻探討_決策樹,決策樹演算法的四大步驟 1.決策樹的切割(Splitting) 決策樹須將輸入的預測變數作分類，用以解釋目標變數變異的原因。 2.停止長樹(Stopping) 當無法找出任何分隔預測變數可以顯著降低下一節點的分散度，表示樹以生長完整(Complete) 。,28,二、文獻探討_決策樹,決策樹演算法的四大步驟 3.評估(Assessment) 評估整個決策樹的錯分率(Misclassification) 或是評估每個節點的錯誤率(Err

12、or Rate) 。公式如下：,29,二、文獻探討_決策樹,決策樹演算法的四大步驟 4.決策樹的修剪當決策樹所生長的層級越深時，子節點的資料比數就會越來越少，資料的代表性就越低，所產生的法則可能會造成過度學習(Over Fitting)而產生偏差，此時演算法中就應加修剪的步驟。找出錯誤的分支給予修剪，如:CART、C4.5。以測試資料(Testing Data)驗證、抽樣方法來減少決策樹過度學習現象的發生。,30,二、文獻探討_決策樹,2.11圖修剪對錯誤率的影響,31,二、文獻探討_決策樹演算法,表2.7 常用決策樹演算法之比較,32,二、文獻探討_決策樹於事故診斷的相關研究,表2.

13、8 應用決策樹於事故排出之相關研究,33,三、研究架構_問題定義,透過清楚的問題定義，瞭解問題類型包含哪些類別，才知道有哪些是屬於關鍵性的資料。,34,三、研究架構_資料選擇,對領域知識及問題有了基本的認識之後，便是進行資料選擇的工作，應先對資料有進一步的瞭解，而非將資料盲目的丟進模式分析。資料取得的方式如下表：,35,三、研究架構_資料前置處理,一般資料可分成質與量兩類，質的資料又分成空間性與時間性兩種，掘取欲分析的資料，並以去蕪存菁的方式轉化處理，才能確保分析資料的品質和分析結果的正確性。資料前置處理的步驟需要不斷學習與經濟累積。資料前置處理形式資料清理資料整合資料轉換資料化

14、約。,36,三、研究架構_資料前置處理,資料前置處理通常會採取的動作如下： 1.資料的基本分佈與檢視：對於資料的基本數理特性做醫界面性的檢視，分佈為常態、非常態、偏右、偏左等，瞭解資料的長相與分佈以便做後續處理。 2.偏離值的檢測與處理：對於散佈在正常分佈外的資料點作出處理，譬如直接刪除還是保留其資訊。,37,三、研究架構_資料前置處理,3.空白值與缺值的處理：空白值與缺值所代表的意義並不相同，空白值為無法填入的資料；缺值則為資料的遺漏或錯誤。要刪除該筆資料或者以特殊方式補值，對於挖礦結果的解釋會有不同的影響，所以須對資料有近一步的了解。 4.資料為度轉換：般而言高維度的資

15、料計算複雜，所花費的時間較多，因此維度的降低亦是一種重要的課題。,38,三、研究架構_資料前置處理,5.資料格式化或分佈轉換：資料處理時，資料的格式轉換與其所代表的相對意義都須瞭解。資料格式化和轉換亦會挖掘出另層意義的結果。般將資料數字分成四種不同的衡量尺度，名義尺度、順序尺度、區間尺度、比例尺度衡量。,39,三、研究架構_資料前置處理,40,三、研究架構_目標與顯著變數的選取,當目標變數與署醒確定後，接下來即確認預測變數。為避免加入對目標變數結果無顯著影響的資料，可利用統計方法檢定預測變數與目標變數是否獨立。,41,三、研究架構_目標與顯著變數的選取,變數衡量尺度對應之統計檢定方法

16、：,42,三、研究架構_目標與顯著變數的選取,K-W法適用資料分配不符合常態，或是已確定其為非常態分佈的情況下，此種檢驗對平均值差異敏感，可將此方法想像成一個對處理平均相等的檢驗。 K-W Test 其主要步驟如下： 1.先將觀測值依遞增順序，然後以取代觀測值。 2.令處理i知下秩的和。 3.求檢定統計量。 N為所有觀測值的數目,43,三、研究架構_ K-W法,是第i個處理下的觀測值數目，N是所有觀測值的數目總和,44,三、研究架構_ K-W法,(a)當k=3, 時，可查詢K-T test檢定附表，決定機率值P-value, 如果P-value 則拒絕虛無假設，表示k可能不致。 (b) 當，則表示這K個處理中某些處理會產生較其他處理為大的觀測值，可有效檢定在資料非常態分佈時不同處理是有造成差異的原因。,45,三、研究架構_資料挖礦與決策樹,資料挖礦對於不同的資料賀企業問題，不同的模式和演算法將可能產出最好的結果。決策樹決策樹會根據目標變數，將資料進行適當的分類，並以樹枝狀架構呈現

展开阅读全文