《资料探勘》ppt课件

资源描述

《《资料探勘》ppt课件》由会员分享，可在线阅读，更多相关《《资料探勘》ppt课件（47页珍藏版）》请在金锄头文库上搜索。

1、資料探勘第一單元資料探勘的簡介,資料的預備,本周綱要,資料預備概念與重要性資料預備的工作項目原始資料的特性與資料預處理資料的減量,資料預備概念,何謂資料預備? 資料庫中的原始資料，經常包含許多雜質、不完整或是不一致的資料。資料預備通常包括了資料的預處理與資料的減量。,資料預處理主要目的在針對原始資料中的雜質(異常)、不完整或不一致的資料進行處理。資料減量目的為降低原始資料量或資料維度，以減輕進行資料探勘負擔。資料預備的主要目的在對於原始資料進行預處理與資料減量，將資料以標準格式進行組織及改善資料的質量，以便能夠得到最佳的資料探勘結果。,資料預備的重要性,資料預備包含的工作項目,

2、資料的預處理資料清理資料整合資料轉換資料的減量資料的減量之目的就是縮小欲進行探勘資料的數量或是維度，但是基本上以不影響探勘之後的結果為主。,原始資料的類型,數值型的資料包括實數變數以及整數變數數值型資料的值是具有順序關係的，例如：3 6, 6 8 數值型資料的值是具有距離關係的，例如：2.5與5.7間的距離為3.2 類別型的資料類別型的資料又稱為符號型或象徵型的資料類別型資料僅具備相等或是不相等的關係，例如：黑色黑色，白色紅色許多常見的資料屬性都屬於類別型資料，如：顏色、姓別、國籍類別型的資料假如只有兩個值的話，例如：是 / 否，男性 / 女性，通常可以0或1來轉換為數值

3、型的資料如變數值較多時，如：有N個變數值情形下，就可以N個二位元數值變數去表示,原始資料的類型,以資料值的類型來進行分類連續變數區間比例 (零點的定義隨應用而定) 比率比例 (具有絕對的零點) 離散變數名義變數 (如郵遞區號, ) 次序變數 (次序或等級的關係，如等第, ) 週期變數 (距離的關係，如一週的天數, ) 根據的是資料與時間之間的變動特性關係來進行分類靜態資料動態或是臨時性的資料,原始資料的類型,高維度的資料在資料探勘領域中將資料具有很高維度的情形，稱之為維度的災難高維度的資料具有以下四個重要的特性：在同樣的資料密度下，資料受影響的數量將會隨著維度的增加，而呈指數

4、的倍數增加。需要很大的半徑才能包含大維度空間內的所有資料幾乎每一個高維度空間的資料點與邊之間的距離都比與其他點的距離近在高維度的情況下，幾乎每一個點都是離群值,原始資料剛開始的資料量非常龐大原始資料都是非常雜亂的原始資料中，可能有不完整、扭曲、記錄錯誤和不充分的資料資料的不完整，可能在衡量、計算時發生錯誤造成雜亂的原因為記錄的錯誤，特別是在大量的資料中最容易產生這種情況扭曲的資料選擇錯誤的資料衡量方法錯誤的資料探勘的工具太過理想化的模式下,原始資料的特性,不一致的資料,不一致的資料所指的是相同的資料卻出現兩種以上不一致的狀況發生原因: 通常是因為命名規則出現問題(如同一

5、個屬性在不同表中的名稱不同)、資料格式的不同，或是資料代碼的不同。,不完整的資料,在原始資料中，空的資料值或是有所遺漏的資料，都稱之為不完整的資料。發生原因: 資料屬性並非必須，在進行資料記錄時，易造成時有時無的情形。資料在當時被認為是不必要的。誤解或記錄設備的問題，而使得相關的資料未被記錄。與其他紀錄的內容不一致而被刪除。資料為歷史的紀錄，而且沒有經過修改與更新。,不完整的資料,處理的方法通常由進行資料探勘的技術人員，邀集相關知識領域的專家，以其專業的領域經驗，輸入合理、可能或期望的資料。利用較為簡單且自動化方法來填補資料，以解決資料不完整的情形。利用一個已事先定義好的

6、單一值來填補所有遺漏的值利用平均值的方式，填補遺漏的資料利用分類後的子群組之平均值填補遺漏的資料利用預測的技術，以求得遺漏的資料最可能的值迴歸分析、貝氏網路、決策樹或是叢聚方法。,異常的資料,所謂資料中的雜質、異常的資料指的就是資料中存在錯誤或離群值(與大部分資料的分布差距過大)。發生原因資料蒐集的設備出現問題。在記錄資料的過程中，發生人為或是電腦方面的錯誤。資料在傳輸的過程中產生錯誤。,異常的資料,處理的方法人工的離群值偵測方法在離群值的偵測技術中，假如資料的維度在三以下時，最方便的偵測方法就是利用視覺化的方法。自動的離群值偵測技術統計的方法以距離為基礎的方法以偏

7、差為基礎的方法,異常資料之處理,Binning方法分配的方法有等高式和等寬式，如圖所示等高式資料分配方式，指的是每一個箱子中的資料數目皆相等等寬式的分配方法則是每個箱子中的值之間距 (箱子中最大值和最小值差距) 相等，一般而言寬度愈大，平滑效果愈明顯分配好每個箱子中的資料後，隨即可以進行資料的平滑化平均值法資料平滑化技術中值法資料平滑化技術邊界法資料平滑化技術,例：假設某屬性的值為18，12，3，9，7，6，15，21，16，採用分配技術平滑資料消除噪音。分佈規則為等高，高度為3，平滑規則為平均值平滑。首先，將屬性的值排序為3，6，7，9，12，15，16，18，21 然後，分

8、佈規則(等高，高度為3)將資料分佈為箱1：3，6，7 箱2：9，12，15 箱3：16，18，21 最後，根據平滑規則為箱1：5.3，5.3，5.3 箱2：12，12，12 箱3：18.3，18.3，18.3 問: 平滑規則為中值平滑? 平滑規則為邊界平滑?,異常資料之處理,叢聚方法叢聚分析可將相似的資料叢聚在一起其餘異常的資料自然的就會分布在叢聚之外也就可以被認定為離群值或是雜質最後再清除或更正這些資料人工處理與電腦處理結合的方法利用電腦的技術幫助找出資料中異常的資料電腦處理之後透過人工的方式對於這些異常進行再一次的檢查及清理資料中的雜質迴歸方法利用概似關係預測某變量值

9、或幫助找出資料中異常的資料,原始資料的整合,原始資料的整合主要在解決綱要整合的問題、多餘屬性的問題以及數值之間衝突的檢測和消除。綱要整合 (Schema Integration) 的問題多餘屬性的問題相關分析大時，A與B可以去除一個。數值之間衝突的檢測和消除,原始資料的轉換,資料正規化 (1)以十為基數的正規化方法 (k是滿足max(v) 1的最小值) (2)最小最大正規化方法 (3)標準差正規化方法,問:請利用指定的正規化方法進行資料正規化: (1)以十為基數的正規化方法 -20, 50, 4, 117, -68, 5 (2)最小最大正規化方法 50, 100, 70, 160,

10、340, 290 (3)標準差正規化方法 8, 12, 25, 4, 10, 28,原始資料的轉換,資料平滑化 (ex. 具小數點數值整數數值) 資料差異化和比例化資料一般化(以抽象或更高層概念的屬性來取代) 資料合計新屬性的創造,資料的減量,運用資料的減量來處理大量或高維度的資料三個主要的減量標的特性的減量資料的減量資料屬性值的減量資料減量，可能會帶來以下的好處：運算的時間預測結果準確度呈現探勘的結果,資料的減量,資料減量演算法應具備的特性品質可以衡量品質可以得知單調性 (可重複使用且效果不變) 穩定性 (不論時間長度與資料品質，結果品質固定。) 隨運行次數增加，

11、資料變動減少。可中斷性 (可隨時終止) 可支配性 (可隨時暫停或重新開始),特性的減量,特性減量之後,資料的優點資料量減少高度的資料探勘處理正確率資料探勘後的結果較為簡單不用浪費太多時間在蒐集不相關或不需要的資料資料特性的選擇對於特性排序的演算法最小子集合的演算法資料特性的合併,資料特性的選擇,特性評估方法的建立相似度衡量以下的公式為當特性是數值時，在兩個樣本下的相似度衡量上面的式子中代表一個數學上的參數，可以描述為數值型的資料最常用來進行相似度衡量的就是歐幾里德距離，下面是利用歐幾里德距離來計算的公式。在上式中的代表的是維度的數目，和代表的是用來對於第個維度

12、進行正規化的最大和最小值。,非數值型的資料漢明距離來進行相似度的橫樑，其公式如下：,資料特性的選擇,熵(Entropy)衡量用來比較在特性移除前與移除後所得的值此公式衡量後所得的值可以用來進行特性的排序,資料特性的選擇,上頁公式衡量後所得的值可以用來進行特性的排序，其演算法如下所示：,資料特性的合併,資料的取樣,利用一小部分的資料或子集合來代表整個資料的母體，而這些透過取樣之後所獲得的資料，必須要具有代表性且能夠忠誠的反應整個母體的資料特性簡單隨機取樣 (放回式與不放回式) 叢聚取樣階層式取樣系統取樣,資料的壓縮,採用編碼的方式，將原來的資料轉換為一個較小的資料集合此資料集合也可

13、以透過解壓縮的程序，還原為原來的資料解壓縮還原後的資料與原來資料完全相同時，為無失真壓縮如無法完全還原為原來的資料，為失真壓縮技術離散小波轉換是資料壓縮經常被使用的技術失真型壓縮可刪除部分離散小波相關係數，但對整體資料不會有太大影響。透過所設定的離散小波相關係數，利用逆轉換方式來解壓縮資料,資料離散化,許多資料庫中的資料都是屬於數值型的資料如要將這些數值型的資料轉換成類別型的資料時,可採用所謂資料離散化(連續屬性概念分層),資料離散化,資料離散化的方法相等的區間頻率和相等的區間寬度方法,資料離散化,最小類別的熵方法在資料集合中的屬性A之熵值可以定義為以前頁上表為例假設

14、資料的剪斷點為將資料集分成兩個子資料集，在這種條件下的熵值為,資料離散化,以上表為例,剪斷點為107 檢測剪斷點113 熵值較小的為較佳的剪斷點,連續屬性概念分層的自動生成連續屬性可以運用離散化遞迴自動生成概念分層，相反概念分層也可以離散化連續屬性。在此，介紹一種熵(Entropy)的離散化技術。這種技術的步驟如下：給定關係表r及其連續屬性A，計算在A的取值區間V上的記錄集合S的熵。,對A在V上取的每個v，用v劃分V為，劃分S為s1、s2，計算在此劃分下， S的熵。,對在V上的每個劃分，計算在此劃分下，S的資訊增益(Information Gain)。,選擇使S的資訊增益最大的劃

15、分作為最佳劃分，記為。遞迴地應用步驟(1)(4)於V1、V2及S1、S2上，直至滿足一定的限制條件，例如，最大增益資訊增益小於某個閥值。,例：假設“氣溫”屬性就是目標屬性，它的取值區間為100,100，在此區間上的屬性值及記錄數如下表所示，採用熵導向的離散化技術生成“氣溫”屬性的概念階層樹。,首先，劃分區間100,100 E(100,100) = - = - (0.24350.31270.53060.5142 0.4728) 2.0378 。。。。。,最佳化分為：,並且產生“氣溫”屬性的概念階層樹的相應最高層與次高層，如圖所示。,試著以熵(Entropy)的離散化技術產出 ”年齡” 屬性的概念階層樹 !,資料離散化,最小描述長度原則的方法修改最小類別的熵方法以下式子成立,剪斷點可接受叢聚法 LERS 採用聚合式叢聚演算法的一個系統,資料離散化,直方圖法等寬方法：在直方圖中，每一個子集合的寬度是相同，如下圖所示: 等高方法：在直方圖中，每一個子集合中的資料數量相同，稱為等高的直方圖。,

展开阅读全文