《资料探勘》ppt课件

上传人:tian****1990 文档编号:81624669 上传时间:2019-02-21 格式:PPT 页数:47 大小:306.50KB
返回 下载 相关 举报
《资料探勘》ppt课件_第1页
第1页 / 共47页
《资料探勘》ppt课件_第2页
第2页 / 共47页
《资料探勘》ppt课件_第3页
第3页 / 共47页
《资料探勘》ppt课件_第4页
第4页 / 共47页
《资料探勘》ppt课件_第5页
第5页 / 共47页
点击查看更多>>
资源描述

《《资料探勘》ppt课件》由会员分享,可在线阅读,更多相关《《资料探勘》ppt课件(47页珍藏版)》请在金锄头文库上搜索。

1、資料探勘 第一單元 資料探勘的簡介,資料的預備,本周綱要,資料預備概念與重要性 資料預備的工作項目 原始資料的特性與資料預處理 資料的減量,資料預備概念,何謂資料預備? 資料庫中的原始資料,經常包含許多雜質、不完整或是不一致的資料。 資料預備通常包括了資料的預處理與資料的減量。,資料預處理主要目的在針對原始資料中的雜質(異常)、不完整或不一致的資料進行處理。 資料減量目的為降低原始資料量或資料維度,以減輕進行資料探勘負擔。 資料預備的主要目的在對於原始資料進行預處理與資料減量,將資料以標準格式進行組織及改善資料的質量,以便能夠得到最佳的資料探勘結果。,資料預備的重要性,資料預備包含的工作項目,

2、資料的預處理 資料清理 資料整合 資料轉換 資料的減量 資料的減量之目的就是縮小欲進行探勘資料的數量或是維度,但是基本上以不影響探勘之後的結果為主。,原始資料的類型,數值型的資料 包括實數變數以及整數變數 數值型資料的值是具有順序關係的,例如:3 6, 6 8 數值型資料的值是具有距離關係的,例如:2.5與5.7間的距離為3.2 類別型的資料 類別型的資料又稱為符號型或象徵型的資料 類別型資料僅具備相等或是不相等的關係,例如:黑色黑色,白色紅色 許多常見的資料屬性都屬於類別型資料,如:顏色、姓別、國籍 類別型的資料假如只有兩個值的話,例如:是 / 否,男性 / 女性,通常可以0或1來轉換為數值

3、型的資料 如變數值較多時,如:有N個變數值情形下,就可以N個二位元數值變數去表示,原始資料的類型,以資料值的類型來進行分類 連續變數 區間比例 (零點的定義隨應用而定) 比率比例 (具有絕對的零點) 離散變數 名義變數 (如郵遞區號, ) 次序變數 (次序或等級的關係,如等第, ) 週期變數 (距離的關係,如一週的天數, ) 根據的是資料與時間之間的變動特性關係來進行分類 靜態資料 動態或是臨時性的資料,原始資料的類型,高維度的資料 在資料探勘領域中將資料具有很高維度的情形,稱之為維度的災難 高維度的資料具有以下四個重要的特性: 在同樣的資料密度下,資料受影響的數量將會隨著維度的增加,而呈指數

4、的倍數增加。 需要很大的半徑才能包含大維度空間內的所有資料 幾乎每一個高維度空間的資料點與邊之間的距離都比與其他點的距離近 在高維度的情況下,幾乎每一個點都是離群值,原始資料剛開始的資料量非常龐大 原始資料都是非常雜亂的 原始資料中,可能有不完整、扭曲、記錄錯誤和不充分的資料 資料的不完整,可能在衡量、計算時發生錯誤 造成雜亂的原因為記錄的錯誤,特別是在大量的資料中最容易產生這種情況 扭曲的資料 選擇錯誤的資料衡量方法 錯誤的資料探勘的工具 太過理想化的模式下,原始資料的特性,不一致的資料,不一致的資料所指的是相同的資料卻出現兩種以上不一致的狀況 發生原因: 通常是因為命名規則出現問題(如同一

5、個屬性在不同 表中的名稱不同)、資料格式的不 同,或是資料代 碼的不同。,不完整的資料,在原始資料中,空的資料值或是有所遺漏的資料,都稱之為不完整的資料。 發生原因: 資料屬性並非必須,在進行資料記錄時,易造成時有時無的情形。 資料在當時被認為是不必要的。 誤解或記錄設備的問題,而使得相關的資料未被記錄。 與其他紀錄的內容不一致而被刪除。 資料為歷史的紀錄,而且沒有經過修改與更新。,不完整的資料,處理的方法 通常由進行資料探勘的技術人員,邀集相關知識領域的專家,以其專業的領域經驗,輸入合理、可能或期望的資料。 利用較為簡單且自動化方法來填補資料,以解決資料不完整的情形。 利用一個已事先定義好的

6、單一值來填補所有遺漏的值 利用平均值的方式,填補遺漏的資料 利用分類後的子群組之平均值填補遺漏的資料 利用預測的技術,以求得遺漏的資料最可能的值 迴歸分析、貝氏網路、決策樹或是叢聚方法。,異常的資料,所謂資料中的雜質、異常的資料指的就是資料中存在錯誤或離群值(與大部分資料的分布差距過大)。 發生原因 資料蒐集的設備出現問題。 在記錄資料的過程中,發生人為或是電腦方面的錯誤。 資料在傳輸的過程中產生錯誤。,異常的資料,處理的方法 人工的離群值偵測方法 在離群值的偵測技術中,假如資料的維度在三以下時,最方便的偵測方法就是利用視覺化的方法。 自動的離群值偵測技術 統計的方法 以距離為基礎的方法 以偏

7、差為基礎的方法,異常資料之處理,Binning方法 分配的方法有等高式和等寬式,如圖所示 等高式資料分配方式,指的是每一個箱子中的資料數目皆相等 等寬式的分配方法則是每個箱子中的值之間距 (箱子中最大值和最小值差距) 相等,一般而言寬度愈大,平滑效果愈明顯 分配好每個箱子中的資料後,隨即可以進行資料的平滑化 平均值法資料平滑化技術 中值法資料平滑化技術 邊界法資料平滑化技術,例:假設某屬性的值為18,12,3,9,7,6,15,21,16,採用分配技術平滑資料消除噪音。分佈規則為等高,高度為3,平滑規則為平均值平滑。 首先,將屬性的值排序為3,6,7,9,12,15,16,18,21 然後,分

8、佈規則(等高,高度為3)將資料分佈為 箱1:3,6,7 箱2:9,12,15 箱3:16,18,21 最後,根據平滑規則為 箱1:5.3,5.3,5.3 箱2:12,12,12 箱3:18.3,18.3,18.3 問: 平滑規則為中值平滑? 平滑規則為邊界平滑?,異常資料之處理,叢聚方法 叢聚分析可將相似的資料叢聚在一起 其餘異常的資料自然的就會分布在叢聚之外 也就可以被認定為離群值或是雜質 最後再清除或更正這些資料 人工處理與電腦處理結合的方法 利用電腦的技術幫助找出資料中異常的資料 電腦處理之後透過人工的方式對於這些異常進行再一次的檢查及清理資料中的雜質 迴歸方法 利用概似關係預測某變量值

9、或幫助找出資料中異常的資料,原始資料的整合,原始資料的整合主要在解決綱要整合的問題、多餘屬性的問題以及數值之間衝突的檢測和消除。 綱要整合 (Schema Integration) 的問題 多餘屬性的問題 相關分析 大時,A與B可以去除一個。 數值之間衝突的檢測和消除,原始資料的轉換,資料正規化 (1)以十為基數的正規化方法 (k是滿足max(v) 1的最小值) (2)最小最大正規化方法 (3)標準差正規化方法,問:請利用指定的正規化方法進行資料正規化: (1)以十為基數的正規化方法 -20, 50, 4, 117, -68, 5 (2)最小最大正規化方法 50, 100, 70, 160,

10、340, 290 (3)標準差正規化方法 8, 12, 25, 4, 10, 28,原始資料的轉換,資料平滑化 (ex. 具小數點數值 整數數值) 資料差異化和比例化 資料一般化(以抽象或更高層概念的屬性來取代) 資料合計 新屬性的創造,資料的減量,運用資料的減量來處理大量或高維度的資料 三個主要的減量標的 特性的減量 資料的減量 資料屬性值的減量 資料減量,可能會帶來以下的好處: 運算的時間 預測結果準確度 呈現探勘的結果,資料的減量,資料減量演算法應具備的特性 品質可以衡量 品質可以得知 單調性 (可重複使用且效果不變) 穩定性 (不論時間長度與資料品質,結果品質固定。) 隨運行次數增加,

11、資料變動減少。 可中斷性 (可隨時終止) 可支配性 (可隨時暫停或重新開始),特性的減量,特性減量之後,資料的優點 資料量減少 高度的資料探勘處理正確率 資料探勘後的結果較為簡單 不用浪費太多時間在蒐集不相關或不需要的資料 資料特性的選擇 對於特性排序的演算法 最小子集合的演算法 資料特性的合併,資料特性的選擇,特性評估方法的建立 相似度衡量 以下的公式為當特性是數值時,在兩個樣本下的 相似度衡量 上面的式子中 代表一個數學上的參數,可以描述為 數值型的資料 最常用來進行相似度衡量的就是歐幾里德距離,下面是利用歐幾里德距離來計算的公式。 在上式中的代表的是維度的數目,和代表的是用來對於第個維度

12、進行正規化的最大和最小值。,非數值型的資料 漢明距離來進行相似度的橫樑,其公式如下:,資料特性的選擇,熵(Entropy)衡量 用來比較在特性移除前與移除後所得的值 此公式衡量後所得的值可以用來進行特性的排序,資料特性的選擇,上頁公式衡量後所得的值可以用來進行特性的排序,其演算法如下所示:,資料特性的合併,資料的取樣,利用一小部分的資料或子集合來代表整個資料的母體,而這些透過取樣之後所獲得的資料,必須要具有代表性且能夠忠誠的反應整個母體的資料特性 簡單隨機取樣 (放回式與不放回式) 叢聚取樣 階層式取樣 系統取樣,資料的壓縮,採用編碼的方式,將原來的資料轉換為一個較小的資料集合 此資料集合也可

13、以透過解壓縮的程序,還原為原來的資料 解壓縮還原後的資料與原來資料完全相同時,為無失真壓縮 如無法完全還原為原來的資料,為失真壓縮技術 離散小波轉換是資料壓縮經常被使用的技術 失真型壓縮 可刪除部分離散小波相關係數,但對整體資料不會有太大影響。 透過所設定的離散小波相關係數,利用逆轉換方式來解壓縮資料,資料離散化,許多資料庫中的資料都是屬於數值型的資料 如要將這些數值型的資料轉換成類別型的資料時,可採用所謂資料離散化(連續屬性概念分層),資料離散化,資料離散化的方法 相等的區間頻率和相等的區間寬度方法,資料離散化,最小類別的熵方法 在資料集合 中的屬性A之熵值 可以定義為 以前頁上表為例 假設

14、資料的剪斷點為 將資料集分成兩個子資料集 ,在這種條件下的熵值為,資料離散化,以上表為例,剪斷點為107 檢測剪斷點113 熵值較小的為較佳的剪斷點,連續屬性概念分層的自動生成連續屬性可以運用離散化遞迴自動生成概念分層,相反概念分層也可以離散化連續屬性。在此,介紹一種熵(Entropy)的離散化技術。這種技術的步驟如下: 給定關係表r及其連續屬性A,計算在A的取值區間V上的記錄集合S的熵。,對A在V上取的每個v,用v劃分V為 ,劃分S為s1、s2, 計算在此 劃分下, S的熵。,對在V上的每個劃分 ,計算在此劃分下,S的資訊增益(Information Gain)。,選擇使S的資訊增益最大的劃

15、分作為最佳劃分,記為 。 遞迴地應用步驟(1)(4)於V1、V2及S1、S2上,直至滿足一定的限制條件,例如,最大增益資訊增益小於某個閥值。,例:假設“氣溫”屬性就是目標屬性,它的取值區間為100,100,在此區間上的屬性值及記錄數如下表 所示,採用熵導向的離散化技術生成“氣溫”屬性 的概念階層樹。,首先,劃分區間100,100 E(100,100) = - = - (0.24350.31270.53060.5142 0.4728) 2.0378 。 。 。 。 。,最佳化分為:,並且產生“氣溫”屬性的概念階層樹的相應最高層與 次高層,如圖所示。,試著以熵(Entropy)的離散化技術產出 ”年齡” 屬性的概念階層樹 !,資料離散化,最小描述長度原則的方法 修改最小類別的熵方法 以下式子成立,剪斷點可接受 叢聚法 LERS 採用聚合式叢聚演算法的一個系統,資料離散化,直方圖法 等寬方法:在直方圖中,每一個子集合的寬度是相同,如下圖所示: 等高方法:在直方圖中,每一個子集合中的資料數量相同,稱為等高的直方圖。,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号