资料探勘DataMiningC2复习课程

上传人:yuzo****123 文档编号:137293250 上传时间:2020-07-07 格式:PPT 页数:69 大小:323KB
返回 下载 相关 举报
资料探勘DataMiningC2复习课程_第1页
第1页 / 共69页
资料探勘DataMiningC2复习课程_第2页
第2页 / 共69页
资料探勘DataMiningC2复习课程_第3页
第3页 / 共69页
资料探勘DataMiningC2复习课程_第4页
第4页 / 共69页
资料探勘DataMiningC2复习课程_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《资料探勘DataMiningC2复习课程》由会员分享,可在线阅读,更多相关《资料探勘DataMiningC2复习课程(69页珍藏版)》请在金锄头文库上搜索。

1、1,資料探勘(Data Mining),2,課程特色,理論與實務並重 深入淺出,減少繁雜的學理性探討,著重觀念及實際應用 以SQL 2005及自行開發之DMAS 2.0作為實務講解工具 提供教學資源網站 (http:/rss.cis.nctu.edu.tw/data-mining),3,內容概要,PART I:基本與進階之資料探勘技術 PART II:資料探勘之深入應用 PART III:軟體工具和專案實作 中英對照表 P.S. 書中標示*及*的章節表示選擇性授課單元,如授課時數有限時,可略過。,4,授課計畫(1),PART I 基本與進階之資料探勘技術(38hr40hr) 第一章 簡介(4h

2、r) 第二章資料倉儲(6hr) 第三章 資料前置處理(3hr) 第四章 資料精簡(3hr) 第五章 資料分類法(6hr) 第六章 資料群集分析(6hr) 第七章 關連法則探勘(6hr) 第八章 時間序列分析(4hr6hr),6,第一章簡 介,7,為什麼?,8,運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識,要實現神機妙算客服系統所提供的個人化服務,並非遙不可及! 企業現階段急需運用資料探勘技術,輔助決策者在對的時刻做對的決策! 學術界積極培養資料探勘技術應用人才為當務之急!,9,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資

3、料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,10,資料探勘的目的,從大量資料中挖掘有價值的資訊,供管 理人員做為決策參考,開創新商業契機 成功經驗 美國超級市場(Wal-Mart) 銷售資料分析發現,尿布和啤酒常會一起購買,於是將商品放在一起促銷,得到意想不到的業績成長 美國銀行 (Bank of America) 從客戶資料中,找出既有客戶申請貸款的時機, 規劃全新行銷方案;該方案推出後,接受率立即 成長兩倍以上,11,資料探勘的應用,以類似PC-Home之線上購物商店為例 可獲取之資料 顧客居住地區、年齡、性別、個人資料、交易紀錄 可進行之資

4、料探勘應用: 建立個人化行銷模式 找出潛在的客戶名單 了解顧客族群的屬性 預測目前哪些顧客可能流失,12,資料探勘的興起,歸功三項技術的成熟 大量資料的收集技術: 網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟 高效能的多處理器電腦架構 平行處理架構,使大量資料處理能在可容忍的時間內完成 資料探勘演算法的成熟 包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、 基因演算法( genetic algorithms ) 等等,13,資料探勘的功能,預測未來的趨勢

5、股市行情預測 天氣預測 地震預測 消費行為預測 商品出貨量預測等等 找出未知的樣式 找出會購買筆記型電腦的顧客特徵 依消費習性相近的顧客進行群組 推薦鑑別消費者可能會同時購買的商品組合等等,14,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,15,何謂資料探勘(1),學者曾對資料探勘做過的定義 Frawley 資料庫中挖掘潛在、明確、而且非常有用資訊的過程 Grupe & Owrang 從已存在的資料庫當中挖掘出專家仍未知的新事實 Fayyad 定

6、義知識發掘 (Knowledge Discovery) 為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程 Berry & Linoff 使用自動或半自動的方法,對大量資料分析,找出有意義的關係或法則。,16,何謂資料探勘(2),資料探勘=資料庫之知識發掘(Knowledge Discovery in Databases,簡稱KDD) 從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識 知識指的就是一些規則 大型資料庫包括線上作業的資料庫 (On-line Database) 及資料倉儲 (Data Warehouse)等等 知識範例 如果顧客的年

7、齡是在三十歲到四十歲之間,而且年收入是在四十萬到六十萬之間,那麼此顧客很有可能會購買筆記型電腦。,17,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,18,資料探勘歷史,19,資料探勘的演進,20,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,21,與決策支援系統的不同點,決策支援系統 (Decisio

8、n Support System,DSS) 依決策模型或推論規則、提供建議 可以來自於領域專家(Domain Expert)的經驗法則 可運用知識工程(Knowledge Engineering)的技術自專家腦中擷取 可以用資料探勘技術所分析歸納出來的隱藏規則 資料探勘系統 自動化的資料分析與預測,22,與線上分析的不同點,線上分析 (On-Line Analytical Processing,簡稱OLAP) 對制式化、關連性低的資料分析,統計數據供決策人員參考 讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響,但無法了解顧客的購買行為模式,23,與統計分析的不同點(1),統計分析(St

9、atistical Analysis) 以假設(Hypothesis)及驗證(Verification)為基礎 對較少資料,資料間的關連性或統計學上不同標的分析 由具專業專家對統計結果加以檢測 資料探勘 以發現(Discovery)為基礎,著重樣式辨認 供不具專業背景的使用者(高層決策人員)使用,24,與統計分析的不同點(2),範例 統計分析 女性和男性消費者個別在本月的消費總額 不同網域的消費者在本月的消費總額 不同年齡層的消費者在本月的消費總額等 資料探勘 找出如下的規則: IF 住在台北 AND 性別是男性 AND 年齡介於 37到42歲之間 THEN 購買筆記型電腦的可能性是 85%,

10、25,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,26,知識發現的過程,27,資料收集,知識發現的第一個步驟 原始資料來源 資料庫系統 Excel表格 文字檔 網際網路 問卷調查等等,28,資料前置處理,原因 真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用 資料探勘有80%時間花費在前置作業 包含資料的淨化、格式轉換、表格的連結等前置作業,29,資料倉儲的建立,決策支援系統的基礎 含整合資料、詳細資料、

11、總合性(summarized)資料、歷史性資料、描述資料、綱要資料 線上分析處理(On-Line Analytical Processing,OLAP) 統計、分析功能 可由關聯式資料庫建構 Sybase、Oracle、Redbrick等 OLAP 提供多維度結構(multidimensional structures) 使用者依據不同維度,例如產品、地區、其它更透徹的觀察角度做統計,30,資料探勘,用統計與模型化的方法 資料倉儲所提供的資訊,供資料探勘做進步挖掘,而萃取隱藏知識後,再轉到知識庫 資料探勘是知識發現的一部分 知識發現的過程會影響資料探勘的成功,31,樣式評估,樣式評估(patt

12、ern evaluation) 評估所挖掘的知識是不是真的有用 ? 過濾沒用的資訊,最後剩下有價值的知識供給使用者 範例 天氣好,旅遊人數就多;天氣差,旅遊人數就少,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識,32,結果展示,複雜的探勘結果要讓使用者看懂並不容易 需要圖形化介面,把有趣的知識做好的呈現 例如:Microsoft SQL Server 2005的圖形化介面非常豐富 用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態,33,第一章 資料探勘簡介,緣起 何謂資料探勘 資料探勘的演進 資料探勘與其他系統的比較 知識發現的過程 資料

13、探勘常用的技術 資料探勘的模型 資料探勘的應用 資料探勘的工具 資料探勘未來的發展與挑戰,34,資料探勘常用的技術,傳統技術 以統計分析為代表 包括敘述統計、機率論、迴歸分析、類別資料分析 用高等統計學含括的變因分析 (factor analysis)精簡變數 用區隔分析 (discriminated analysis) 來做分類 用群集分析 (cluster analysis) 對象 大多是變數繁多且筆數龐大的資料,35,資料探勘常用的技術(續),改良技術 類神經網路(artificial neural network) 決策樹(decision tree) 基因演算法(genetic al

14、gorithms) 規則推論法(rules induction) 模糊理論(fuzzy logic),36,類神經網路,何謂類神經網路 模仿生物神經網路,用大量人工神經元(neuron)模擬 高速的運算功能,有記憶、學習、容錯能力 運算方法 用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生一組最佳結果的加權值(weights) 訓練方法回溯 (back-propagation) 特性 預測根據不明確 對於測試資料可以做相當正確的預測,但對於真實資料的預測,準確性差,37,類神經網路運算範例,n維的輸入向量x,透過矩陣相乘(scalar product)和非線性函數映射的方法,對應到變

15、數y,mk,-,f,權重加總,輸入向量 x,輸出 y,活化函數 (Activation Function),權重向量 w,w0,w1,wn,x0,x1,xn,38,決策樹,何謂決策樹 用樹狀結構產生規則 內部節點(internal node)某項屬性的測試 分支(brache)被測試屬性當中一個可能的值 葉節點(leaf node)布林函數 運算方法 樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構 特性 適用於所有的分類問題 不一定較準確,但容易了解,39,決策樹範例-購買筆記型電腦,40,基因演算法,1960 年代John Von Neumann 提出一個自我複製 (

16、self-reproducing) 的理論,奠定了基因演算法的基礎 美國密西根大學教授John Holland 延續此觀念,於1970 年發展出簡單基因演算法(Simple Genetic Algorithms 簡稱SGA),使 基因演算法的架構有了初步的雛型,41,基因演算法(續),基因演算法(最佳化空間搜尋法) 適合解決最佳化問題 物競天擇、適者生存,不適者淘汰 運算方法 選擇(selection)、複製 (reproduction)、交配(crossover)、突變(mutation)進行演化,求最佳解 特性 高度的問題獨立性 不容易陷入局部最佳化(local optimum),而向整體最佳解收斂(global optimum),42,基因演算法範例,43,規則推論法,規則推論法 最直接也最為一般使用者所瞭解方法 瞭解資料庫中資料之特性規律,稱之為規則(Rule) 運算方法 一連串如果./則.(If / Then)之邏輯規則對資料進行細分的技術 特性 實際運用時,如何界定規則為有效是最大的問題 通常需先將資料中發

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号