课件资料探勘DataMining上课讲义

上传人:yuzo****123 文档编号:137094089 上传时间:2020-07-05 格式:PPT 页数:69 大小:430.50KB
返回 下载 相关 举报
课件资料探勘DataMining上课讲义_第1页
第1页 / 共69页
课件资料探勘DataMining上课讲义_第2页
第2页 / 共69页
课件资料探勘DataMining上课讲义_第3页
第3页 / 共69页
课件资料探勘DataMining上课讲义_第4页
第4页 / 共69页
课件资料探勘DataMining上课讲义_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《课件资料探勘DataMining上课讲义》由会员分享,可在线阅读,更多相关《课件资料探勘DataMining上课讲义(69页珍藏版)》请在金锄头文库上搜索。

1、1,資料探勘(DataMining),2,課程特色,理論與實務並重深入淺出,減少繁雜的學理性探討,著重觀念及實際應用以SQL2005及自行開發之DMAS2.0作為實務講解工具提供教學資源網站(http:/rss.cis.nctu.edu.tw/data-mining),3,內容概要,PARTI:基本與進階之資料探勘技術PARTII:資料探勘之深入應用PARTIII:軟體工具和專案實作中英對照表P.S.書中標示*及*的章節表示選擇性授課單元,如授課時數有限時,可略過。,4,授課計畫(1),PARTI基本與進階之資料探勘技術(38hr40hr)第一章簡介(4hr)第二章資料倉儲(6hr)第三章資料

2、前置處理(3hr)第四章資料精簡(3hr)第五章資料分類法(6hr)第六章資料群集分析(6hr)第七章關連法則探勘(6hr)第八章時間序列分析(4hr6hr),6,第一章簡介,7,為什麼?,8,運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識,要實現神機妙算客服系統所提供的個人化服務,並非遙不可及!企業現階段急需運用資料探勘技術,輔助決策者在對的時刻做對的決策!學術界積極培養資料探勘技術應用人才為當務之急!,9,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰

3、,10,資料探勘的目的,從大量資料中挖掘有價值的資訊,供管理人員做為決策參考,開創新商業契機成功經驗美國超級市場(Wal-Mart)銷售資料分析發現,尿布和啤酒常會一起購買,於是將商品放在一起促銷,得到意想不到的業績成長美國銀行(BankofAmerica)從客戶資料中,找出既有客戶申請貸款的時機,規劃全新行銷方案;該方案推出後,接受率立即成長兩倍以上,11,資料探勘的應用,以類似PC-Home之線上購物商店為例可獲取之資料顧客居住地區、年齡、性別、個人資料、交易紀錄可進行之資料探勘應用:建立個人化行銷模式找出潛在的客戶名單了解顧客族群的屬性預測目前哪些顧客可能流失,12,資料探勘的興起,歸功

4、三項技術的成熟大量資料的收集技術:網路發達、關聯式資料庫(relationaldatabase)應用廣泛、整合技術成熟高效能的多處理器電腦架構平行處理架構,使大量資料處理能在可容忍的時間內完成資料探勘演算法的成熟包括統計學(statistics)、人工智慧(artificialintelligence)、機器學習(machinelearning)、基因演算法(geneticalgorithms)等等,13,資料探勘的功能,預測未來的趨勢股市行情預測天氣預測地震預測消費行為預測商品出貨量預測等等找出未知的樣式找出會購買筆記型電腦的顧客特徵依消費習性相近的顧客進行群組推薦鑑別消費者可能會同時購買的

5、商品組合等等,14,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰,15,何謂資料探勘(1),學者曾對資料探勘做過的定義Frawley資料庫中挖掘潛在、明確、而且非常有用資訊的過程Grupe&Owrang從已存在的資料庫當中挖掘出專家仍未知的新事實Fayyad定義知識發掘(KnowledgeDiscovery)為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程Berry&Linoff使用自動或半自動的方法,對大量資料分析,找出有

6、意義的關係或法則。,16,何謂資料探勘(2),資料探勘=資料庫之知識發掘(KnowledgeDiscoveryinDatabases,簡稱KDD)從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識知識指的就是一些規則大型資料庫包括線上作業的資料庫(On-lineDatabase)及資料倉儲(DataWarehouse)等等知識範例如果顧客的年齡是在三十歲到四十歲之間,而且年收入是在四十萬到六十萬之間,那麼此顧客很有可能會購買筆記型電腦。,17,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具

7、資料探勘未來的發展與挑戰,18,資料探勘歷史,19,資料探勘的演進,20,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰,21,與決策支援系統的不同點,決策支援系統(DecisionSupportSystem,DSS)依決策模型或推論規則、提供建議可以來自於領域專家(DomainExpert)的經驗法則可運用知識工程(KnowledgeEngineering)的技術自專家腦中擷取可以用資料探勘技術所分析歸納出來的隱藏規則資料探勘系統自動化的資料分析與預測,22,與線上分

8、析的不同點,線上分析(On-LineAnalyticalProcessing,簡稱OLAP)對制式化、關連性低的資料分析,統計數據供決策人員參考讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響,但無法了解顧客的購買行為模式,23,與統計分析的不同點(1),統計分析(StatisticalAnalysis)以假設(Hypothesis)及驗證(Verification)為基礎對較少資料,資料間的關連性或統計學上不同標的分析由具專業專家對統計結果加以檢測資料探勘以發現(Discovery)為基礎,著重樣式辨認供不具專業背景的使用者(高層決策人員)使用,24,與統計分析的不同點(2),範例統計

9、分析女性和男性消費者個別在本月的消費總額不同網域的消費者在本月的消費總額不同年齡層的消費者在本月的消費總額等資料探勘找出如下的規則:IF住在台北AND性別是男性AND年齡介於37到42歲之間THEN購買筆記型電腦的可能性是85%,25,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰,26,知識發現的過程,27,資料收集,知識發現的第一個步驟原始資料來源資料庫系統Excel表格文字檔網際網路問卷調查等等,28,資料前置處理,原因真實的資料非常雜亂,且收集資料的工具並沒有做

10、精確的檢查,導致收集到的資料,並不見得全都可用資料探勘有80%時間花費在前置作業包含資料的淨化、格式轉換、表格的連結等前置作業,29,資料倉儲的建立,決策支援系統的基礎含整合資料、詳細資料、總合性(summarized)資料、歷史性資料、描述資料、綱要資料線上分析處理(On-LineAnalyticalProcessing,OLAP)統計、分析功能可由關聯式資料庫建構Sybase、Oracle、Redbrick等OLAP提供多維度結構(multidimensionalstructures)使用者依據不同維度,例如產品、地區、其它更透徹的觀察角度做統計,30,資料探勘,用統計與模型化的方法資料倉

11、儲所提供的資訊,供資料探勘做進步挖掘,而萃取隱藏知識後,再轉到知識庫資料探勘是知識發現的一部分知識發現的過程會影響資料探勘的成功,31,樣式評估,樣式評估(patternevaluation)評估所挖掘的知識是不是真的有用?過濾沒用的資訊,最後剩下有價值的知識供給使用者範例天氣好,旅遊人數就多;天氣差,旅遊人數就少,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識,32,結果展示,複雜的探勘結果要讓使用者看懂並不容易需要圖形化介面,把有趣的知識做好的呈現例如:MicrosoftSQLServer2005的圖形化介面非常豐富用類似油表的燈號,讓使用者看到現在的預算消耗量是加

12、滿油的狀態、還是沒有油的狀態,33,第一章資料探勘簡介,緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰,34,資料探勘常用的技術,傳統技術以統計分析為代表包括敘述統計、機率論、迴歸分析、類別資料分析用高等統計學含括的變因分析(factoranalysis)精簡變數用區隔分析(discriminatedanalysis)來做分類用群集分析(clusteranalysis)對象大多是變數繁多且筆數龐大的資料,35,資料探勘常用的技術(續),改良技術類神經網路(artificialneuraln

13、etwork)決策樹(decisiontree)基因演算法(geneticalgorithms)規則推論法(rulesinduction)模糊理論(fuzzylogic),36,類神經網路,何謂類神經網路模仿生物神經網路,用大量人工神經元(neuron)模擬高速的運算功能,有記憶、學習、容錯能力運算方法用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生一組最佳結果的加權值(weights)訓練方法回溯(back-propagation)特性預測根據不明確對於測試資料可以做相當正確的預測,但對於真實資料的預測,準確性差,37,類神經網路運算範例,n維的輸入向量x,透過矩陣相乘(scala

14、rproduct)和非線性函數映射的方法,對應到變數y,mk,-,f,權重加總,輸入向量x,輸出y,活化函數(ActivationFunction),權重向量w,w0,w1,wn,x0,x1,xn,38,決策樹,何謂決策樹用樹狀結構產生規則內部節點(internalnode)某項屬性的測試分支(brache)被測試屬性當中一個可能的值葉節點(leafnode)布林函數運算方法樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構特性適用於所有的分類問題不一定較準確,但容易了解,39,決策樹範例-購買筆記型電腦,40,基因演算法,1960年代JohnVonNeumann提出一個自

15、我複製(self-reproducing)的理論,奠定了基因演算法的基礎美國密西根大學教授JohnHolland延續此觀念,於1970年發展出簡單基因演算法(SimpleGeneticAlgorithms簡稱SGA),使基因演算法的架構有了初步的雛型,41,基因演算法(續),基因演算法(最佳化空間搜尋法)適合解決最佳化問題物競天擇、適者生存,不適者淘汰運算方法選擇(selection)、複製(reproduction)、交配(crossover)、突變(mutation)進行演化,求最佳解特性高度的問題獨立性不容易陷入局部最佳化(localoptimum),而向整體最佳解收斂(globalop

16、timum),42,基因演算法範例,43,規則推論法,規則推論法最直接也最為一般使用者所瞭解方法瞭解資料庫中資料之特性規律,稱之為規則(Rule)運算方法一連串如果./則.(If/Then)之邏輯規則對資料進行細分的技術特性實際運用時,如何界定規則為有效是最大的問題通常需先將資料中發生數太少的項目先剔除,以避免產生無意義的邏輯規則,44,規則推論法範例-購買筆記型電腦,以購買筆記型電腦為例:IF婚姻狀態=單身AND年齡=30歲THEN購買筆記型電腦=是IF婚姻狀態=已婚AND收入=低THEN購買筆記型電腦=否IF婚姻狀態=已婚AND收入=中THEN購買筆記型電腦=否IF婚姻狀態=已婚AND收入=高THEN購買筆記型電腦=是,45,模糊理論,模糊理論嘗試用人類思維去簡化問題複雜度美國加州大學L.A.Zadeh(扎德)教授提出模糊集合(FuzzySets)運算方法人類主觀表現的概念作大略的定量化處理傳統必須依靠數學模型來達成控制特性和人類主觀感覺有關係,人們無法清楚了解他人的感受,只能從語意做大概判斷,達到彼此溝通目的,46,模糊理論運算範例,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号