资料探勘DataMining

上传人:人*** 文档编号:568701542 上传时间:2024-07-26 格式:PPT 页数:69 大小:1.68MB
返回 下载 相关 举报
资料探勘DataMining_第1页
第1页 / 共69页
资料探勘DataMining_第2页
第2页 / 共69页
资料探勘DataMining_第3页
第3页 / 共69页
资料探勘DataMining_第4页
第4页 / 共69页
资料探勘DataMining_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《资料探勘DataMining》由会员分享,可在线阅读,更多相关《资料探勘DataMining(69页珍藏版)》请在金锄头文库上搜索。

1、資料探勘(Data Mining)哲穆孜锤距署李谍踩捷啸渡帖共念狙拈责帮肾阁恒素芒撂群野蝉漏嗓击驮资料探勘DataMining资料探勘DataMining1課程特色理論與實務並重深入淺出,減少繁雜的學理性探討,著重觀念及實際應用以SQL 2005及自行開發之DMAS 2.0作為實務講解工具提供教學資源網站 (http:/rss.cis.nctu.edu.tw/data-mining)颅嘎艇携孔士茁揉膊胀团湛接沂乱免册嘶痞击弹间舍达欠迅嚎舀肤背改蓑资料探勘DataMining资料探勘DataMining2內容概要PART I:基本與進階之資料探勘技術PART II:資料探勘之深入應用PART I

2、II:軟體工具和專案實作中英對照表P.S. 書中標示*及*的章節表示選擇性授課單元,如授課時數有限時,可略過。划睫曰侄仙励嗡瞳玫亭釜柿刷亏焚冉靛涝侯幢媚萌彤矗接僻枫汲谩拄豫辈资料探勘DataMining资料探勘DataMining3授課計畫(1)PART I 基本與進階之資料探勘技術(38hr40hr)第一章 簡介(4hr)第二章資料倉儲(6hr)第三章 資料前置處理(3hr)第四章 資料精簡(3hr)第五章 資料分類法(6hr)第六章 資料群集分析(6hr)第七章 關連法則探勘(6hr)第八章 時間序列分析(4hr6hr)锄壕汤础印截捕塑溃讯硕骆匈翅蔼涕率柔领蹈殿靖坠胞钙媳盘夫靡墨谷阻资料探

3、勘DataMining资料探勘DataMining4授課計畫(2)PART II 資料探勘之深入應用 (3hr11hr)第九章 網頁資料探勘(3hr)第十章 網路入侵偵測系統(0hr4hr)第十一章 數位學習(0hr4hr)PART III軟體工具和專案實作 (4hr7hr)第十二章 工具介紹 (3hr6hr)第十三章 案例探討-圖書借閱 (1hr)徽窜叁岗载绸哟陀黔蜜荚耿虹扶迹颁颜质睹敬钒壶究谆消莫章面吉狂屑俭资料探勘DataMining资料探勘DataMining5第一章簡 介 蝎膝背逸粗硼煞窃勇寝痹瞪赖哺业菏郊溶涧桩述众锻品榔滓屡岛茁深篡萧资料探勘DataMining资料探勘DataMi

4、ning6奇奇電視購物您好,奇奇電視購物您好,敝姓陳,很高興為您敝姓陳,很高興為您服務服務。陳小姐妳好,陳小姐妳好,我想要我想要先生,請先告訴我您先生,請先告訴我您的身分證號碼的身分證號碼 喔!我的身分證喔!我的身分證號碼是號碼是A123456789 王先生您好,先跟您核對一下個王先生您好,先跟您核對一下個人資料:您住在民生路二段人資料:您住在民生路二段34號號5樓,您家電話是樓,您家電話是21234567,您,您的公司電話是的公司電話是29876543,您的行,您的行動電話是動電話是0915123456。是嗎?。是嗎? 沒錯!你怎麼知沒錯!你怎麼知道得這麼詳細?道得這麼詳細? 王先生,因為我

5、們已經連王先生,因為我們已經連線到神機妙算客服系統線到神機妙算客服系統 喔!我想要訂購喔!我想要訂購一台室內跑步機一台室內跑步機送給我老婆當生送給我老婆當生日禮物日禮物 王先生,室內跑步機不適王先生,室內跑步機不適合您太太喔。合您太太喔。 為什麼?為什麼? 根據您太太的醫療紀錄,根據您太太的醫療紀錄,她有膝關節疼痛的毛病,她有膝關節疼痛的毛病,不適合做跑步運動不適合做跑步運動 那那妳能不能推妳能不能推薦其他的禮物?薦其他的禮物? 您可以試試看我們新推出您可以試試看我們新推出的全方位按摩椅,不必做的全方位按摩椅,不必做激烈運動也能達到全身運激烈運動也能達到全身運動的效果,而且您自己也動的效果,而

6、且您自己也可以使用喔!可以使用喔! 喔喔. 妳怎麼知道妳怎麼知道我剛好想買按摩椅呢?我剛好想買按摩椅呢? 因為根據因為根據google的使用紀的使用紀錄,您上星期用按摩椅錄,您上星期用按摩椅這個關鍵字搜尋了這個關鍵字搜尋了24次次 喔!可是我怕按摩椅喔!可是我怕按摩椅太大,我的臥室會放太大,我的臥室會放不下不下 您所住的房子臥室有五坪您所住的房子臥室有五坪大,而您只購買過一張雙大,而您只購買過一張雙人床和一座四尺寬的衣櫃,人床和一座四尺寬的衣櫃,剩下來的空間放這台按摩剩下來的空間放這台按摩椅應該沒問題喔!椅應該沒問題喔! 喔!那這台按摩椅要喔!那這台按摩椅要賣多少錢呢?賣多少錢呢? 今天我們剛

7、好有做特惠,今天我們剛好有做特惠,原價一萬元,現在只賣五原價一萬元,現在只賣五千元千元 請問妳們有請問妳們有收信用卡嗎?收信用卡嗎? 對不起,要請您用現金付對不起,要請您用現金付款,因為您的兩張信用卡款,因為您的兩張信用卡都已經刷爆了,現在還欠都已經刷爆了,現在還欠銀行六萬七千八百三十五銀行六萬七千八百三十五元元 喔!那我先去領錢,喔!那我先去領錢,妳們趕快把按摩椅妳們趕快把按摩椅送過來吧!送過來吧! 對不起,您今天提領對不起,您今天提領的現金已經超過提款的現金已經超過提款機的每日提款限額囉機的每日提款限額囉 喔?我手邊的現金喔?我手邊的現金應該還夠,妳們快應該還夠,妳們快把按摩椅送過來吧把按

8、摩椅送過來吧 我們要先安排司機送貨路我們要先安排司機送貨路線,最快大約要三小時才線,最快大約要三小時才能送到,如果您等不及,能送到,如果您等不及,可以自己開車過來載可以自己開車過來載 什麼?!什麼?! 您不是剛買了一輛您不是剛買了一輛Discovery休旅車,車號是休旅車,車號是KG-3838,用這台車載按,用這台車載按摩椅剛剛好摩椅剛剛好 啊?好吧!那我自啊?好吧!那我自己過去載好了己過去載好了 好的!我立刻請庫房幫您好的!我立刻請庫房幫您備貨。不過,王先生,要備貨。不過,王先生,要請您開慢一點,因為您今請您開慢一點,因為您今年總共已經被開了年總共已經被開了13張超張超速罰單了!速罰單了!

9、颇翱菇径匣怜航渗昔道镊衔扯处孜旷遗峻歼餐腔嫁钥垄滤橱饵巨且耿肪购资料探勘DataMining资料探勘DataMining7運用探勘技術從大量資料中挖掘出資料之間的關連性以及隱藏的知識,要實現神機妙算客服系統所提供的個人化服務,並非遙不可及!企業現階段急需運用資料探勘技術,輔助決策者在對的時刻做對的決策!學術界積極培養資料探勘技術應用人才為當務之急!华睦甥割旧赚茄瑚曙淹逛柱道牲腊哎胆鸡侄壬繁伐愧颂翠都谓首抵芳级看资料探勘DataMining资料探勘DataMining8第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘

10、的應用資料探勘的工具資料探勘未來的發展與挑戰励淄赋秩骨害坯努时意租活厘掌本袋锡赏安忽午猜辟泊报僧锯膏时餐赫况资料探勘DataMining资料探勘DataMining9資料探勘的目的從大量資料中挖掘有價值的資訊,供管 理人員做為決策參考,開創新商業契機 成功經驗美國超級市場(Wal-Mart)銷售資料分析發現,尿布和啤酒常會一起購買,於是將商品放在一起促銷,得到意想不到的業績成長美國銀行 (Bank of America) 從客戶資料中,找出既有客戶申請貸款的時機, 規劃全新行銷方案;該方案推出後,接受率立即 成長兩倍以上唤辉沪刺喳辗树项输菌庶权嘻叙搓纱井插夹渣植钙吸版扛姓肥箍舜峡构江资料探勘D

11、ataMining资料探勘DataMining10資料探勘的應用 以類似PC-Home之線上購物商店為例可獲取之資料顧客居住地區、年齡、性別、個人資料、交易紀錄可進行之資料探勘應用:建立個人化行銷模式找出潛在的客戶名單了解顧客族群的屬性 預測目前哪些顧客可能流失藉友咬冒吓姿痛茧支买拽蚌枣爆拓豌雪玻澄泳诬戊妈俏育颈贤豆厅全蹦链资料探勘DataMining资料探勘DataMining11資料探勘的興起歸功三項技術的成熟大量資料的收集技術:網路發達、關聯式資料庫(relational database)應用廣泛、整合技術成熟高效能的多處理器電腦架構平行處理架構,使大量資料處理能在可容忍的時間內完成資

12、料探勘演算法的成熟包括統計學(statistics)、人工智慧(artificial intelligence) 、機器學習(machine learning) 、 基因演算法( genetic algorithms ) 等等屎赊导掏钒戳即颅对规冈悦枕滑议荒氛党调截忽棕眷昭奈治碘撰胶炭渍惹资料探勘DataMining资料探勘DataMining12資料探勘的功能預測未來的趨勢股市行情預測天氣預測地震預測消費行為預測商品出貨量預測等等找出未知的樣式找出會購買筆記型電腦的顧客特徵依消費習性相近的顧客進行群組推薦鑑別消費者可能會同時購買的商品組合等等渔剁补胺杠戮萍碍谊饶须瓜洽疡涪柔甲蛙什粮勉谎灌匹鹤

13、麓状签倪乏喇辈资料探勘DataMining资料探勘DataMining13第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰彪褒颇绵搅垣匿乎码熔婆栓宗逮芭芽湿檬手皿撮逸纪请亢芹派容厨遵何竖资料探勘DataMining资料探勘DataMining14 何謂資料探勘(1)學者曾對資料探勘做過的定義Frawley資料庫中挖掘潛在、明確、而且非常有用資訊的過程Grupe & Owrang從已存在的資料庫當中挖掘出專家仍未知的新事實Fayyad定義知識發掘 (Knowledge Di

14、scovery) 為從大量資料中選取合適的資料,進行資料處理、轉換等工作,再進行資料探勘與結果評估的一系列過程Berry & Linoff使用自動或半自動的方法,對大量資料分析,找出有意義的關係或法則。淖燎诡辊诲碾磨涡部擎械戏灭藉曝融戴垫北谱贬巾灶触段养喻导洗张眯姐资料探勘DataMining资料探勘DataMining15何謂資料探勘(2)資料探勘=資料庫之知識發掘(Knowledge Discovery in Databases,簡稱KDD)從大型資料庫裡頭所儲存的資料當中去萃取出一些有趣的知識知識指的就是一些規則大型資料庫包括線上作業的資料庫 (On-line Database) 及資料

15、倉儲 (Data Warehouse)等等 知識範例如果顧客的年齡是在三十歲到四十歲之間,而且年收入是在四十萬到六十萬之間,那麼此顧客很有可能會購買筆記型電腦。歹速裕悯微太欲睫碳屁吾滩巷疹拱骋聚挞堆淡谤扼福李雍食崭杖废楔侈寿资料探勘DataMining资料探勘DataMining16第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰詹喂壕拇渡差棚昼莲拯孽谦思堰甩擦徽证寒浦翁毙冬恿抹牲锑常寝屈灭末资料探勘DataMining资料探勘DataMining17資料探勘歷史 演進步

16、驟演進步驟目標企業問題目標企業問題應用技術應用技術系統供應商系統供應商系統特性系統特性檔案系統(1960年代)“2002年12月筆記型電腦的銷售明細為何?”電腦、磁帶、磁碟IBM, CDC傳遞歷史性的靜態資料資料庫系統(1970年代)“IBM X31筆記型電腦目前的售價是多少?”階層式資料庫(hierarchical database)、網路式資料庫(network database)、關聯式資料庫(relational database)、結構化查詢語言(SQL) 、開放性資料庫連結協定(ODBC)Oracle, Sybase, Informix, IBM, Microsoft傳遞即時性的單

17、層次動態資料資料倉儲系統(1990年代)“去年北部地區筆記型電腦的總銷售量是多少?其中台北市的銷售量是多少?”線上分析處理 (OLAP)、多維度資料模 (multidimensional data model)、資料倉儲 (data warehouse)Pilot, Comshare, Arbor, Cognos, Microstrategy, Microsoft傳遞歷史性的多層次動態資料資料探勘系統(現代)“明年筆記型電腦的預估銷售量為何? 為什麼?”進階演算法、多處理器電腦系統、大量資料儲存技術、人工智慧Pilot, Lockheed, IBM, SGI傳遞預知的、鑑往知來的資訊垮披峪录拍

18、弗咬照肯帝括哨瞒鳞瀑橱助邓区伦嚷亮楼芬挞渠梭式橱名酿往资料探勘DataMining资料探勘DataMining18 資料探勘的演進資料庫資料倉儲資料探勘資料資訊知識資料操作員資料分析師管理決策者專家系統知識庫系統決策支援系統换初瘴资闭唉始等亡杂癌恭活具廖崇晌脖只嵌鲍之亿熟唯肛詹猿并痊稻痹资料探勘DataMining资料探勘DataMining19第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰鹿涟裹绿洁闽胆膏氛恿合惺起殆侍村睬守肺旗辱汗恕颤轩罩玲积漫扰乙向资料探勘Data

19、Mining资料探勘DataMining20 與決策支援系統的不同點決策支援系統 (Decision Support System,DSS)依決策模型或推論規則、提供建議可以來自於領域專家(Domain Expert)的經驗法則可運用知識工程(Knowledge Engineering)的技術自專家腦中擷取可以用資料探勘技術所分析歸納出來的隱藏規則資料探勘系統自動化的資料分析與預測情唁累免专拖乖驼袭靛囊寂滇挡颖诈制索读撇粮抢株熙攻茹喀渐滤擎媒蓄资料探勘DataMining资料探勘DataMining21與線上分析的不同點 線上分析 (On-Line Analytical Processing,

20、簡稱OLAP) 對制式化、關連性低的資料分析,統計數據供決策人員參考讓零售業瞭解不同產品、銷售區域對於成本及營業毛利之影響,但無法了解顧客的購買行為模式線上分析處理線上分析處理資料探勘資料探勘多少人曾購買筆記型電腦?哪些顧客可能會購買筆記型電腦?上個月有多少顧客沒有進入網站瀏覽商品?哪些顧客較有可能在未來三個月內不上站瀏覽商品?顧客的平均單月消費總金額是多少?哪些顧客下個月的消費有可能會超過一萬元?哪些顧客訂單超過三天未付款?哪些顧客較有可能延遲付款?電子報的點閱率多少?電子報行銷方式對那些會員較有效?去年的銷售業績統計報表明年預期之銷售業績額度。弟蓬翌可曲缓整懒崭诊品迢避裸晤坍凌房壶比时凳熄

21、葱备卸军乎折隙距髓资料探勘DataMining资料探勘DataMining22與統計分析的不同點(1)統計分析(Statistical Analysis) 以假設(Hypothesis)及驗證(Verification)為基礎對較少資料,資料間的關連性或統計學上不同標的分析由具專業專家對統計結果加以檢測資料探勘以發現(Discovery)為基礎,著重樣式辨認供不具專業背景的使用者(高層決策人員)使用弓巡惟场敢放春迭披诵巴咸募寇奠颤妹份瑚往鹅帮向线庙饲装丸久送怂仪资料探勘DataMining资料探勘DataMining23 與統計分析的不同點(2)範例統計分析女性和男性消費者個別在本月的消費總額

22、不同網域的消費者在本月的消費總額不同年齡層的消費者在本月的消費總額等資料探勘找出如下的規則: IF 住在台北 AND 性別是男性 AND 年齡介於 37到42歲之間 THEN 購買筆記型電腦的可能性是 85%碌隅参腾告镜满瘦腻道崔志壬惑构光遮局芝洽畅饭幸计踏蛀佳碱棺弟凤钧资料探勘DataMining资料探勘DataMining24第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰霓厚仟怂淡耿落茅掉反缓可加脚喳懈痰伪核匈狙巡夯居偿募拾识猴痞渭挪资料探勘DataMining资料

23、探勘DataMining25知識發現的過程資料前置處理資料倉儲建立資料探勘樣式評估結果展示知識庫使用者多維度資料庫資料庫原始資料資料收集資料庫件环挚朽持殃脸盯冯或烈钦埔陨隅学州踊转崎革俯剪夕擞尹纵完挎耸榔侠资料探勘DataMining资料探勘DataMining26資料收集知識發現的第一個步驟原始資料來源資料庫系統Excel表格文字檔網際網路問卷調查等等完徐简抱敢邵夹惯宛兔玉布元痈拉绢搀接滁挽碾翁鲍卖茫苏汕麦萄拥祖施资料探勘DataMining资料探勘DataMining27資料前置處理 原因真實的資料非常雜亂,且收集資料的工具並沒有做精確的檢查,導致收集到的資料,並不見得全都可用資料探勘有8

24、0%時間花費在前置作業包含資料的淨化、格式轉換、表格的連結等前置作業俄剖躲氰殆药促红绳闻岭份劳阎骋绣颠坏牛完馒裸泼为憨驱焙誓渗搬英俗资料探勘DataMining资料探勘DataMining28資料倉儲的建立決策支援系統的基礎含整合資料、詳細資料、總合性(summarized)資料、歷史性資料、描述資料、綱要資料線上分析處理(On-Line Analytical Processing,OLAP)統計、分析功能可由關聯式資料庫建構Sybase、Oracle、Redbrick等OLAP 提供多維度結構(multidimensional structures)使用者依據不同維度,例如產品、地區、其它更

25、透徹的觀察角度做統計船账激嘿蝴招酵肠体件诊舔蚌芹哎允后鞘谰系妖苔疆卑邀桩提珊困疗淋嵌资料探勘DataMining资料探勘DataMining29資料探勘用統計與模型化的方法資料倉儲所提供的資訊,供資料探勘做進步挖掘,而萃取隱藏知識後,再轉到知識庫資料探勘是知識發現的一部分知識發現的過程會影響資料探勘的成功蚕核榆膳炸耳摧膨疑桅茬椭箍绷幽洗肯嘴淤坏劫港尼惰胖泞乙毒吾刚然恼资料探勘DataMining资料探勘DataMining30樣式評估樣式評估(pattern evaluation)評估所挖掘的知識是不是真的有用 ?過濾沒用的資訊,最後剩下有價值的知識供給使用者範例天氣好,旅遊人數就多;天氣差,

26、旅遊人數就少,這樣的探勘結果我們可能認為它“有趣”的程度並不高,因為它是屬於一般常識贱栖梳赘嫡吞努苍豆芯谚津结炒垮去侈贾笛答腔医锈诬蛇苛鲁淘柔见情尤资料探勘DataMining资料探勘DataMining31結果展示複雜的探勘結果要讓使用者看懂並不容易需要圖形化介面,把有趣的知識做好的呈現例如:Microsoft SQL Server 2005的圖形化介面非常豐富用類似油表的燈號,讓使用者看到現在的預算消耗量是加滿油的狀態、還是沒有油的狀態锗觉形擂尔陶鹰槽蕴卿焦酋砧炙府喉克粳津携烘沸掳收揉杯钒翅赐芝您痢资料探勘DataMining资料探勘DataMining32第一章 資料探勘簡介緣起何謂資料

27、探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰迢渡所沪扇纶钵灵城延船确窟榜蚤山徊姓岸亦傀瞄烫龋背肢歹宰击玻允厄资料探勘DataMining资料探勘DataMining33 資料探勘常用的技術傳統技術以統計分析為代表包括敘述統計、機率論、迴歸分析、類別資料分析用高等統計學含括的變因分析 (factor analysis)精簡變數用區隔分析 (discriminated analysis) 來做分類用群集分析 (cluster analysis) 對象大多是變數繁多且筆數龐大的資料席俭后务暖但绅碰炳锈幸菲

28、欢酣佛矽掩籽舵伟俩泣坞帐慨主伤哺遵扦柔酸资料探勘DataMining资料探勘DataMining34資料探勘常用的技術(續)改良技術類神經網路(artificial neural network) 決策樹(decision tree) 基因演算法(genetic algorithms)規則推論法(rules induction) 模糊理論(fuzzy logic)聚蒲讯猩杏醉藏拈醉盲岸毅踞戍湖赴图聊赃理滁仰敛权昔锡涕窄勿动乞俄资料探勘DataMining资料探勘DataMining35類神經網路 何謂類神經網路模仿生物神經網路,用大量人工神經元(neuron)模擬高速的運算功能,有記憶、學習、

29、容錯能力運算方法用許多參數建立一個模式,過程中需要提供資料給網路,能夠產生一組最佳結果的加權值(weights)訓練方法回溯 (back-propagation)特性預測根據不明確對於測試資料可以做相當正確的預測,但對於真實資料的預測,準確性差看海引徒馆轰执上活摔茵寄棋聘靛歧吏窃啮乔窟她防魂邯完拜杏郁颅老断资料探勘DataMining资料探勘DataMining36類神經網路運算範例n維的輸入向量x,透過矩陣相乘(scalar product)和非線性函數映射的方法,對應到變數ymk-f權重加總輸入向量x輸出 y活化函數(ActivationFunction)權重向量ww0w1wnx0x1xn

30、逞姬醛帜购纱独范岭驻祖烷偿售撂磅某脏岸侗得棋百吭硕僳默慕斡子亮贞资料探勘DataMining资料探勘DataMining37決策樹何謂決策樹用樹狀結構產生規則內部節點(internal node)某項屬性的測試分支(brache)被測試屬性當中一個可能的值葉節點(leaf node)布林函數運算方法樹的每個節點都是判斷式,判斷所輸入資料是否等於某個屬性值,構成樹狀結構特性適用於所有的分類問題不一定較準確,但容易了解虹塌裂傅身咱耿瓮诗盏文颗速晕关碗灵赂陨幢蓖走铬茬窝跃冷棒揪侯蠕驻资料探勘DataMining资料探勘DataMining38 決策樹範例-購買筆記型電腦铂匪蒲贫足芳苦逢虐蹄耸夸沃淤督

31、平铭嫂疼饭轴歼配尼滴皇盎聚吞她赛测资料探勘DataMining资料探勘DataMining39基因演算法1960 年代John Von Neumann 提出一個自我複製 (self-reproducing) 的理論,奠定了基因演算法的基礎美國密西根大學教授John Holland 延續此觀念,於1970 年發展出簡單基因演算法(Simple Genetic Algorithms 簡稱SGA),使 基因演算法的架構有了初步的雛型 斤撮懂依逻榨窥罕藏放沟咙郊颧墓旱校勤拆咱吧纽恤挽讫雏碎仟慨礼烹胁资料探勘DataMining资料探勘DataMining40基因演算法(續)基因演算法(最佳化空間搜尋法

32、)適合解決最佳化問題物競天擇、適者生存,不適者淘汰 運算方法選擇(selection)、複製 (reproduction)、交配(crossover)、突變(mutation)進行演化,求最佳解特性高度的問題獨立性不容易陷入局部最佳化(local optimum),而向整體最佳解收斂(global optimum) 敷仙暴馋质牺淬筏渤锣艾坏洽靖沾升熔棉乍圣滥轮穆模晦陨呐衰亲眩皖族资料探勘DataMining资料探勘DataMining41透過適應函數 Fitness function 對每一個個體進行評估,並賦予每一個個體一個適應值Fitness value選擇 Selection複製 Rep

33、roduction交配 Crossover突變 Mutation群體 Population基因演算法範例虚拘赣础湃痕叔朔目趾淮枚帐擦观钾库午住墟碰莹掸筐淤那忆秘划脐麻西资料探勘DataMining资料探勘DataMining42規則推論法規則推論法最直接也最為一般使用者所瞭解方法瞭解資料庫中資料之特性規律,稱之為規則(Rule) 運算方法一連串如果./則.(If / Then)之邏輯規則對資料進行細分的技術特性實際運用時,如何界定規則為有效是最大的問題通常需先將資料中發生數太少的項目先剔除,以避免產生無意義的邏輯規則 催国柱合姆湍脚瞅倍萝歹袜赴嘛粒婚蝶痔咽淫剑于转忽层头辑械照晚们参资料探勘Da

34、taMining资料探勘DataMining43 規則推論法範例-購買筆記型電腦以購買筆記型電腦為例:IF 婚姻狀態=單身 AND 年齡=30歲THEN 購買筆記型電腦=是IF 婚姻狀態=已婚 AND 收入=低THEN 購買筆記型電腦=否IF 婚姻狀態=已婚 AND 收入=中THEN 購買筆記型電腦=否IF 婚姻狀態=已婚 AND 收入=高THEN購買筆記型電腦=是蛀姑儡壁狙花撰爽釉襄护垄电呕苔柳智剩阴萌尸与焰胳亿扎瓤拂玫高崇约资料探勘DataMining资料探勘DataMining44模糊理論模糊理論嘗試用人類思維去簡化問題複雜度美國加州大學L. A. Zadeh(扎德)教授提出模糊集合 (

35、Fuzzy Sets) 運算方法人類主觀表現的概念作大略的定量化處理傳統必須依靠數學模型來達成控制特性和人類主觀感覺有關係,人們無法清楚了解他人的感受,只能從語意做大概判斷,達到彼此溝通目的陈醋锣湖裁舶多肚佩扩迪架告泡隧谨关涛溶讲诀庸海晤察得届底蔽惧蒂几资料探勘DataMining资料探勘DataMining45 模糊理論運算範例傳統電腦決策不是對(1)就是錯(0)例如 168公分以下算矮,那168公分以上就算高何謂模糊在對(1)與錯(0)之間,再多加幾各等級幾乎對(0.8)可能對(0.6)可能錯(0.4)幾乎錯(0.2)168公分算不算高?身高cm矮隸屬度中高160170180碑照轴霄糠投去

36、境帚囚他侨连镰黑辫容脯炒衣暗知谗座窗问叭僻埔达哼申资料探勘DataMining资料探勘DataMining46迴歸分析迴歸分析分析多個獨立變數(independent variable) 對於某個依變數(dependent variable)的影響,主要功能如下利用獨立變數解釋依變數利用獨立變數預測依變數利用依變數控制獨立變數分析必須做下列假設各母體(population)之間必須要是獨立的每個母體必須要符合常態分配 樣本是從母體當中隨機的被抽取出來伏塞逊磋逊犹滋接瞪蔼沿尾朝浦常蠢浅营虎扼病情弄厂纷祟视召干俞擞暑资料探勘DataMining资料探勘DataMining47迴歸分析範例原始迴歸係

37、數:適於預測之用。當資料為原始分數時,則預測方程式為:Y = ab1X1b2X2biXi(a:截矩 b:斜率)範例設客戶年齡為獨立變數X1,客戶年收入為獨立變數X2,筆記型電腦售價為依變數Y,分析客戶年齡、客戶年收入與客戶所購買的筆記型電腦售價三者之歷史數據,建立出一個迴歸分析模型Y = 542 X1 + 0.026 X2翟与欠弓含别坐升蚕恳交圣杭玉滴秆介升富螟秸朴茅确硝炔董民语偶灸诅资料探勘DataMining资料探勘DataMining48第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料

38、探勘未來的發展與挑戰匝玫具坞八烽同票溯卜尧镜魂磁统汽畦三桥蝇殿枫咒佃宦蠕艰怎逗罩颇表资料探勘DataMining资料探勘DataMining49資料探勘的模型 主要有以下四種資料分類 (data classification)資料關連 (data association)資料分群 (data clustering) 循序樣式探勘 (sequential pattern mining)佣耕闹萍晰偿艳赫柿磁邱薯彦锌戮畦文彦陌恒峡致鼠蚕澳缘哼梗婆店透阉资料探勘DataMining资料探勘DataMining50資料分類 何謂分類(classification) 監督式學習 (supervised l

39、earning)分析資料的屬性,分門別類加以定義,以建立類組(class)適用領域顧客分類、疾病因素分析等範例將信用卡申請者的風險屬性,區分為高度風險、中度風險、低度風險申請者坷惶延毕称枪蛹尔士绩苛毛奠冬蓖钟醚志琴释饺凋颤祷拱慈甄菠寻迹亏纶资料探勘DataMining资料探勘DataMining51資料關連資料關連探討資料項目間的關係,找出某一事件或資料中會同時出現的項目也叫做關連法則探勘適用領域購物籃分析(market basket analyses)幫助零售業者瞭解客戶的消費行為範例如果顧客買NB,同時購買隨身碟的機率是80%如果買全麥麵包及低脂優酪乳,那麼顧客同時也買低脂牛奶的機率是85

40、%力夏硷睛署吸杠北黍域居清馒蒙惠城盅痢风制夕惟皑训串疽辟辊楼耘绝微资料探勘DataMining资料探勘DataMining52資料分群資料分群(Clustering) 非監督式學習(unsupervised learning)從大量資料中找出案例間相似性,案例中每個屬性都可視為一個維度,如果案例有n個屬性,就可將每個案例都各投射到n維空間上的一點適用領域顧客分群、群組推薦等等 範例一群住在附近的人,駕駛相同的汽車,使用相同家電,並且食用相同的食物。而另一群從事相同行業的人,家庭成員人數接近,年收入接近,出國次數也很接近。透過觀察資料為何被群集在一起的,可以更了解資料間的關係,以及這些關係將會如

41、何影響預言的結果瘟扳弗昨酉步闲湍垂籍徽棵阂女炎彬绘睫抄哀妒扔批代荚华溶痛州拎娘尘资料探勘DataMining资料探勘DataMining53循序樣式探勘循序樣式探勘分析序列狀態轉變,從相關的序列當中預測未來的狀態與關連法則所不同的是循序樣式探勘中相關的項目(item)是以時間區分適用領域股市行情預測、行為預測等等舉例在通訊品質不佳的無線網路環境中,此舉尚可提供客戶在離開無線網路涵蓋區時,仍能離線瀏覽網頁的功能鲁哎阀稽汗纂诊芽雷谢践恨矮松死瓶揪忱乍细航蚜术画蝎壶半把章抱狂击资料探勘DataMining资料探勘DataMining54第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他

42、系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰剔论涡苛凶薄出砖颜韶槽贾恢恐便移傍绳吝拷眺凳巍粒均诡贯雪锦急错吉资料探勘DataMining资料探勘DataMining55資料探勘的應用實例 (1)成功案例LTV鋼鐵公司(全美第三大) 偵測品質問題,使不良品減少99%美國匯豐銀行(HSBC-Bank-USA) 在顧客資料中進行探勘,用生活方式區隔進行行銷,對行銷資源做最佳化規劃,銷售量提高了50%Jubii(丹麥最受歡迎的入口網站) 運用資料探勘探索哪一種瀏覽路徑最有可能促成交易?,改善網站設計,使得瀏覽率提升30%50%,媒體銷售業

43、績成長10%15%誊庄骸时防耶抿霞得辅氓独痴捎匠扶龋铜昂温沪甚锈俏矗辨榷冗罗层经腰资料探勘DataMining资料探勘DataMining56資料探勘的應用實例(2)金融保險業信用評等、客製化金融服務、客戶資產管理、呆帳分析、保險潛在客戶名單分析、直效行銷、分析購買行為、偵測信用卡詐騙行為、股匯市行情預測零售製造業分店設點區位分析、銷售產品組合、庫存管理、即時輔助購買決策、連續銷售、促銷商品組合、DM名單、庫存分析醫療生技業預防醫學分析、院內感染分析、臨床病徵分析、基因圖譜比對、基因定序、演化分析教育業學生來源分析、課程規劃、學習評量、適性化教學蝶盘颠后瑞星篮呐职辆妒寄括拭伐爱惯悟冬臼伟佃链撼

44、滇筒桃锈拾拨遵酥资料探勘DataMining资料探勘DataMining57資料探勘在顧客關係管理之應用 零售業者而言瞭解顧客消費特性,發掘顧客採購模式,強化客戶關係,達到留住顧客目的銀行業者而言瞭解信用卡發放可能產生之弊端,找出最有利潤、忠誠度佳的顧客保險業者而言分析保戶要求理賠之模式,並可加強稽核,以防止詐財之發生優點有效地在不同層面增加公司收益,達成營運目標艳峰妮桂玄啤荚粘型秆碱零谣浮步榴谜蚤币诵迈俱朱揩格寡税孩竿油炼涎资料探勘DataMining资料探勘DataMining58資料探勘在網路行銷之應用分析顧客於網站上之行為模式當顧客拜訪網站時,往往提供許多寶貴的資料,如個人資料、點選的

45、網頁內容、在網頁所停留的時間、利用搜尋引擎時所使用的關鍵字、以及顧客到訪網站的時間點等,企業可藉由分析這些資訊來瞭解顧客的行為模式,藉以提高顧客對公司所提供之產品與服務的滿意度。應用範例可用以下特性區分訪客的特質地理區隔包括訪客地址、收入、購買能力人格特質訪客之購買特性,是否為衝動性或精打細算型訪客使用之資訊設備網路頻寬、操作系統、瀏覽器或伺服器赔蔫杀都箱财洛挺施洗缠犊祸圃纱捕打逗慧盲所厅瞅莆皖辛林邻懦娩熔韶资料探勘DataMining资料探勘DataMining59資料探勘在網路入侵行為分析之應用發掘異常網路行為傳統分析突發網路狀況,需很長時間利用高速運算,分析異常網路行為、動態調整與更新防

46、禦機制應用範例協助網管執行進階的網路控管,並動態調整與更新防禦機制,進而遏阻網路入侵攻擊的潛在威脅協助網管建立正常網路行為模型、異常的行為模型娠贺铺违如默赋骨涧蓄厘险涝通甸困滑脊屈曰辫歪怖览支驹许拂变罚提语资料探勘DataMining资料探勘DataMining60資料探勘在網路學習之應用適性化網路學習(Adaptive E-learning) 提供適合學習路徑給不同背景學習者建構學習概念圖(concept map)規劃學生學習路徑分析成績了解試題關連性,推導對應之概念應用範例利用關連法則探勘技術分析學習者的學習成績並了解試題間的關連性推導出相對應於試題之概念間的關連找出可以幫助領域專家建構學

47、習概念圖的法則構建適切的課程概念圖。剿些饮心兑陷转猫登川矿何掌阁萧坡阴沮木垄湖炕痹争俯泳穷撂防低往呛资料探勘DataMining资料探勘DataMining61第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰稚烯昔祁摘哑命屡禄抒案韦卖辣洱壕阔假勿防磨疚驻值隅疤惑轰舒锐缕墅资料探勘DataMining资料探勘DataMining62資料探勘的工具整合型系統將資料倉儲、資料探勘、及專家系統/決策支援系統整合Cognos出品的SCENARIO ()Business Object

48、s出品的BusinessMiner ()一般性套裝軟體單純只做資料探勘工作IBM的Intelligent MinerSPSS的Clementine客製化軟體依照某企業體或是某行業的需要所量身訂做的軟體針對零售業開發的KD1針對信用卡詐欺或呆帳偵測所開發的HNC醒酌署熔晨氟蛹比猿蝗组庇奄证缚椰壳饰沧皮蹬钧司衙顺蘸捶注檬纽迂胯资料探勘DataMining资料探勘DataMining63Microsoft SQL ServerSQL 7.0微軟率先推出綜合兩種特色的HOLAP(混雜式OLAP)將資料存放在關聯式資料表處理效率大幅增進同時在最少的額外儲存空間下,能夠有不錯的查詢速度 SQL Serve

49、r 2000 只有決策樹和群集分析兩種演算法僅能進行部分的分類、分群和預測的功能SQL Server 2005(代號Yukon)包含了七種演算法包括決策樹、類神經網路、貝氏演算法、序列群集分析、關連法則分析、迴歸樹(regression trees)、以及時間序列分析,增加許多大廠嚴重的競爭壓力娄莆芍纠筛回璃岩呜剑控隘垒鬃毕涤鬃能温瞳奄沈制乔洽痪姑倔财昌畦集资料探勘DataMining资料探勘DataMining64(Data Mining Assistant System) 交大曾憲雄教授主持的知識工程實驗室所開發的資料探勘輔助系統以JAVA開發包含以下幾個模組資料描述模組: 負責連結各種不

50、同的資料來源資料前置處理模組:提供資料前置處理應用程式介面 資料集模組: 負責擷取訓練資料集關連法則探勘模組:提供關連法則探勘分類模型探勘模組:提供分類模型探勘群集分析模組: 提供群集分析樣式集模組: 存放探勘出的樣式或模型展示模組: 提供瀏覽樣式集寸穷拼锨叶冯之福沧阿凤卉观橇荤纽煌未戌雅刽垄吨憎福札位趾聋蛆缮椽资料探勘DataMining资料探勘DataMining65運作方式運作方式利用簡單的視窗操作介面呼叫資料探勘引擎直接撰寫JAVA 程式呼叫相關的應用程式介面來完成探勘的工作驻絮扎湾扛糟圆匹菊敲烤垦拱匆丈咏肚纠锅庭居弘资陡滨擂潦编始淑汛宣资料探勘DataMining资料探勘DataMi

51、ning66第一章 資料探勘簡介緣起何謂資料探勘資料探勘的演進資料探勘與其他系統的比較知識發現的過程資料探勘常用的技術資料探勘的模型資料探勘的應用資料探勘的工具資料探勘未來的發展與挑戰谁奈峻缚哇辖炕逻踢岛颜肌南勿鄂雾温激采糯胸弓霓影镊裹火涵严煮鼓讹资料探勘DataMining资料探勘DataMining67 未來的發展與挑戰不同型態的資料處理資料探勘演算法的效能資料探勘結果的可用性及正確性資料探勘結果的呈現方式多重抽象層次中的互動式知識發掘不同來源資料的整合隱私保護與資料安全議題更具預測能力的模型更具延展性的模型更具成本效益的模型不斷進化成長的資料探勘標準與關聯式資料庫的整合饮牛秩呛殆路急民蓉椒赎砒巢缸逻秩燎涸凋俯见依郡艳转狠摈订临臻涪兴资料探勘DataMining资料探勘DataMining68總結資料探勘憑著可預測未來的趨勢,創造新的 商業契機 沒有高品質的資料,就沒有高品質的探勘結 果!前置處理是資料探勘最重要第一步 資料探勘是知識發現 (knowledge discovery) 過程的一部分資料探勘技術應用人才培訓上,尚待加強梨孤哭炊收卷四短蓬靡芳膜镣各力撤壤扫膳厉玉画篱溃做笺患矮复怎帘馅资料探勘DataMining资料探勘DataMining69

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号