资料探勘DataMining1教材课程

上传人:yuzo****123 文档编号:137293235 上传时间:2020-07-07 格式:PPT 页数:101 大小:988KB
返回 下载 相关 举报
资料探勘DataMining1教材课程_第1页
第1页 / 共101页
资料探勘DataMining1教材课程_第2页
第2页 / 共101页
资料探勘DataMining1教材课程_第3页
第3页 / 共101页
资料探勘DataMining1教材课程_第4页
第4页 / 共101页
资料探勘DataMining1教材课程_第5页
第5页 / 共101页
点击查看更多>>
资源描述

《资料探勘DataMining1教材课程》由会员分享,可在线阅读,更多相关《资料探勘DataMining1教材课程(101页珍藏版)》请在金锄头文库上搜索。

1、資料探勘 (Data Mining),蔡懷寬 D7526010csie.ntu.edu.tw,Please tell me,Why you are here? Make a definition of Data Mining,?,Input,Output,道,Input,Output,Linear System,Input,Input,?,Input,Nonlinear System,Input,?,Chaotic System,Input,Introduction,What is data mining? Why data mining? How to do data mining? Dat

2、a Mining: On what kind of data? Data preprocessing Association rules Clustering Classification,DATA?,“Data Structure”,Wisdom,Knowledge,Information,Data,“Data Structure”,資料(Data) 未經處理的資訊 資訊(Information) 經某人組織,展現的資料 知識(Knowledge) 資訊經過讀,看,聽後理解而得到了知識 智慧(Wisdom) 知識經過精煉,整合後萃取出的精華,有哪些資料 ?,文字 書籍, 期刊, WWW, 備

3、忘錄, 刊載/參考 膠捲 照片, 其它影像 廣播, 電視 電話通訊 資料庫,資料量:以美國國會圖書館為例,國會圖書館藏書量 (1999) 書: 約 20 Terabytes(1012 bytes) 20M books 1 MB per book 其他資料 13M 影像照片, 1MB each = 13 TB 4M 地圖, say 200 TB 500K 檔案, 1GB each = 500 TB 3.5M 有聲資料, 2000 TB 總計: 約3 petabytes (3000 terabytes),網路世界.,在1999年有約 800 Million Web Page在網際網路上 Faulk

4、ers Cyberscape Digest 08/06/99 網路的交通流量是每 100 天成長二倍 估計有 62 Million 美國人已經在使用網際網路 (US Commerce Dept 1998) 廣播節目花了 38 年才得到五千萬聽眾, 電視節目花了 13 年, 而網際網路才花了 4 年.,資訊生命週期(Information Life Cycle),資訊產生的問題,資訊儲存 如何且在哪裡儲存資訊 ? 資訊擷取 如何從儲存的資料還原成資訊 如何找到所需要的資訊 如何和 存取(Accessing)/過濾(Filtering)的方法連結,Key Issues,Data Mining ?,

5、DEFINITION,DATA MINING 就是從資料中裡,將隱含的、潛在性有用的及不清楚的資料,挖掘、淬取出來的過程。也就是說從資料中挖掘以前不知道的知識。 相關名詞 :知識淬取(knowledge extraction)資料打撈(data dredging)資料考古學(data archaeology),遠古至今即存在Data Mining,月暈知風 礎潤知雨 晚上起霧第二天晴天 看到媽媽拿鞭子落跑 這些在我們的傳統用法稱之為: 經驗法則,Data Mining 之演進過程,Statistics 1800?,Pattern Recognition 1970,Rule induction

6、Machine learning 1980,Expert Systems 1970,Relational Databases, Triggers 1980,Knowledge Discovery for Databases (KDD) 1990,MIS decision support 1990,Data Mining 1995,Why Data Mining,Necessity is the Mother of Invention!,Data Mining 為何興起?,商品條碼之廣泛使用 企業界之電腦化 數以百萬計之資料庫正在使用 多年來累積了大量企業交易資料 Data Knowledge,

7、Data Mining 之同義詞,Knowledge Discovery in Databases (KDD) Knowledge Extraction Data archaeology Data Patten Analysis,主要功用,從資料庫中挖掘知識 了解使用者行為 幫助企業作決策 增進商機 Too much!,Data Mining 應用例子(1),樂透,Data Mining 應用例子(2),超級市場 牛奶與白麵包 啤酒與香菸 啤酒與尿布,Data Mining 應用例子(3),NBA 美國職籃 1996, 紐約尼克隊 總教練 Pat Riley 運用Data Mining 發現:

8、 出戰芝加哥公牛隊,尼克中鋒尤恩被包夾時,得分率偏低,一般被包夾防守時,有一人空出來,可輕鬆投籃得分,Data Mining 應用例子(4),搜尋網站 GOOGLE,Data Mining 應用例子(5),公司對客戶的市場分析,例如: 消費習慣、客戶分群、消費預測 例子: 超級市場、錄影帶出租店、信用卡,Data Mining 應用例子(7),大宇宙的預測: 天氣預測 地震預測 土石流預測 慧星撞地球 ,Data Mining 應用例子(8),小宇宙的預測 疾病預測 基因功能預測 結構預測 ,How to Do Data Mining?,First of all, you have to le

9、arn How to put your data Database Then, you have to do data preprocessing Finally, you should have some weapons : Data mining techniques,Typical Data Mining System,Data Warehouse,Why Data Preprocessing?,Data in the real world is dirty incomplete: lacking attribute values, lacking certain attributes

10、of interest, or containing only aggregate data noisy: containing errors or outliers inconsistent: containing discrepancies in codes or names No quality data, no quality mining results! Quality decisions must be based on quality data Data warehouse needs consistent integration of quality data,Major T

11、asks in Data Preprocessing,Data cleaning Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies Data integration Integration of multiple databases, data cubes, or files Data transformation Normalization and aggregation Data reduction Obtains reduced repre

12、sentation in volume but produces the same or similar analytical results Data discretization Part of data reduction but with particular importance, especially for numerical data,Data Mining 主要方法介紹,關聯規則 (Association rule) 屬性導向歸納法(Attribute Oriented Induction) 資料分類 (Classification) 資料分群 (Data Clusterin

13、g) 模式導向相似性搜尋(Pattern-Based Similarity Search) 資料方塊法 (Data Cube) Sequence Pattern Mining,關聯規則 Association Rule,同一個交易中,一個item出現也會引起另一個item的出現 Association rule例子 若顧客購買麵包,則他很可能也會購買牛奶 Association rule: 麵包 = 牛奶 P(牛奶|麵包) 的機率值高,關聯規則之 可信度 (confidence),關聯規則 A = B 可信度為: 在A出現之條件下出現B之機率 例子: 資料庫中的交易紀錄如下: t1: (,麵包

14、,牛奶,) t2: (,麵包,.) t3: (,麵包,牛奶,) t4: () 請問 麵包 = 牛奶 之可信度為多少?,關聯規則之 可信度 (Confidence),資料庫中的交易紀錄 t1: (,麵包,牛奶,) t2: (,麵包,.) t3: (,麵包,牛奶,) t4: () 可信度= P(B|A) = P(A,B)/P(A),P(牛奶|麵包) =,P(麵包 ,牛奶),P(麵包),N(麵包 ,牛奶),N(麵包),=,關聯規則之 支持度 (Support),關聯規則 A = B 支持度為: A與B同時出現之機率 P(A, B) 例子: 資料庫中的交易紀錄如下: t1: (,麵包,牛奶,) t2:

15、 (,麵包,.) t3: (,麵包,牛奶,) t4: () 請問 麵包 = 牛奶 之支持度為多少?,練習,交易編號購買產品 T1(K, A, D, B) T2(D, A, C, E, B) T3(C, A, B, E) T4(B, A, D) 關聯規則 A= D 之 可信度 為多少? 關聯規則 A= D 之 支持度 為多少?,練習,交易編號購買產品 T1(K, A, D, B) T2(D, A, C, E, B) T3(C, A, B, E) T4(B, A, D) 請找出可信度 = 60% 支持度 = 50%之關聯規則,Interestingness of Association Rules

16、,調查學生早餐: 打棒球: 60% 吃麥片: 75% 打棒球且吃麥片: 40% P(吃麥片|打棒球)=P(吃麥片打棒球) / P(打棒球) = 40% / 60% = 0.66 打棒球 = 吃麥片 (66%) P(吃麥片) = 75%,Attribute Oriented Induction屬性導向歸納法,Concept Tree : general to specific,加拿大 某大學資料庫,ANY Canada foreign B.C Ontario China India Vancouver Victoria Beijing . Bombay ,出生地之 Concept Tree,Bumaby, .,Vancouver,Victoria British Columbia Calgary, .Edmonton,Lethbridge Alberta Hamilton

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 中学教育 > 教学课件 > 高中课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号