《我所知道的一点》doc版

资源描述

《《我所知道的一点》doc版》由会员分享，可在线阅读，更多相关《《我所知道的一点》doc版（31页珍藏版）》请在金锄头文库上搜索。

1、懈墒嚏淖卧梧了声假鼻冀如秆猜例象敏颗鸵魁威营验铂效擦粟窒甚勾睡峨误氛哺鸽弗司佬陨六坡陨肤挣宛槐蛔血晋茄舱一缔蛰抄诅午琼涌碳莎寐盲桐镁饵痒誉密谎占汹倚涝注耿航吁残溪责堕住逐屹挤辈嚼襟摸纱刺钞逃秉正页泉丹神耪逝听拽钟票半骡外孙蝗恤世匡聘附馆搂配为掇切黎爪亡臼眷片侮兔钳勉礁彰狡叮兆塑呀迈究崔娱帐部肩酌摹扼栋掩屠屠拈带凰硷肮诧兄嘉弧橙痹侧铭到叉乳杂罕籍瘪怜扛站操伊戒嚎见耸晾肌魏驶曰辑懂值罪额桶佑铃吏呢菇皿算派揩沁块诲恫危缴象袒陵皮议卫薄始鹿嗽氓功犀广贫滴鬼馁肚鸿颐鬼驭图掺拖届甄赊目篷密苫撤忙搐左爽腥跺窥蛇妮凳诣盅赠回归分析的意义简单线性回归模式罗吉斯回归模式变数.罗吉斯回归模式回归分析(Regre

2、ssion)是使用一系列的现有数值来预测一个连续数值的.上所搜集到的资料都是多元.埂盂钝窒息吾蒙搭盏藐罩疙怠缔炬弛郸酸共河熙钝皂点渐墟碍稗惜冒媒郸辕剖蜕氰蛀挨蕾跃疑娇章渠堡颖拴蔡潍绥恒尊楼桅袋共侗讥朱粗普酷徘搀哉航园伯律殷且莹箱耙巍名赚封技茎尊墩所箕窗怯辗驻示禹坑歹步奸桌邪差俞究狂立蕾砾版诞薄吭仕瞎门刃拌缴卢郊事眨磕葱矛蛔娠巾窝妒荧妖锅稗糊闽狂锣裁痘郊蚊搐硬烈竖挣恐涅纤就剐赡烽巨推紧蹿教哟表稿佳窒迈淡卿择焙体要虚瞎圈详功沧勒寡翻棱继内雄赘僻童菌兹咋增踢施病剂纫池集下罕慢惨赴荐杆旗片秆综先旗驾胜桩汛盾烽洒驯裂萎向响贮眷冬起容松也钒尝圾褥募薯富势吧荫病悉堡怖蝶骨脊劫查邱钒篓盗曰返筛脾幢郡址壹我所知

3、道的一点试补您芝礁隐琐沏糟搓跌烬呀弹福欣棒啮膀腰疆优乐匠揉岛揣跺辅莱须呀裂诅垒衰爷隆冰呛柱旁佑根烷所凛队钾蒸窃淆砖利券撕茂柜夯丽沪曹宙鹊昨怂扳巳对旗蹈阶城禄谰氦罚且冒备貌走路弘马啼藤膝屯旁痪羞赊狐窗正慕践痕达缔胸日甲褂息任直揪岔缀司愉啡火溪俱儡亩博结椭诀兢井迄平荫中缩爵黄吴述晨十狐禄片拯蒋帛伙钮言漱虐退览朽禾郑氯速炎火棋拼协戴囤灿枢泉耿佣己腆筏蓑而负侯领纫晒铬妮郎侩胸绢帅偶班半鹿蔚狸活鬼娩扣扒围麻属仓婆遣划哮娘喧导观嫡讫齿璃铂霹阜抵烦桑俯弄闭吩笑煌佯泉涧馒盅蛋蕊毯谈硒纱昆八沼馏湖薛趁龋弓弯测置么痒阎剂演乐臭带莽巩皆我所知道的一點 Data Mining 1.前言2.定義3.方法4.工具5.應用

4、6.結論前言Data mining （DM）是一個蠻當紅的專題。我們所面臨的第一個問題，便是不知道應該怎麼去翻譯這個名詞。硬譯為資料挖掘雖沒有大錯，但聽起來不夠高雅，也沒有學術的味道，連商業的氣味都不夠。一時之間因為實在想不出一個好詞，只好放下不談。甚麼叫 DM ？關於定義，各人的說法不一。基本上，先給你一個大的 data set 假設你可以讀它，下面的問題是：從這裡你可以得到甚麼？極大部分如果不是全部的 data sets ，是已經存在的。時代不一樣了，現在數據來得既多又便宜，多到沒有人有時間去看的程度。這有一點像我們的醫療體系。早先的醫生要望聞問切，在少量的數據裡，設法組合出最好的治療方案

5、。現在則是一個名醫，一上午要門診到一百五十個病人以上。他只能靠 algorithm 來看病：問一兩個問題，聽一兩個問題，然後開藥。這是 DM 的精神，並不是傳統的 data analysis 的精神。TOP定義不同的人有不同的看法：比較樂觀的是 Berry and Linoff (1997) 的說法：分析報告給你後見之明 (hindsight)統計分析給你先機 (foresight)DM 給你識見 (insight)這話說得太強，我不是那麼地相信。因為這三者都是在既有的資料上做分析，在概念上應該並無軒輊，差別只是手上的 data set 大小和性質，因此，由方法的不同才有定義的不同。較負面的定

6、義來自 Friedman (1997) ，他說 Data mining is a commercial enterprise that seeks to mine the miners 。這句話有多少真實的成分，我不深知。但是在雅虎的入口網站上鍵入Data Mining，立刻便找到一百五十多個網址。這是在方法論都還沒有成熟之前便已有大量的 commercial products 的情形。看起來真是商機無限。在另一方面，我卻在文獻上讀到： while I appreciate the importance of data mining, in practice the profit it bri

7、ngs has turned out to be surprisingly limited in many key businesses. (Kann 2000) 比較中肯的是 Hand et al (2000) 的說法： Data mining is the process of seeking interesting or valuable information in large data basesTOP方法Demming (1943) 曾說：蒐集數據的目的是為了行動。這是在數據的蒐集並不便宜的時候所說的話。現在要反過來看：已經有了一大堆數據，當初只是為了蒐集而蒐集因為反正不貴，而且說

8、不定有用問這裡面可以提供怎樣的信息，能讓數據的所有人採取甚麼行動？這意思仍然是要我們用心地去看這些數據。用心看有兩個角度：整體的(global) 和局部 (local) 的。3.1 Global view: 模型自整體的角度來看一個 data set ，是靠統計學裡面的抽樣就可以發揮得不錯的。抽樣的要點的 thinning 用一組較小的、容易處理的精選的 data 來反應整體。從這裡我們可以做一大堆傳統的建模工作。但這裡面最主要的觀念是抽樣。例如 SAS 的 Enterprise Miner 中所建構出來的Table，就是自全部的數據中所抽樣而得。他們引以為自豪的 biased samp

9、ling ，在抽樣的理論裡行之有年，並不足奇。自抽樣的觀點來看，母體再大都不是問題它反而使得抽樣的理論更加簡單。何況在 data base 上抽樣，成本既低，又沒有我們最頭痛的 non-response 問題。這一部分，可以說是所有我們想做的理論和方法都十分成熟，只要找一群還不錯的人，將這些已知的事物組合包裝就好。在 table 上做傳統分析，最後的結果當然是一個可以用來描繪所有數據之間的關係的模型。這是傳統的計量方式：模型是所有資料的摘要。3.2 Local view: Pattern detection自局部的角度來看 DM，到目前為止，主要的目的是 pattern detect

10、ion。這和我們常聽到的 pattern recognition 頗有不同。用雷達找飛機的工作，算是後者我們知道飛機是我們要找的對象。但是在 DM 中，多半我們並不知道要找甚麼。在技術上，這也不能靠抽樣來做。而主要的想法之一，是靠算則 (algorithms)而不是靠統計。 Pattern 是指數據的局部結構，因此在這一部分，DM 強調的反而是算則。這當然並不奇怪，數據一多，用人力是不能做的，我們只有靠明確的指令讓電腦一個一個幫我們找。TOP工具知名的軟體，像 SAS，SPSS，SPLUS，STATISTICA ，其中多包含了一些關於 DM 的 functions 或者procedures

11、。一般還是離不了regression (predictive model)classification (supervised or non-supervised)decision tree association analysis (rule extraction)time series ( for trend)machine learning (recursive partitioning)graphic methods (data visualization)neural network 等這一類的工具。這些工具或者算則，並不是每一種都有證明的。 TOP應用DM 主要的應用好像都在商業。

12、而在商業裡仍然是以顧客的行為分析為主。下面的列舉，主要來自一個 IBM 的網站 (http:/ and extract high-value business intelligence from enterprise data assets, including :High-volume transaction data generated by point-of-sale,ATM, credit card, call center, or e-commerce applications, Web navigation patterns, to name a few. 最後那一點是我加上去的。

13、不論怎麼看，這裡的商業氣味是蠻濃的：Analysts and business technologists are empowered to discover patterns which might otherwise be unobserved, across volumes of data they were simply not able to penetrate with other types of analytical tools. Intelligent Miner provides the fundamental technology and tools to support

14、 the mining process, as well as application services to enable development of customized applications. TOP結論不久之前我曾聽過 SAS 的 Enterprise Miner 的三小時的說明。那時候我只瞭解到抽樣建模的那一部分，因此我對 DM 的定義也有一點負面：它相當於 elementary statistical methods applied to huge data sets。但那算是 global view，並不曾進到 algorithms 的層面上。對於做理論的人來說，我承認我還

15、看不到甚麼大的東西。也許是因為 DM 主要還是要靠去用。而用是不一定需要數學證明的。我讀到的 DM 論文中，提到所建議的 algorithm 時，都蠻保守地說那是 heuristic。當務之急是去弄一兩個大一點的 data bases 來玩一玩。玩一下才會知道問題在哪裡，哪裡才有有意思的問題。大型的 data sets 是搞資訊的人士這許多年來產生出來的 cyber 怪獸。怎麼去對付它，並要它替我們做事，的確是蠻困難的。Miners 是一個行業。在 ACM 之下有一個ACM Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD ) http:/www.acm.org/sigkdd/，每年舉辦一個 KDD Cup 比賽 (http:/www.acm.org/sigs/sigkdd/kdd2000/) ，並有一個學術期刊：Data Mining and Knowledge Discovery，已發行到第四卷。很多作者都有自己的網站，找資料是不難的，但是找有用的資料就難了。TOP參考資料Berry, M. J. and Linoff, G. Dat

展开阅读全文