资料采矿方法论－金锄头文库

资源描述

《资料采矿方法论》由会员分享，可在线阅读，更多相关《资料采矿方法论（41页珍藏版）》请在金锄头文库上搜索。

1、資料採礦方法論前言n介紹資料採礦的兩種基本模式：假設檢定及知識發掘，提出步驟及範例。n次序一、假設檢定過程二、監督式知識發掘三、非監督式知識發掘四、實際的問題五、案例基本模式n假設檢定(Hypothesis Testing)：由上而下將可能的解釋賦予觀察到的現象，並將假設套用在原始資料上檢視解釋是否正確。n知識發掘(Knowledge Discovery)：由下而上分析原始資料，從中找出有用的規則或訊息，又被稱作機械學習。假設檢定過程介紹假設檢定的過程n構思合理的假設n決定採用哪些樣本供測試n找出樣本資料n統整資料以供分析n根據資料建立電腦分析模型n評估假設是否正確假設檢定的

2、過程n1. 構思合理的假設：在此階段重要的是要得到廣泛的相關訊息，以這些訊息來明確的作問題陳述。建議採用集體討論座談的方式來集思廣益。假設檢定的過程n2. 決定採用哪些樣本供測試：產生假設後所決定，樣本可能存在於企業既有的資料庫中，也可能要從零散的資料做匯整，進行市場調查，甚至花費鉅資向調查公司購買相關的資料。假設檢定的過程n3. 找出樣本資料：所需的資料往往散佈在各種不同的作業系統中，而且往往格式不同。且面對問題的差異，有用及可立即取得的原始資料往往大相逕庭。假設檢定的過程n4. 統整資料以供分析：在此步驟，必須將原始資料轉換成資料採礦軟體所需的格式。可能要將連續值轉換成類

3、別變數，或將數字差異大的數據標準化等等。但在這個過程中可能會遇到的問題包括： (1) 分類階層 (2) 系統不相容 (3) 資料編碼不一 (4) 文字資料的轉換 (5) 遺漏值的處理假設檢定的過程n(1) 統整資料的問題：分類階層資料的分類並非越詳盡越好。太詳盡的分類會造成以下的問題。 (a) 並非分析所需的分類 (b) 單一分類的樣本太少然而未經統整的資料卻又太過龐大，因此選擇適當的分類階層是重要的一步。假設檢定的過程n(2) 統整資料的問題：系統不相容每種作業系統可能都有他們自己的一套語法，並沒有所謂共通的語言，然而這個問題在目前套裝的軟體多半可以以自動轉換的方式獲得解決。

4、如SAS除了ASCII之外，也可以支援EXCEL的格式。假設檢定的過程n(3) 統整資料的問題：資料編碼不一從不同來源收集特定目的的原始資料時，相同的變數資料可能會以不同的形式記錄下來，在統整時必須謹慎處理。假設檢定的過程n(4) 統整資料的問題：文字資料的轉換少數情形下我們會想要從文字資料中獲得有用的情報（如MBR中的新聞報導分類），但多數純文字的格式都必需經過轉換。文字資料的格式若有一定的標準則較好處理，但仍需注意某些細節，如台中市與臺中市就會被電腦當作是兩個不同的數值但其實他們是一樣的。假設檢定的過程n(5) 統整資料的問題：遺漏值的處理通常會選擇對有遺漏值的資料不予估

5、計，但若真的要使用的話，就必須以最可能的數值進行替換。可能數值的搜尋可以利用資料比對的方式，比較有遺漏值的樣本與資料庫中哪個完整樣本的相關性最強，並以完整樣本的數值取代遺漏值。類神經網路也可幫助推估出可能的數值。假設檢定的過程n5. 根據資料建立電腦分析模型：將所需分析的問題根據所蒐集資料的特性建立起適當的分析模型。假設檢定的過程n6. 評估假設是否正確：將分析模型應用在資料上，檢視假設是否成立。然而如同作學術研究，在技術的分析後往往要靠專業人士針對分析的結果提出商業或管理上的意涵，才能變成真正有用的結論。知識發掘知識發掘的分類n可分為監督式及非監督式兩種n監督式：如M

6、BR 找出特定變數的數值有何意義，並選定輸出變數，讓電腦找出如何對其進行評估、分類或是預測。也就是嘗試對已知的型態關係進行解釋。如選定可能會倒帳的客戶為輸出，將變數（如年收入及性別等）放入進行分析。n非監督式：如購物籃分析沒有輸出變數，此模式的目的在於讓電腦自行找出顯著關聯的型態。監督式知識發掘n希望能夠解答特定的問題時使用。其程序包含以下四步驟：(1) 確認原始資料來源 (2) 彙整資料以供分析 (3) 建立並測試分析模型 (4) 評估分析模型監督式知識發掘n(1) 確認原始資料來源：最佳的資料來源是既存的資料倉儲，倉儲內部的資料皆經過固定格式的整理，方便進行分析。然而多

7、數的情形下企業並沒有建立資料倉儲，必須收集各部門的相關資訊。監督式知識發掘n(2) 匯整資料以供分析：如同假設檢定時的資料彙整原則，加入有用的變數可以增加產出有用結論的機率。許多資料採礦的情形下，資料都必須被分為訓練集（建立初始模型）、測試集（調整初始模型）及驗證集（衡量模型表現）。資料量在資料採礦中通常越多越好，而變數也是可以儘可能的將已知的變數放入模型，可能會有意想不到的結果。監督式知識發掘n(3) 建立並測試分析模型：知識發掘的方法在建立模型的過程中容易出現過度學習的情形，也就是模型可能陷入只能解釋在訓練集樣本的關聯，而沒辦法一體適用。此時就要靠測試集將模型修正成較能

8、通用的型態。監督式知識發掘n(4) 評估分析模型：利用驗證集的樣本來評估模型分析的錯誤率，來決定分析模型是否有用。非監督式知識發掘n沒有明確輸出變數是非監督是知識發掘最明顯的特性，如購物籃分析中，常常要問的問題是哪些商品會同時被購買，而非哪些人會買水果。非監督式知識發掘的步驟如同監督式，但後面又多了兩個步驟：(1) 確認監督式知識發掘的可能目標 (2) 產生新假設並檢定n因非監督式知識發掘常常是進一步監督式知識發掘的前置作業。非監督式知識發掘n(1) 確認監督式知識發掘的可能目標：如在購物籃分析中找出A商品與B商品經常同時被購買，接著就會想知道為什麼消費者會同時採購這兩樣商品，

9、以及哪些人會買這兩樣商品等等的問題，這些問題就要靠監督式知識發掘進行解釋。n(2) 產生新假設並檢定：如同假設檢定的過程，蒐集相關資訊並進行測試。非監督式知識發掘n案例：銀行希望應用資料採礦增加貸款業務n運用監督式知識發掘找出潛在客戶：哪些人可能會進行貸款？n建立模型後，銀行僅想提供最可能貸款的11%客戶房貸申請函。分析人員先運用非監督式集群分析來分析顧客，發現有39%的人同時擁有銀行的商業及個人帳戶而這些人佔最可能貸款的11%中的27% 。n銀行根據這個結果（商業帳戶與房貸相關）假設許多人為了創業而借貸，若假設可得驗證，銀行就可針對此特性進行行銷。實際的問題n將模型用於新資料n

10、預測模型的有效期限n結合不同技術n解釋結論實際的問題n將模型用於新資料：分析模型的評分是否適用於產業環境？n預測模型的有效期限：模型的有效性會依環境的變動而變化；舊的資料也須隨著時間的前進而必須重新評分n結合不同技術：可同時採用多種資料採礦技術，但採礦技術越多，環境要適合就越困難。n解釋結論：雖然電腦幫忙分析處理龐大的資料，但最後的結論仍然是要仰賴行銷人員作判斷。案例流失顧客分析及預測問題n某銀行對開戶顧客的流失情形十分擔憂，希望能在顧客流失之前找出一些徵兆，也就是建立一個在問題發生前就提出警告的模型。假設檢定計畫流失可能原因原因跡象死了交易中止搬家搬到沒分行的地方增加使用A

11、TM並改變最常使用ATM的地點結婚並與另一半在其他銀行有不同帳戶交易紀錄減少並改變帳戶最後一個名字（姓？）換新工作而薪資不再轉存薪資轉存紀錄中止工作地點附近有其他銀行交易發生在其他銀行 ATM流失可能原因n有時在交易資料中無法看出，如n原本不收費的服務開始收費n經常算錯錢n拒絕提供貸款或拒絕提高信用額度n貸款利率太高n等待時間太長找出所需資料n以銀行而言，個人資料、交易紀錄或是電子商務、信用卡或貸款等等業務的紀錄都可能會是有用的資訊。建立分析模型n可以利用先前所敘述的可能流失原因來建構假設，如大量使用其他銀行的ATM的客戶流失可能性較高等。n建立後利用分析方法來得知假設是否成

12、立。知識發掘計畫確認資料來源n與其找尋顧客流失的徵兆，不如分析顧客的交易行為模式，來找出哪些顧客忠誠度高，又有哪些會結清帳戶。彙整資料n著眼於時間性的規則變化，可將資料依時間排列，以顯示歷時性的改變。非監督式及監督式知識發掘n利用自動群集偵測的方式，透過幾個重要變數的投入來分出合理的顧客集群。n當集群劃分完畢後，每個集群都成為分析模式預測客戶流失的訓練資料組，再進行監督式知識發掘。產生新假設n檢視監督式知識發掘的結果，針對顧客流失的原因產生新的想法，成為下一階段假設檢定的基礎。n一個階段的結論成為下一個階段的基礎，這樣的過程被稱為資料採礦的工作循環。THE END OF THE CHAPTERTHANK YOU FOR LISTENING!

展开阅读全文

资料采矿方法论

最新文档