资料探勘与知识发现期末专案报告书

资源描述

《资料探勘与知识发现期末专案报告书》由会员分享，可在线阅读，更多相关《资料探勘与知识发现期末专案报告书（10页珍藏版）》请在金锄头文库上搜索。

1、資料探勘與知識發現期末專案報告書指導老師黃三益教授學生M954020009 徐慎宜D954020004 林皇吉D954020008 唐筠文字探勘應用 - 美國國家基金會研究獎助摘要資訊探索一、簡介1. 背景文字探勘是資料探勘的一環，透過文字探勘的理論與技術，可對非結構化的資料進行深入挖掘資訊，洞察文件的潛在價值，提供決策者評估與實行依據。一般文字探勘應用大量的文件資料庫，提供資訊蒐集、訊息過濾、事件相關、趨勢預測、犯罪分析、案例追蹤、知識管理、知識萃取與決策輔助等多種相關應用。目前文字探勘的相關理論或是技術都已經日趨成熟，而文字分析的工具也較早期在功能或是模組上強化許多。因此，大幅提昇學者應

2、用文字探勘於學術研究。2. 動機與目的美國國家科學基金會 ( National Science Foundation, NSF ) 為一獨立的美國政府機構，依據經修正之1950年國家科學基金法案 ( the National Science Foundation Act of 1950 ) 所設置。每年投資數億經費於大約20000個研究與教育計畫上，期望促使美國的科技進步與社會福利。該基金會經由提案評審系統決定所需要執行贊助的研究計畫，約可分為生物科技、電腦與資訊相關科學、教育與人力資源、工程學、地質學、數學與自然科學、社會與經濟學、極地計畫等八大學術相關學門。由UC Irvine Machi

3、ne Learning Repository 網站的NSF Research Award Abstracts 1990-2003的資料集，它提供接受執行贊助的研究計畫的相關資訊，是屬於文字型態的資料集。本研究希望透過分析此該基金會所贊助的計畫摘要的內容，並透過摘要的分析，得知該基金會所贊助的計畫案類型比例的分部，分析目前的研究計畫領域趨勢，進而做為提供調整經費預算的比重等重要依據。3. 研究流程資料探勘流程將依據Data Mining Methodology and Best Practices所敘述的程序進行資料分析與模型建置，圖1為本研究流程圖。圖1 為本研究流程圖二、資料探勘程序1.

4、轉換企業問題成為資料探勘問題為了瞭解美國國家科學基金會所贊助的計畫比例，讓基金會對於所贊助的計畫在領域部門的比例有所了解，因此轉換此問題為資料探勘的問題即是經由分析摘要文件後，摘要內容文字所出現重要文字的頻率比較，可以得知目前或是該年度的研究趨勢與領域方向，除了可以作為未來研究趨勢的導引，也可以做為將來調整經費贊助比例的依據。2. 選擇合適的資料資料來源為UC Irvine Machine Learning Repository 網站的NSF Research Award Abstracts 1990-2003的資料集，其網址為http:/archive.ics.uci.edu/ml/data

5、sets/NSF+Research+Award+Abstracts+1990-2003，該網站為熱門且實用的資料集提供網站，除了提供資料集也接受研究者提供與分享自己的資料集，並有格式規範提供研究者參考，因此選用該網站資料做研究，在公信力上是有一定的水平。3. 瞭解選擇的資料第一步驟所選定的計畫摘要為文字格式，分析摘要內容，可以得知文件摘要欄位屬性說明資訊，如表1，而該網站也提供贊助計劃提案摘要的原始檔案、經過整理的部份檔案，說明如圖2。表1文件摘要重要欄位屬性說明資訊名稱型態說明Title文字摘要的標題Type文字該計畫是屬於贊助計畫或是專案計畫等Date日期該計畫提案日期File文字摘要文件

6、檔案名稱Award Number數字該基金會贊助計畫的編號Start Date日期計畫開始執行日期Expires日期計畫預計結束日期，可以為預估日期Total Amt.數字該基金會贊助的金額Investigator文字說明研究者姓名與研究者的電子郵件帳號Abstract文字提案計畫的摘要內容表2文件摘要重要欄位屬性說明資訊名稱定義說明idnsfid.txtdoic NSF_doc_id文件檔案標號對應docauths.txt docid Author_string文件作者編號對應doctitles.txt docid Title_string文件標題與編號對應docwords.txt doci

7、d wordid freq文件編號、文字編號與字詞出現頻率對應表備註 - 定義說明docid = a counter generated for each document as it was processed.wordid = the id for a word, as obtained from the word.txt file.freq = the number of times that the word (wordid) appears in the file (docid)NSF_doc_id = the value taken from the File: field of

8、an NSF awards file.Title_String = the value of the Title: field of an NSF awards file.Author_String = derived from the Investigator: field when feasible4. 建立模式集經由第三步驟的分析與了解，可以得知資料詳細的屬性、定義與內容。因此，本研究將由doctitle.txt此檔案為主要分析來源，並配合其他檔案為輔助進行模是建立與資料分析。研究中，以資料探勘工具Wordstat 5.1做為分析工具，並加入Simstat模組輔助分析過程進行。摘要文件內

9、容在領域分類上使用Wordstat工具內所附加的字典進行文字比對與分類，所使用的資料筆數為32108筆資料。5. 整理收集的資料為適合探勘問題的資料經由第四步驟所得到的模式集還需要做資料的前置處理，而前置處理的部分又可以分為資料整合、資料清理、資料轉換、資料精簡等四部分，其中資料整合與資料清理將在第五步驟說明。i. 資料整合：為了消除資料不一致中的綱目不一致 ( schema conflict ) 的情況。本計畫由網站所提供的資料集均為文字檔案，且並無定義資料庫綱要，因此，在此步驟，由人工方是手動一一將資料整理與定義資料庫綱要，並且留意資料整合在此遇到的問題，例如： Docid 和DOC ID

10、這兩者不同的問題。ii. 資料清理：主要目的是確認資料的完整性，由於資料中某些屬性有遺缺的情況，為了不影響探勘的結果，本計畫以直接忽略法為資料清理的原則。6. 轉換資料對於文字探勘而言，資料的前置處理是非常重要的，由其是轉換資料的部分，需要特別小心與謹慎，因為不同演算法有其適合的資料型態，本計畫使用Classification Model，並以關聯法則為分析方式，因此在資料轉換的部分，需要將資料轉換為符合此規則的型態。而在資料精簡的部分，本研究將摘要文件中的獨特屬性刪除，例如贊助者 ( Sponsor ) 、程序參考( Program Ref )等，以將資料的維度降低，以利於探勘進行。資料經

11、過轉換後，以Multiple Response 中的Inter-rater進行分析，並以Nominal measure的Cohens Kappa與Ordinal measure的Kippendorffs r 做為檢驗兩相鄰的觀測值，經過分析，如圖2，表示期望和觀察是幾乎相近的。圖2檢驗兩相鄰的觀測值，期望和觀察是幾乎相近的7. 建立模式運用內容分析法建立分析模式，並以探勘工具中的字典做為字詞比對依據，字典中可分為外觀 ( APPARENCE ) 、藝術 ( ARTS )、通訊 ( COMMUNICATION )、教育 ( EDUCATION )、家庭 ( FAMILY )、財務 ( FINAN

12、CE )、情緒 ( HUMOR )等常見的字詞分類，如圖3。並透過建立應對的關聯法則，進行第八步驟，關聯法則說明如表3。圖3 模式所使用的字典字詞分類準則表3 關聯法則建立 - 以通訊類別為例分類項目COMMUNICATIONCOMMUNICATIVECONVERSATIONDISCUSSIONDISCUSSIONSLISTENEROPINIONSPHILOSOPHIZESOCIALTALKTALKINGUNDERSTANDING8. 對模式進行評估進行步驟七之後，可以得到如下圖4的分析表，可以發現，由2000年到2003年之間，研究者申請贊助計畫的摘要文件所提出的內容，以教育類別為最多，占了

13、39.8%，而工作類別數量為第二所提出的文件內容，其比例為31.7%，通訊類別 ( 涵蓋一般的溝通 )則為12.6%，位居第三。以圓餅圖方式呈現，如圖5，圖4 研究申請者所提出摘要內容分類比例圖圖5 教育、工作、通訊與其他所佔有的比例圖9. 對結果進行評估進行Clustering的部分，以之前已經預定的關鍵字目錄為分群標準，並以發生在相同案例作為基準，而索引部分，以Jaccards coffident ( occurrence ) 與Cosin theta ( frequency ) 為主要方式，其結果如圖6、圖7、圖8、圖9。其中圖6為以Jaccards coffident ( occurr

14、ence )分群後的Dendrogram，圖7為以Jaccards coffident ( occurrence )分群後類別之間的相似矩陣，圖8為以Cosin theta ( frequency ) 分群後的Dendrogram，圖9為以Cosin theta ( frequency )分群後類別之間的相似矩陣。圖6 Jaccards coffident -分群後的Dendrogram圖7 Jaccards coffident -分群後類別之間的相似矩陣圖8 Cosin theta ( frequency ) - 分群後的Dendrogram圖9 Cosin theta ( frequenc

15、y ) - 分群後類別之間的相似矩陣由上列兩種演算方式可以得到如果以Jaccards coffident演算法進行分析，分群的部分是均勻且明顯，其近似值也比較相近，而如果以Cosin theta ( frequency )演算法進行分析，結果與前者分群的索引觀測值則會明顯不同。例如：觀察COMMUNICATION和EDUCATION這兩者，可以看出以Jaccards coffident得到的近似矩陣值為0.011，而Cosin theta ( frequency )的近似矩陣值為0.105，對照Dendrogram圖形，可以發現在前者的部分，是相近的一群，但是，對於後者而言，卻需要往上提高兩、三階層才能歸屬一群。三、結論經由上述的分析，可以清楚的知道關於美國國家科學基金會的贊助於2000年到2003年在不同領域中的比例，透過如此的分析也可以知道過去當時其學術領域所探討的領域趨勢，而教育的部分，由研究結果可以得知，幾乎是一個值得發展的領域，因此當獲得這些資訊的時候，可

展开阅读全文

资料探勘与知识发现期末专案报告书

最新文档