[哲学]空间资讯专论

上传人:繁星 文档编号:88273404 上传时间:2019-04-22 格式:PPT 页数:88 大小:1.70MB
返回 下载 相关 举报
[哲学]空间资讯专论_第1页
第1页 / 共88页
[哲学]空间资讯专论_第2页
第2页 / 共88页
[哲学]空间资讯专论_第3页
第3页 / 共88页
[哲学]空间资讯专论_第4页
第4页 / 共88页
[哲学]空间资讯专论_第5页
第5页 / 共88页
点击查看更多>>
资源描述

《[哲学]空间资讯专论》由会员分享,可在线阅读,更多相关《[哲学]空间资讯专论(88页珍藏版)》请在金锄头文库上搜索。

1、空間資訊專論 第四講 空間資訊的文件挖掘,講授大綱 一、資訊擷取分類( Information Extraction) 二、關鍵詞擷取技術 三、資訊擷取相關研究 四、空間定位語彙的抽取 五、空間TEXT MINING抽取案例 參考資料: 蔡純純,2003,中文新聞文件空間資訊擷取之研究以火災、搶劫、車 禍事件例,國立台灣大學地理環境資源研究所碩士論文(主要內容是由 此論文編輯成),幽冥無定空間迷 指標定位辯明晰 文章內隱空間訊 抽絲剝繭盡抽提 朱氏詩集,空間資訊是資訊內容的一環,通常指涉了絕對位置 、相對位置或空間分佈等概念,而這些概念透過文 字描述表達意義,作為資訊傳遞的媒介,使用具空 間概

2、念的詞彙如:地點、介係詞、連接詞等,透過 特定文法傳遞空間資訊的訊息。,新聞文件對電腦而言,屬於一堆沒有結構化的資料 ,如何讓電腦辨識,必須先對這些文件加以處理, 相關的研究包括了 資訊擷取( InformationExtraction)、 關鍵詞擷取( keyword extraction)。,一、資訊擷取分類( Information Extraction),資訊擷取是為了提昇資訊檢索效能而發展出來的技 術,它對資料進行文法剖析、重要名詞片語擷取以 及語意了解等處理,目的是希望能將資訊提供者所 要傳達的訊息,充份且完備的表現出來讓使用者充 份了解。主要研究的重點是從大量文字資料中,自 動抽

3、取特定訊息,做為存取之用,並滿足使用者的 需求。,資訊擷取是由文件中擷取事先預設所需的資訊。訊 息理解會議(Message Understanding Conference, MUC)中提到,資訊擷取不僅僅辨識重要的個體,還 必須決定個體之間的關係。MUC-6 會議訂定的工作 項目為: 辨識專有名詞(Name Identification)、 照應詞解析(Coreference Resolution)、 腳本模版(Scenario Template)等三項。,專有名詞的辨識正如字面上的意思,企圖擷取文件 中的專有名詞;而照應詞的解析是串連專有名詞及 其對應的代名詞;腳本模版則是依照預先訂定的模

4、 版,由文件中擷取相關的資訊填入模版的欄位。這 三項工作可視為是有層級的關係,唯有專有名詞辨 識完成,才能夠進行照應詞解析,而後進行腳本模 版的記錄(陳光華,1997)。,基本的資訊擷取系統可以包含以下幾個部份: 文件版面分析模組、分詞模組、詞彙分析模組、語 法分析模組、語義分析模組,其功能分別敘述如下 ,資訊擷取架構見圖1-1 (陳光華,1997):,圖1-1 資訊擷取架構,、版面分析模組(Layout Analysis Module) 文件通常由文字、標題、表格、圖形等等組成,圖 1-2 是學術論文版面構成的一個例子。處理這類文 件時,文件版面分析模組必須區分文字的結構區塊 ,然後串聯文字

5、部份構成書面語,將其交由後續的 語言處理模組;表格部份交由表格處理程序;圖形 則交由圖形處理程序。,圖1-2 學術論文版面結構(陳光華,1997),2、分詞模組(Word Segmentation Module) 中文分詞方面中文文件與英文文件在資訊擷取前置 處理上,最大的差別是,中文文件需斷字處理而英 文文件不同。因為英文文件每個字與字之間,以空 白為區隔,而在中文文件,每個詞彙相連詞彙與詞 彙之間並沒有明顯的區隔,需要利用工具或方法方 能將有意義的詞彙分出來,分詞並不如想像的簡單 ,舉個例子說明如下:,將劉大目的確實行動作了解釋這個句子包含很多可 能的二字詞(Two-character W

6、ords),例如:目的 、的確、確實、實行、行動、動作、了解、解釋, 是只有一種分詞結果是正確的 如下所示。 將劉大目的確實行動作了解釋前述 的例子還有一個困難的問題必須處理,亦即如何辨 識劉大目是一個人名,而非三個單字詞(One- character Words)。,3、詞彙分析模組(Lexical Analysis Module) 語彙分析模組主要是為詞彙加上詞類標記,進行更 高階的處理。若是以下列的句子為例:蘇聯總統 戈巴契夫宣佈,蘇聯將在短期內自古巴撤出一支為 數約一萬一千人的訓練旅,,依據中央研究院資訊科學研究所詞庫小組建構的漢 語語料庫,加上詞類標記後為蘇聯(Nc) 總統(Na)

7、戈巴契夫(Nb) 宣佈(VE),(COMMACATEGORY)蘇聯(Nc) 將(D)在(P)短期(Na)內(Ncd)自(P) 古巴(Nc)撤出 (VC)一(Neu)支(Nf)為數(Na)約(Da)一萬一千(Neu) 人(Na)的(DE)訓練(Na)旅(Na),其中括弧內為該 詞彙的詞類,以N開頭的詞類如Na、Nb、Nc、Neu、 Nf為名詞;以V開頭的詞類如VB、VC、VE為動詞;以 D開頭的詞類如D、Da、DE 為副詞;以P開頭的詞類 為介係詞。,4、語法分析模組( Syntactic Analysis Module) 語法分析(剖析,Parsing)會產生所謂的剖析樹 (Parsing T

8、ree),其目的在於瞭解各詞彙扮演的 語法功能。但是從剖析技術的學者專家都瞭解剖析 自然語言事實上是非常困難的,一個十幾個字的句 子很有可能會有上百個可能的剖析樹,進行完全的 剖析(Complete Parsing)常常無法做到,因此部 份剖析( Partial Parsing)的策略逐漸受到重視 。,5、語義分析模組(Semantic Analysis Module) 文字充滿了各種歧義(Ambiguity)的現象,但是讀 者通常都能夠瞭解所指為何,就以英文的bank 為例 ,很可能是銀行或是河岸的意思,讀者可由句子中 其他的文字或是前後文判斷。若是使用者進行檢索 時使用了bank 這個詞彙

9、,電腦必須決定到底所指為 何。,二、關鍵詞擷取技術,關鍵詞自動擷取是資訊檢索系統的基礎與核心技術 ,因為資訊檢索系統中所用的自動化技術,如自動 索引、索引典自動建立、自動摘要、自動分類、相 關回饋、自動過濾、概念檢索等,大部分都必須先 進行關鍵詞擷取。,目前關鍵詞主要的擷取方法共有五種: 詞庫比對法、 文法剖析法、 統計分析法、 網頁標籤、 模版比對法 五種形式,分別說明如下(陳俊彰,2000):,(一)詞庫比對法(Dictionary Approach) 利用事先訂定的詞彙字典來對文章進行關鍵詞擷取 ,其好處是快速及容易實行,尤其是使用的詞彙字 典大小能夠包含所要擷取的資訊。,(二)文法剖析

10、法(Linguistic Approach) 先透過詞庫比對方式,剖析出文件中的名詞、動詞 、代名詞、介系詞等片語,再運用方法與準則擷取 有意義的片語,過濾掉不適合的詞彙。,(三)統計分析法(Statistical Approach) 統計分析法是利用文字的數字資訊來擷取關鍵字, 例如詞彙所出現的頻率、詞彙與詞彙同時出現的關 係程度等。,(四)網頁標籤 由於網頁是利用標籤(Tag)所組成的,因此要擷取 網頁內容也能利用上述所介紹的方法,配合網頁格 式來進行。,(五)模板比對法 透過對一個概念的多重描述,提供電腦模擬人 類理解所需要的知識,一個概念的意義表達,是以 這個概念與其他概念之間的互動關

11、係描述為基礎, 此種知識表達方式稱為知識脈絡表達法 (contextual knowledge representation)。,模板比對的方式是先確認簡單的名詞、形容詞片語 以及句型。在一個複雜的句子中,先利用模板比對 在第一個循環找出其中的簡單的名詞、形容詞片語 以及簡單子句。在下一個循環的模板比對就從這些 片語、子句出發,一層一層地將複雜的句型予以簡 化,直到最後剩下一個簡單句子,用單一的模板就 可以確認的地步為止,圖1-3為模版比對階層圖(許 聞廉、陳克健,1993)。,圖1-3 模版比對階層圖( 許聞廉、陳克健, 1993),三、資訊擷取相關研究,資訊擷取的相關研究有:黃燕萍(199

12、9)藉由詞庫 比對、關鍵詞擷取、經驗法則方法,進行中文社會 新聞文件中人、事、時、地、物的資訊擷取,其中 對於地名的資訊擷取正確度只有83%,乃因其只建置 地址階層式地點擷取規則,在地名詞庫中精度只到 鄉鎮市,但有處理到較為細緻的地名縮寫問題,意 即當輸入新聞文件的詞彙落在詞庫的子集合時,視 為地名縮寫或簡稱。,以台南市而言,簡稱為台南或南市,所以 當輸入新聞文件中有詞彙落在詞庫的子集合中,則 判定詞彙台南或南市是地名。但是此一方法,會有 例外的情況,如新營市的縮寫,依上述的規則 ,可能為新營或新市。但是新市不是 新營市的縮寫,因為新市是另外一個地名 ,此種情況則以例外處理的方式加以解決。,在

13、大陸學者王永成、張坤(1998)的研究中,對中 文學術論文的自動標引(indexing)發展了一套系 統,從標題、作者、出處、文種、主題、分類號、 摘要、文獻譯文等資訊做擷取,並對論文內容做主 題的擷取,最後將結果應用在全文檢索中。,謝武星(2000)也在針對學術論文的知識管 理技術研究中,針對論文標題及其所引用的參考 文獻標題,擷取分析出一篇學術論文的研究主題領 域。藉由學術論文研究主題擷取,建立語意豐富、 彈性可自動維護的專業詞彙資料庫,供後續的學術 論文自動化分類或研究主題擷取時使用。建立一套 雛型的學術論文研究主題自動擷取系統。,林厚誼(2000)整合詞庫斷詞與統計式斷詞的技術 ,從事

14、犯罪筆(記)錄之斷詞,將所獲得的關鍵詞 彙進行案例比對,建立一犯罪手法及失贓證物相似 之竊盜犯罪案件資訊檢索系統。Toshihide(2001) 則利用詞庫比對法及文法剖析法抽取生物文獻中兩 種蛋白質間的關係。,四、空間定位語彙的抽取,地名是空間資訊的重要元素,地球上的城市、鄉鎮 、山谷、河流、海洋、島嶼、道路、航線等任何角 落,為了溝通方便,人們都會賦予一個名稱來代, 我們稱為地名,是空間資訊中最主要的表部分 。地名因為有古今中外的因素,產生了地名的 更換、增益、範圍、改名等的情形。而地名與地名 之間,又有一地多名、一名多地、譯名、中外命名 等現象。,Scott(1990)則提出空間資訊模型

15、,包括了具階 層的GeographicFacts、由Geographic Facts連接而 成的Route Knowledge,及由Route Knowledge組成 的網狀Configurational Knowledge,連結多個地 點或路徑,具有拓樸(topology)及矩陣 (metrics)關係。,Geographic Facts是指一個地方的事實,包括了: 1.X地存在( X exists),即一個地方為人所知, 但不知其所以,或不知其位於何處,例如:我聽過 甲地。 2.X地具有的特性(X has characteristics),及 特性的描述,例如:台北市是個大城市,台北市有

16、很多人口。 3.X地位於何處(X is located),通常會伴隨參照 另一地點,以明確說明位置,例如:核三廠位於墾 丁、距離世貿200公尺處、忠孝東路與中山北路交叉 口等。,Route Knowledge為溝通兩地間的資訊,組成元素有 Geographic Facts及連結兩地間的路徑(paths)及 行為(例如左、右轉、直走)。Configurational Knowledge則有階層的整合了三種空間資訊,各階層 依據層級可相互繼承引用。以上三種即組成完整的 空間資訊。,區位描述就是指我們對物體所在位置的認知 ,當我們想要告訴別人某項物品在何處時,我們 可能會描述另一個一般人所熟知的物品位置,再將 其空間上的相對性敘述出來。,我們所給的參考點可以是地球中心、街道交叉口、 或赤道與本初子午線的交叉點,也可以用一些參考 點的位置去描述目標物的位置,如:一條路、一個 牧場或一家購物中心。 如圖1-4是表示道路中的一個點x可以用數種可能的 方式來表

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作范文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号