基於统计方法之中文搭配词自动撷取

上传人:子 文档编号:46945666 上传时间:2018-06-28 格式:PDF 页数:13 大小:327.26KB
返回 下载 相关 举报
基於统计方法之中文搭配词自动撷取_第1页
第1页 / 共13页
基於统计方法之中文搭配词自动撷取_第2页
第2页 / 共13页
基於统计方法之中文搭配词自动撷取_第3页
第3页 / 共13页
基於统计方法之中文搭配词自动撷取_第4页
第4页 / 共13页
基於统计方法之中文搭配词自动撷取_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《基於统计方法之中文搭配词自动撷取》由会员分享,可在线阅读,更多相关《基於统计方法之中文搭配词自动撷取(13页珍藏版)》请在金锄头文库上搜索。

1、基於統計方法之中文搭配詞自動擷取基於統計方法之中文搭配詞自動擷取 張翠芸、柯淑津 東吳大學資訊科學系 Department of Computer Information Science SooChow University ms9513sun.cis.scu.edu.tw ksjcis.scu.edu.tw 摘要 本研究採取以下四個步驟擷取出雙詞、三詞、四詞之詞彙或詞性組合之搭配詞。 首先採用 Smadjas Xtract 的平均及變的方法,擷取具有變動距模式所共同出現 的詞彙或詞性的組合,接著使用搭配詞顯著性的衡方法:相互資訊值及 T 檢定值。 通過以上檢驗的候選搭配詞,經由對照中央研究院

2、詞義標示語庫之目標詞的結果,在 同樣的跨距下,同為一個詞義者,則我們以此搭配詞作為詞義標示知。並且,本研 究將產出之搭配資訊應用於詞義自動標示處,達到 20.07%的應用及 90.83%的正確 。 Abstract We take the four following steps to extract collocations made of combinations of 2, 3, 4 words and/or part of speech, respectively. First, we use “Smadjas Xtract” to extract the co-occurrence

3、combinations of words and/or part of speech of varying distance by computing means and variances. Second, we evaluate the significances of collocation candidates by 2 metrics: mutual information and t-test value. At last, we compare the head words of tagged word sense corpus made by Academic Sinica

4、with the collocation candidates. If in the same distance, the head words of collocation candidates match the ones made by Academic Sinica, we say they are collocations. In addition, we apply the collocation information produced from this research to word sense disambiguation. It reaches application

5、rate of 20.07% and precision rate of 90.83%. 關鍵詞:中文搭配詞,相互資訊值,自然語言處,統計方法,T 檢定值,詞義辨 Keywords: Chinese collocation, mutual information, natural language processing, statistical method, t-test, word sense disambiguation. 一、簡介 同民族的史文化知背景以及人們的思考輯模式同,看待同樣的人事物、同樣 的為情境過程,在語言的描述上也會有所同。每個地區的語言都有其習慣性的用法,而所謂的搭配詞

6、 (collocation) 廣義而言,就是指個或多個詞依照語言習慣性結 合在一起表示某種特殊意涵的詞彙現象。搭配詞在同的研究域上各有同的解, 尚未有一致性的定義。研究搭配詞著名的學者 Smadja 1 定義搭配詞有以下四個特徵: 1、搭配詞是任意詞的組合;2、搭配詞和域相關;3、搭配詞是重複出現的;4、搭配 詞具有詞彙的互相吸引性。母語使用者對於搭配詞的判定也許相當容,但對於外國人 的語言學習,常會誤用搭配語詞。以往對於搭配詞自動擷取的研究,大多是針對英語系 語做處。至於擷取中文搭配詞的相關文獻仍然是相當稀少的,因此本研究用統計 的方式對大規模的中文資進分析以擷取出中文搭配詞。其產出的結果將

7、可以應用在 自然語言相關處上,如:詞義自動標示、資訊檢、機器翻譯以及辭典編纂。 本研究提出將周邊詞彙及詞性皆作為擷取搭配詞的重要特徵,採用 Smadjas Xtract 1 基於統計上的平均及變之方法,直接擷取出具有變動距模式所共同出現的 詞彙或詞性之組合,再使用搭配詞顯著性的衡方法:相互資訊值 (Mutual Information) 和 T 檢定值。通過以上檢驗的候選搭配詞,在最後判定搭配詞的基準,是基於每個搭 配詞僅一個詞義的原由 2,我們採取經由對照中央研究院詞義標示語庫 SSTC (Sinica Sense-Tagged Corpus) 3,在相同目標詞彙和周邊詞彙資訊的跨距下,目標

8、詞在 語庫訓資的所有詞中,僅具唯一詞義,則我們就將此搭配詞擷取為詞義標示 知;進一步再以相同的方式進而擷取三詞及四詞之搭配詞。最後我們將產出之搭 配資訊應用於詞義自動標示處。 本文組織如下,第二節是有關搭配詞擷取技術之相關文獻探討。第三節明本研究 提出之擷取搭配詞方法。第四節為實驗設計與結果評估。最後,是本文的總結。 二、相關文獻 根據統計方法擷取搭配詞的相關文獻中,Smadjas Xtract 1 採用平均及變的方 法於英文的語中擷取雙詞,並由雙詞之結果擴增擷取 n 詞,此方法被認為是擷 取搭配詞的經典方法。Breidt 4 將相互資訊值及 T 檢定結合使用於德文的語中擷取 動詞-名詞的搭配

9、詞 。 在中文的搭配詞研究中 , Lu 5 等人的CXtract研究中應用Smadjas Xtract 的方法於中文語中,但其研究過程所設置的門檻值會將一些極有可能為搭配詞 的周邊詞過掉。將搭配詞應用於其它自然語言處的相關域之研究,方翔 6 等 用平均、變及 T 檢定的方法得到詞與詞之間搭配強係,並將此結果應用於 搜引擎中縮減檢子中的歧義。全昌勤 7 等用搭配詞典的輔助獲取最優種 子,再由最優種子自動學習擴充指示詞集,有助詞義辨之處。有關詞義辨的相關 研究中,其中以語為基礎的監督式學習法是最為成功的方法,主要是依據上下文的特 徵區別歧義詞,但因上下文共同出現的詞彙太多,全都做為訓的樣本會使得

10、雜訊很多,在標示歧義詞時則容標示錯誤。Li 8 提出縮小上下文的範圍,使用搭配 詞作為特徵,並且基於搭配詞的歧義詞詞義唯一性的概,在標示歧義詞時,當上下文 擷取到搭配詞時,上下文中其它詞彙的影響性將被減少。國內針對擷取搭配詞的相關研 究,主要使用的資源分為大,第一,將網視為具有時間性的語庫資源,Chen 9 等人用網紀和 Google 搜尋引擎以擷取搭配詞,Teng 10 等人用網部 格觀察時間性和搭配詞之間的關;第二,用平語庫 11, 12, 13,根據語言的 特徵和統計分析的方法,取得英文的搭配詞結構,進而擷取雙語搭配詞。 有別於過去的研究僅能擷取出詞彙的搭配詞或是固定樣式的搭配詞結構,如

11、動詞與名詞、形容詞與名詞等。本研究提出考視窗範圍內周邊詞彙或其詞性之組合,基於 Smadjas Xtract 的演算法和相互資訊值、T 檢定值之統計檢驗的方法,以及大規模中文 詞義標示語庫 SSTC 3 的輔助,以擷取出雙詞、三詞、四詞之搭配詞。 三、自動擷取搭配資訊方法 本研究所提出之自動擷取搭配資訊處方法如圖一所示,首先採用 Smadjas Xtract 的演 算法 1, 5,擷取出詞語間間隔其它詞彙所共同出現的候選搭配詞,接下採用相互資 訊值及 T 檢定值的方式檢驗所擷取出的候選搭配詞在語庫中共同出現的顯著程, 最後為搭配詞結果的判定,我們對照中央研究院 SSTC 詞義標示語庫,目標詞詞

12、義 具有唯一性者,則認定其為搭配詞。 應用 Smadjas Xtract 方法擷取出具有變動距模式所共同出現的詞彙 計算相互資訊值(依照值的高低排序)計算T檢定值(檢驗搭配的顯著性)決定搭配詞(依據目標詞已標示詞義的唯一性)圖一、自動擷取搭配資訊處方法之程圖 (一)擷取具變動距模式之共現詞彙 首先設定目標詞,設置以子為單位,編輯目標詞之周邊詞彙跨距為d的視窗內周邊資 訊 。 在目標詞的 d 跨距內的周邊詞稱作iw (ni 1, n為所有周邊詞的個) ; 設定iw在第 j 個位置 (與目標詞的距) 出現的次定義為jif,;周邊詞iw在目標詞 d 跨距內總共出現的次定義為 =ddjiiff,;if

13、的平均次為 =ddjiidff2/,;針對每一個目標詞,平均次 =niifnf11和標準差為 =niiffn12)(1;周邊詞在目標詞 d 跨距內總共出現的次經標準化後定義為ffki i=;周邊詞在目標詞 d 跨距內出現次之變定義為dffUji i2)(,=,表示周邊詞分佈的特徵。為過太可能為搭配詞的組合,設定),(010UKK的經驗門檻值,以下三個條件 1 作為過的依據: 01:KffkCi i=(1) 02:UuCi (2) )(:1,3iijiuKffC+ (3) 針對上述三個條件判斷分述如下:1C條件是衡周邊詞在目標詞 d跨距內所出現的次,過掉共現次太低的周邊詞;2C條件是衡周邊詞在目

14、標詞 d跨距內各個位置的分佈情形,周邊詞在各個位置分佈過於分散且次平均,則將其過掉, 下出現次在各個位置上具有變性較大的周邊詞。3C條件則擷取出周邊詞在目標詞 d 跨距內出現次較為突出的位置 。 並且基於搭配詞必須出現於唯一且固定位置之原由,所以經 Smadjas Xtract 門檻值過後的候選搭配詞,是針對同一個目標詞, 相同周邊詞出現於同位置者,我們則將此候選搭配詞刪除,認定其為搭配詞。 (二)相互資訊值 接著,我們採用衡個事件相關程的相互資訊值 14,其用表示個詞彙間,一 個詞出現所帶給另一個詞出現的資訊。相互資訊值的計算方式如公式 (4): )()(),(log),(yPxPyxPyx

15、MI=(4) 經由第一步驟的方法過後,我們再計算目標詞彙與周邊詞彙之相互資訊值,並將 相互資訊值太低者自搭配候選中排除。 (三)T 檢定值 為確定搭配詞的顯著程,我們採用假設檢定中的 T 檢定值 14 檢驗候選搭配詞 在語庫中共現的顯著程。首先需設定虛無假設:個共同出現的詞彙之間互為獨,能形成搭配。T檢定值的計算方式如公式 (5),其中x為樣本平均;虛無假 設為真,事件受到伯努試驗 (Bernoulli trial) 的影響,則平均p=;變 =2sp(1-p)p 。 Ns-xt 2= (5) T檢定值大於界值,則我們將會拒絕虛無假設,而得出結:候選搭配詞在 語庫中共同出現是具有顯著性的。假設T檢定值小於界值,則我們沒有充分證據 顯示其為搭配詞,所以將會過掉此候選搭配詞。 (四)決定搭配詞 基於搭配詞的單一詞義特性 2,進一步我們用由中央研究院SSTC詞義標示語庫 3 的資源,將前三階段檢驗後的結果,去判斷目標詞與周邊詞在相同位置的結合

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 科普知识

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号