《计算语言学工具资源与应用》由会员分享,可在线阅读,更多相关《计算语言学工具资源与应用(29页珍藏版)》请在金锄头文库上搜索。
1、計算語言學的工具資源與應用高照明台大外文系中文計算語言學資源與工具n語料庫n分詞程式n語法剖析程式n詞彙知識庫n語音辨識與語音合成n機器翻譯語料庫n中文語料庫n中英雙語語料庫n標記詞義的語料庫n語法結構樹庫n標記語意角色的語料庫基於語料庫的外語學習n優點1:語言真實的使用情形n優點2:可以客觀計算出最常用的詞彙,句型,搭配語,甚至詞義n方法:學習者觀察語料,歸納規則,驗證假設,修改假設n可能的問題:一般的語料庫都是書面語,內容太難,不適合初學者及中等程度者中文語料庫n中研院現代漢語平衡語料庫(最早的中文平衡語料庫,具有分詞,及詞性標記,具有先進的檢索介面,共有500萬詞)http:/www.s
2、inica.edu.tw/SinicaCorpus/nChineseGigaWord:目前最大的中文語料庫,需搭配檢索程式,需購買n目前仍然缺乏大規模的中文口語語料庫n具有標記詞義的小型語料庫正在進行當中ChineseSketchEnginenhttp:/www.sketchengine.co.uk/n輸入一個詞,可以快速顯示跟這個詞具有語法依存關係的搭配語(collocation),例如:修飾語與被修飾語,主詞與動詞,動詞與受詞等。n輸入兩個近義詞,可以顯示這兩個詞共有或獨有的搭配語。中英雙語語料庫n清大數位學習國家型計畫CandleProjecthttp:/candle.cs.nthu.e
3、du.tw/newcandle/Home_C.asp開發中英雙語前後文檢索程式(bilinugalconcordancer),可以中文或英文檢索。n適合作為外籍人士學習華語,或國人學習英語。n是對比語言學的寶庫。中文分詞程式n中研院線上分詞程式http:/ckipsvr.iis.sinica.edu.tw/n可以辨識專有名詞及構詞律產生的辭典未收錄詞n正確率相當高n可以輔助外籍人士學習中文n可以作為電腦輔助教學的工具語法結構樹庫n中研院中文句結構樹資料庫SinicaChineseTreebankhttp:/turing.iis.sinica.edu.tw/treesearch/nS(agent
4、:NP(Head:Nab:媽媽)|Head:VC31:買|aspect:Di:了|theme:NP(quantifier:Neqa:一些|property:Nab:竹|Head:Nab:筷子)n賓州大學ChineseTreebank中研院語法結構樹的特點:標記語法結構及語意角色語法結構樹庫的應用n應用1:可以用來計算常用句型,詞組結構律n應用2:可以導出中文的剖析器n中研院線上中文剖析器nhttp:/parser.iis.sinica.edu.tw/(由於中文的複雜性,中文的句法剖析器與英文相比正確率仍然偏低)中文語法剖析程式n中研院線上語法剖析程式nhttp:/parser.iis.sini
5、ca.edu.tw/nStanfordParserhttp:/nlp.stanford.edu/software/lex-parser.shtmlnStanfordParser線上剖析程式nhttp:/josie.stanford.edu:8080/parser/StanfordParsern(ROOT(IP(NP(NR猴子)(VP(VV喜欢)(IP(VP(VV吃)(NP(NR香蕉)(PU。)n特點:可以得到語法依存關係nnsubj(喜欢-2,猴子-1)ccomp(喜欢-2,吃-3)dobj(吃-3,香蕉-4)結合語意與語法的剖析器n採購人員與採購武器兩者的結構有何不同?n利用中研院語法樹庫所
6、發展而成的程式nhttp:/140.112.185.57/CorruptAngel/public_html/cgi-bin/treesearch/標記語意角色的語料庫n中研院語法結構樹庫SinicaChineseTreebank裡面也有標示語意角色n賓州大學ChinesePopbankn應用:可以作為閱讀理解的材料,適合出Who,What,How,Why,When,Where這類型的問題。nhttp:/nlp2.csie.org/denehs/parse_en.htmln中研院語料庫,詞頻及相關資源nhttp:/godel.iis.sinica.edu.tw/CKIP/publication.
7、htmn中研院語言所正在建構多媒體口語語料庫nhttp:/mmc.sinica.edu.tw/辭典n教育部國語會辭典n同義詞詞林n分類辭典n搭配語辭典分類辭典n詞:醫生nClass: 人體人體醫藥衛生醫藥衛生 C : 醫療醫療藥藥物物 C210 : 醫務人員醫務人員 C223n產婆大夫護士軍醫郎中儒醫神醫世醫收生婆獸醫牙醫醫生醫師醫士庸醫助產士教育部國語辭典n詞:鶼鰈情深n解釋:比喻夫婦愛情深厚,相處融洽。例:那對夫妻鶼鰈情深,為眾人所稱羨教育部國語辭典n詞:得意n解釋:如其心意而有所成就或引以自豪n解釋:心情酣適n同義詞:稱心自滿躊躇滿志風光高興得志滿意滿足n反義詞:失意失望教育部國語辭典n
8、http:/140.111.34.46/dict/n可以近似自然語言查詢,連同解釋一起查詢,例如:輸入夫妻感情,可得到n【百年偕老】n【琴瑟和諧】n【瑟調琴弄】n【比翼雙飛】n【恩斷義絕】n【恩斷意絕】n【瑟弄琴調】n【琴瑟相調】n【百年好合】n【偷腥】n【琴瑟和好】n【一夜夫妻百日恩】詞彙知識庫n中研院中文詞知識庫:記載八萬多目詞的注音,語法,論元結構,及語意。n知網Hownet:http:/中英雙語的詞彙知識庫。以抽象的語義特徵(義元)來定義詞彙的意義。除了詞性及英文翻譯之外還可以得到近義詞,上下位詞,部分與全體關係,事件,及語意角色。n廣義知網知識本體架構http:/mt.iis.sin
9、ica.edu.tw/mhbai/taxonomy/中研院詞知識庫n詞:豐富詞:豐富n注音注音: n拼音拼音: feng1fu4n語義特徵語義特徵: +eventsn詞性詞性:VH16n論元結構論元結構:theme,causer中研院知識庫n詞:醫生詞:醫生n注音:注音:n拼音:yi1sheng1n語義特徵:+mankindn詞性:NabHownetn詞:醫生n英文翻譯:doctor,physician,surgeonnhuman|人:HostOf=Occupation|職位,domain=medical|醫,doctor|醫治:agent=n應用:利用Hownet找出語意相關的詞nhttp:/nlp2.csie.org/denehs/compare.html中研院中英雙語知識詞網n將中文對應到英文知識庫及本體論Wordnet及SUMOnhttp:/bow.sinica.edu.tw/語音辨識與語音合成n語音辨識IBMViaVoicen語音合成AT&TNaturalVoicenhttp:/