《元智大学资讯工程学系陈永哲徐启伦指导教授黄士殷课件讲解材料》由会员分享,可在线阅读,更多相关《元智大学资讯工程学系陈永哲徐启伦指导教授黄士殷课件讲解材料(22页珍藏版)》请在金锄头文库上搜索。
1、元智大學資訊工程學系 陳永哲 徐啟倫 指導教授:黃士殷,智慧型情境注音輸入法An Intelligent Context-Aware Chinese Phonetic Input Method,1,OUTLINE,動機與目的 新酷音輸入法介紹 系統架構 研究方法 研究實作 實驗成果 電腦規格與時間 結論,2,修改新酷音的動機,為何選新酷音? Open Source、大眾評價不錯、跨平台功能 同音詞容易誤判 只依賴詞本身的詞頻,所以會有誤判 Ex:用電腦跑城市 程式 solution:加入情境功能 情境判斷-比較詞與詞之間的關聯性高低,3,新酷音輸入法 Introduction (1/3),4,
2、新酷音輸入法 Introduction (3/3),動態詞庫(使用者詞庫) 可自行加入或是系統自動學習而來 依照不同使用習慣而有所不同 所以每個輸入法使用者皆有屬於自己的動態詞庫,6,情境輸入法架構,原始新酷音選字的依據 動態詞庫、靜態詞庫中的詞頻 為了達成情境式的自動選字的目的 我們新增 關聯詞庫 關聯索引,7,情境輸入法架構,8,關聯性?,電腦:鍵盤、滑鼠、程式 有 程式 城市 乘勢 成事 程式和電腦關聯,所以希望其詞頻有所提昇 輸入 用電腦跑城市 程式,9,研究方法(1/2),如何知道 程式 與 電腦 有關? 利用大量語料訓練,二詞同時出現的頻率愈高, 代表其關聯性愈高。,10,研究方法
3、(2/2),關聯索引,11,11,研究實作,原文:工程師分析資料,都用電腦跑程式。 斷詞:工程師分析資料,都用電腦跑程式。 +1 +1 +0.6 +0.6 +0.6 +0.6 +0.6,關聯索引的設計結果,12,研究實作,關聯索引語料(Source),中央研究院中文詞知識庫小組執行、研究,並授權中華民國計算語言學學會發行的中文(新聞)語料庫,包含了約一千兩百萬字的語料庫,主要資料來源擷取自七十九年至八十年間聯合報、中國時報、自由時報及天下雜誌之文章。 分為 訓練語料 500萬字 調整語料 500萬字 驗證語料 200萬字,13,13,研究實作,14,研究實作,原文:工程師分析資料,都用電腦跑程
4、式。 關聯索引找出工程師會將後面有關聯的所有詞放到關聯詞庫當中,繼續打字選詞時會增加詞頻。,15,研究實作,關聯詞庫,關聯詞庫的 AGING PROPERTY,特點:相關性自動增加/減少,使用一定次數後,16,16,研究實作,情境輸入法架構,17,關聯索引實際使用,18,實驗成果,19,電腦規格與時間,智慧型情境注音輸入法新架構 使輸入法能夠context-aware 提升選字正確率 使用時不需再選字,提升工作效率 Open Source的新酷音輸入法 將研究過程與程式碼整理並提供下載,可提供其他探討相關議題之學術單位,作為實驗程式開發的參考範例。,20,結論,數據表格,21,數據為語料與輸入結果比較而產生之正確率,實驗成果,Thank you,22,