利用统计方法及中文训练资料处理文词性标记

上传人:飞*** 文档编号:46195165 上传时间:2018-06-23 格式:PPT 页数:17 大小:304KB
返回 下载 相关 举报
利用统计方法及中文训练资料处理文词性标记_第1页
第1页 / 共17页
利用统计方法及中文训练资料处理文词性标记_第2页
第2页 / 共17页
利用统计方法及中文训练资料处理文词性标记_第3页
第3页 / 共17页
利用统计方法及中文训练资料处理文词性标记_第4页
第4页 / 共17页
利用统计方法及中文训练资料处理文词性标记_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《利用统计方法及中文训练资料处理文词性标记》由会员分享,可在线阅读,更多相关《利用统计方法及中文训练资料处理文词性标记(17页珍藏版)》请在金锄头文库上搜索。

1、利用統計方法及中文訓練資料 處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data楊允言 戴嘉宏 劉杰岳陳克健 高成炎 2008.9.5 1報告大綱 研究架構 研究目的 研究方法 結果與分析 未來方向21. 研究架構 台語文語料庫 詞頻/MI 統計 詞性標記 兩種書寫型式互轉 (漢字掛;戴(VC) ti ti在(P)壁頂piah-tng 牆壁上(Nc) , 行李hng-l行李(Na) khngkhng收拾;盤點(VC)khngkhng收拾;盤點(VC)lehleh咧

2、(T) ,114.結果與分析-3年 文類 篇名 錯誤/ 語詞數正確率 1885 散文 白話字的利益 6/109 94.50% 1919 散文 品行的遺傳 8/119 93.28% 1990 散文 老人的價值 7/49 85.71% 1950 劇本 威尼斯的生意人 4/58 93.10% 1890 小說 安樂街 9/77 88.31% 1924 小說 母親的眼淚 9/93 90.32% 1990 小說 岬角上的新娘 5/59 91.53% 124.結果與分析-4錯誤原因 次數 比例 選錯中文詞 13 27.08% 沒有正確的中文詞可選 24.17% 未知詞 8 16.67% 人名 48.33% 傳播錯誤 48.33% 總計 30 62.50%134.結果與分析-5文類 語詞數 標記錯誤 正確率 散文27721 92.42% 劇本584 93.10% 小說22923 89.96%144.結果與分析-5文類 語詞數 標記錯誤 正確率 散文27721 92.42% 劇本584 93.10% 小說22923 89.96%155.未來方向 建立training data 中文和台文的差異 台語詞類集16敬請指教17

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号