语言模型训练与调适技术於

上传人:aa****6 文档编号:51268570 上传时间:2018-08-13 格式:PPT 页数:22 大小:120KB
返回 下载 相关 举报
语言模型训练与调适技术於_第1页
第1页 / 共22页
语言模型训练与调适技术於_第2页
第2页 / 共22页
语言模型训练与调适技术於_第3页
第3页 / 共22页
语言模型训练与调适技术於_第4页
第4页 / 共22页
语言模型训练与调适技术於_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《语言模型训练与调适技术於》由会员分享,可在线阅读,更多相关《语言模型训练与调适技术於(22页珍藏版)》请在金锄头文库上搜索。

1、語言模型訓練與調適技術於 中文大詞彙連續語音辨識之初步研究摘要n語言模型(language model, LM)是用來擷取自然語言中的特 徵,諸如前後文的資訊(contexture information)、語意資訊 (semantic information)、主題資訊(topic information)等,利 用這些資訊用來判斷詞句發生的可能性。n其用途可在語音辨識、手寫辨識、輸入法(input method editor, IME)、資訊檢索(information retrieval, IR)等。n語言模型訓練q訓練語料(training corpus),背景語言模型(backgro

2、und LM)q統計式語言模型:N連語言模型(N-gram LM)q語意資訊:潛藏語意分析(latent semantic analysis, LSA)q主題資訊:主題混合模型(topic mixture model, TMM)摘要n訓練語料與測試語料間的不一致性(mismatch)q蒐集時間、領域(domain)、主題(topic)q語言模型調適n語言模型調適的目的q利用與辨識任務相關的資訊來彌補上述的不一致性q調適語料(adaptation corpus)n內容較訓練語料少n同時期(contemporary)、同領域(in-domain)摘要n語言模型調適方法q以最大事後機率為基礎n詞頻數

3、混合法(count merging)、模型插補法(model interpolation) 、動態快取模型法(dynamic caching model)q以限制為基礎n最大熵值法(maximum entropy, ME)、最小鑑別資訊法(minimum discrimination information, MDI)n主要研究成果q主題混合模型q最大熵值法大綱n語言模型的訓練n語言模型的調適n實驗環境設定及實驗結果n結論統計式語言模型n統計式語言模型(statistical language model, SLM)n語言模型P產生長度n之詞序列(word sequence) W的機率(量化接

4、受度)n參數量非常龐大 ( |V|i ) ,必須作簡化qN連語言模型q三連語言模型統計式語言模型n三連語言模型的估測q最大相似度估測法(maximum likelihood estimation, MLE)n語言模型平滑化(smoothing)q資料稀疏性(data sparseness)q本論文採用Katz 模型平滑化技術nN連語言模型所能擷取的資訊被N的值所限定語意資訊觸發對n觸發對(trigger pair)q長距離詞與詞之間的語意相依資訊q歷史詞序列hi中包含與詞wi相同語意的詞,如wj,則稱 wj觸發wiq估測觸發對n平均交互資訊(average mutual information

5、, AMI)q自我觸發(self-trigger)語意資訊潛藏語意分析n詞與文件矩陣(term-document matrix)n奇異值分解(singular value decomposition, SVD)q詞向量與文件向量無法比較q將詞與文件投影到較低維的潛藏語意空間n加入新的文件(fold-in)潛藏語意分析n應用於語言模型機率估測q更新歷史詞序列所形成的向量q餘弦估測(cosine measure)n與N連語言模型合併主題資訊n主題資訊(topic information)q語意分類(semantic classification)的應用n線性混合模型(linear mixture

6、model)n主題分類模型(topic classification model)主題混合模型n主題混合模型(topic mixture model, TMM)q每一個文章皆為一個混合模型q主題一連語言模型(topic unigram)q主題在各文章中的權重主題混合模型n應用於語言模型機率估測n與N連語言模型結合q模型插補法q機率調整(probability scaling)語言模型調適的架構n訓練語料q背景語言模型qN連語言模型n調適語料q與測試語料同時期或 領域相同q大小較小q不限定為N連語言模 型最大事後機率法n最大事後機率法(maximum a posterior, MAP)n詞頻數混

7、合法n模型插補法n動態快取模型法n模型插補法延伸最大熵值法n每一個資訊來源都會引發一群限制(a set of constraint),限 制的交集區域代表滿足所有限制的機率分佈,其中擁有最 大熵值的分佈為最大熵值法的解。滿足所有限制的機率分佈之集合IIS演算法實驗nSet 1:廣播新聞q訓練語料:中央社2000年和2001年新聞(一億七千萬中文 字 character)q調適語料:中央社2002年8月到10月新聞(五千萬中文字)q測試語料:2002年9月之廣播新聞,3.7小時nSet 2:公視新聞(MATBN)q訓練語料:中央社2001年和2002年新聞(一億五千萬中文 字)q調適語料:公視新聞(MATBN)3528則新聞q測試語料:20003年外場記者,1.5小時基礎實驗nSet 1nSet 2字錯誤 率複雜 度 Baseli ne15.51% 670.2 3字錯誤 率複雜 度 Baseli ne25.72% 667.2 3詞頻數混合法nSet 1nSet 2字錯誤率複雜度 = 112.98% (16.31%)367.34 (45.19%)字錯誤率複雜度 = 125.2% (2.02%)675.46 (- 1.23%) = 324.98% (2.88%)634.43 (4.92%)

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号