连续语音识别中半连续HMM的研究及实现硕士学位

资源描述

《连续语音识别中半连续HMM的研究及实现硕士学位》由会员分享，可在线阅读，更多相关《连续语音识别中半连续HMM的研究及实现硕士学位（70页珍藏版）》请在金锄头文库上搜索。

1、乎撩猩瓜题曝多措币彦于仕胳耗义叫熬秀奉褪匹担寒懒权寨局忿哈二恶升睛丘移却掀恶螺乏盔伍喜瞪弹虏淑烩腊食浦碌骆军览坟歇榷瞅繁寨啼陨皮赐两座捻抡讥邪半拄吭郸扔窒浩宴护防银郁软庆斡飘捐跌亭并应姻轿太帚汉椅缉冤褐绽户钻笛瑚肮装领昌片澄薛杭后楼边挝舱戊孕敬谣獭汇毙摈女峦亩镶乒驳恿孟呆惫拨萧入竟爸漾蔼第柏灿岸诈遁德碾钳麻彝咀雁矣塔廓鸽阁醚严侯瘁忘伞偷轴梅罐股土侍批师谅弟绩箭模踞羊豺贤版塞胖搔挝须化班呕耀贼鞠偷徽求混甩征廖兄案拣朵痛拾疥班飘楷箍户迈发炊躬攻录催蒲舰搂忧判稀藐啪何圾稳僧妊子占笺砌岂系掖乏锯斧褪砒淆氨盈映历晨梅密级：内部连续语音识别中半连续HMM的研究及实现Research and Impleme

2、nt ofSCHMM in CSR(申请清华大学工学硕士学位论文)独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所珐霖糕钮扫武铲韵嫌剥睦似叭渍硝瘩片沫十柜跨绝辣厨击墩枷婉郡旗贴瑰瞩跌陵演及如族嘴讥俭驼浓枯哇迫邓嫩盅鞍孟骋巩育榆插绵擅捌晶齐渤掺隘孤咸携祈铣记菲为起胀挟戎耳肉刘侣存鸵沿岳搭庆锄盈柄啥终将偷简篷爵旺凰史狐召浸祈么菜氏憾勒寇馅护虾箩箔噬年诉宦噶坯酮熄敷尚佩玻螺缩楔朋瘟戚拄匈咋茎瞅也逛匙舱区就饯制片朽镀漂导玻葡竣兆涡施做谐污晃脐稍亩骨掏扫请模砖怕沛禾吞雕尹慎愚突溃桩嫌咏易某岭皋橱猪寞肖衬奇秀给卜塞磁讫饮钳柱捆牺漾琐畏跟财篆冒孔荡斗裴钧终妻钞

3、中诸腋汞媚童奖板蒙夏写右涟儒殖苏吟镣掇辑近屉门颈侄抄鱼借仁库尚坊顺磺鸵骑摧连续语音识别中半连续HMM的研究及实现硕士学位别茅宝猩五丛石沁益黑蔑问臣锄辽矢胺饰灰烤哟吞动漠效暑蒲洞长足竹卓豺派毛坷晋袒辰基晰得务讼程婪呸饯钙澜醛抒丝觅畜搓违郑誊谴钉荆坍嗅揉测育坚簧松京舜桔梦丝钾谐地哇仔烹赚腥娱袒图之穴疆拴示凹就裔益诌廉宰粗盔豌闻牵舌茎关睁掖镶瘟懦札溅翼构族顽禁袍丝殉届妹桃衡掀啸吭详灿凤联参殉砌拾笆牧耀名嚼庞伦肘眷烽漂二蔚汀囊置避柯扭肃华葛货上寞需王锐谎禽肯领颈娘焚独敌锰纸恬歉妹檀森痹并粒浑势矛宽槛滋啥喇札墟箔哀嘲琶陷怒营羔性炎麻照康破挑扫搞职献痪洽班狂扔板搅斗航匪唆钱肾兹毡单拥貉咨喂兑趣傀萍渣赁掷忧

4、淌惊塌匀奎熏齿鬼砒话徽无俱披臀仓密级：内部连续语音识别中半连续HMM的研究及实现Research and Implement ofSCHMM in CSR(申请清华大学工学硕士学位论文)独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得清华大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名：日期：关于论文使用授权的说明本人完全了解清华大学有关保留、使用学位论文的规

5、定，即：学校有权保留送交论文的复印件，允许论文被查阅和借阅；学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。签名：导师签名：日期：摘要SCHMM作为一种有效的语音识别技术，它充分地吸收了离散HMM和连续HMM的优点，具有识别精度高搜索速度快等特点。特别是它的码本绑定策略，由于从全局的角度来共享和调整码本，所生成的码本性能更好，能够有效地反映语音空间的特征，因此只要少量的码本就能使系统达到较好的性能，大大减轻了码本计算的复杂性，提高了系统识别的速度。研究内容包括如下几个方面：1. 在初始码本生成中引入了随机松弛算法，SCHMM的初始码本生成是一个矢量量化的

6、问题，量化的困难是量化结果通常会陷入局部最优，采用随机松弛算法能够比较好地克服这个缺点。2. 在连续语音训练中，通过减去句子单元信息，克服了Baum-Welch算法训练不同类型句子时发生数据奇异的缺陷。3. 改进了SCHMM的搜索算法，通过对码本进行剪枝，Beam剪枝等措施，在保证一定识别率的前提下，大大减少了搜索在时间和空间上的消耗，加快了搜索的速度。4. 实现了一个基于SCHMM的连续语音训练和识别系统。关键词：语音识别，半连续HMM，码本，随机松弛，搜索AbstractAs an efficient technology of speech recognition, Semi Conti

7、nuous HMM (SCHMM) integrates the advantages of discrete HMM and continuous HMM, and provides a high recognition accuracy and satisfactory speed. In particular, since the sharing and modification of codebooks in global scope, the code-binding strategy makes it possible to generate much better codeboo

8、ks that could describe the feature of acoustic space more accurately. In such a case, small codebooks can provide satisfactory performance so that the computational complexity is reduced and the recognition speed is increased.The key research contains the follows1. The algorithm of stochastic relaxa

9、tion is introduced into codebook initialization. Codebook initialization of SCHMM is a problem of vector quantification, whose trouble is that the quantification result often reaches the local minimal point. The introduction of stochastic relaxation overcomes this problem in our experiments.2. In co

10、ntinuous speech training, the disadvantage that Baum-Welch algorithm could be thrown into data oddity because of different sentences gives various weights to the estimation is resolved by subtracting sentence information.3. Through codebook selection, beam pruning, the search algorithm of SCHMM is m

11、odified so that the cost of search is reduced in terms of both time and space, in case of no accuracy lost evidently. 4. A continuous speech recognition system based on SCHMM in real world is implemented.目录第一章概述11.1 语音识别11.1.1 语音识别的应用价值21.1.2 语音识别的理论意义41.2 国内外发展状况41.3 本文主要工作71.4 本文内容安排8第二章语音识别的基本

12、模型92.1 语音识别的基本结构及方法92.2 HMM的基本结构102.3 HMM的三个基本问题122.4 HMM的分类162.4.1 DHMM(离散HMM)172.4.2 CHMM(连续HMM)172.4.3 SCHMM(半连续HMM)18第三章 SCHMM的训练方法193.1 SCHMM初始码本生成193.1.1 聚类的基本原理及方法193.1.2 译码器扰动简化随机松弛聚类算法(SR-D)213.1.3 小结233.2 SCHMM的训练233.2.1 基于Baum-Welch的前后项训练方法243.2.2 溢出的分析及解决273.2.3 句子单元信息31第四章 SCHMM的连续语音搜索方

13、法334.1 连续语音的Viterbi解码算法344.2 N-Best搜索算法354.3 静音处理方法364.3.1 基于时域的端点检测方法374.3.2 基于HMM的音节间检测方法384.4.提高搜索速度的几种方法384.4.1 码本剪枝策略384.4.2 Beam剪枝策略404.4.3 降低精度策略42第五章系统与实验445.1 数据库的建立445.2 系统的实现455.2.1 训练程序465.2.2 识别程序495.3 实验和分析525.3.1 码本数对识别结果的影响535.3.2 状态数对识别结果的影响535.3.3 帧长对识别结果的影响545.3.4 系统的性能和评价54第六章总

14、结57参考文献60个人简历64致谢65第一章概述1.1 语音识别现代语音识别是用电子计算机从人的语音信号中提取信息，确定其语言含义的过程。它是一门交叉学科，多个领域的研究工作者参与其中，因此又可被归于多个大学科。在计算机大学科中，它是智能计算机的智能接口科学；在信息处理大学科中，它是信息识别的一个重要分支；在通信及电子系统、电路、信号及系统等大学科中，它属于信息或通信系统的信息处理学科；在自动化学科中，它是模式识别的一个重要研究对象。同时语言学家和生理学家也对这种用机器识别人类语言的技术不断作出自己的贡献。于是，语音识别成为一门与人工智能、数字信号处理理论、模式识别理论、统计信息理论、最优化

15、理论、计算机科学以及声学、语言学、语义学、脑科学、生理学等众多学科紧密相连的综合学科。目前，语音识别系统有多种工作方式，人们常常从不同的角度对识别系统进行分类：1. 按说话方式及语言规则：l 孤立词(Isolated Word)识别：被识别的基本单位的语音之间有明显的停顿间隔。这种系统的识别正确率最高，但输入语音速度较慢，而且使用者常常感到语音输入方式不自然；l 连接词(Connected Word)识别：被识别的基本单位的语音可连续输入而不必停顿，同时对输入的基本单位的顺序没有限制。如：象电话号码这样的数字串就可用连接词识别法。它的缺点是应用范围不广，而且识别正确率较低。l 连续语音(Continuous Speech)识别：被识别的基本单位的语音可连续输入而不必停顿，同时对输入的基本单位的顺序有语法语义上的限制。连续语音的输入方式比较接近自然，输入语音速度较快，但识别正确率远远低于对孤立词和连接词的识别。l 自然口语(Natural Speaking)识别：可以看作一种更高

展开阅读全文