语音信号处理第3版——第1讲解读

资源描述

《语音信号处理第3版——第1讲解读》由会员分享，可在线阅读，更多相关《语音信号处理第3版——第1讲解读（22页珍藏版）》请在金锄头文库上搜索。

1、n课程简介总学时：48，理论课学时：38，实验课学时：10，学分：3适用于通信工程、电子信息工程等专业先修课程：信号与系统、数字信号处理、概率统计期末考试（开卷，占80%）实验考核（实验完成情况、实验报告撰写情况，占10%）平时考核（课堂表现、自主学习情况，占10%）n课程考核方式语音信号处理是一门综合性学科，涉及的领域非常广泛：声学、语音学、信号处理、数学、人工智能、模式识别，甚至心理学、生物学等。n教材及主要参考资料教材：赵力.语音信号处理（第3版）北京：机械工业出版社2016.5主要参考资料：张雪.数字语音处理及MATLAB仿真北京：电子工业出版社2010何强何英.MATLAB扩展编程北

2、京：清华大学出版社2002n主要软件及工具箱MatLabCoolEditorVisualStudio20082010VoiceBoxHTKSpeechSDK等工具箱n主要研究机构国外：卡耐基梅隆大学，剑桥大学，爱丁堡大学，谢菲尔德大学，华盛顿大学，加州大学，哥伦比亚大学，麻省理工学院，帝国理工学院，IBM，微软、Nuance等国内：科大讯飞，清华大学，中科院声学所和自动化所，哈工大，东南大学，华南理工大学等n本课程的主要内容绪论2语音信号处理基础知识2矢量量化技术2语音信号分析4语音信号特征提取技术4语音增强4语音识别4说话人识别4语音编码4语音合成与转换4语音信息隐藏41.1概述1.2语音识

3、别发展概况1.3语音编码发展概况1.4语音合成发展概况1.5语音处理的其他分支第第11章章绪论绪论l噪声环环境下语语音处处理系统统性能急剧剧下降l说话说话人发发音方式、口音变变化等将导导致系统统性能下降l训练训练和测试测试数据差异较较大时时，系统统性能将下降ll车载语车载语音：汽车导车导航、空调调、车车窗、影音等的语语音控制l呼叫中心：交互式语语音应应答的补补充、服务质务质量评评估、增强安全性等l移动终动终端：语语音秘书书、语语音播报报、语语音输输入法、语语音听写系统统l教育和娱乐娱乐：语语音教具、语语音（普通话话）评测评测、智能语语音家电电和玩具l公共安全及服务务：语语音监监听与跟踪、家庭服

4、务务、宾馆宾馆服务务、旅行社服务务系统统、订订票系统统、医疗疗服务务、银银行服务务、股票查询查询服务务等l卡耐基梅隆大学、剑桥剑桥大学、爱爱丁堡大学、华华盛顿顿大学、清华华大学、中科大、中科院等一直从事语语音处处理研究l2011年苹果公司推出Siri(Iphone4S的语语音控制功能)l2010年科大讯飞讯飞推出新一代“语语音云”平台l2011年腾讯腾讯公司推出QQ云语语音面板lNuanceGoogle微软软IBM百度盛大华为华为等也投入巨资资为什么要学习和研究语音信号处理技术？1.11.1概述概述语语音是最自然、最有效、最方便的人机（人与人）交互手段国内外各大公司（研究机构）一直从事语语音信

5、号处处理研究语语音信号处处理技术术用途非常广泛语语音信号处处理技术远术远未成熟，需进进一步改进进语语音信号处处理技术术始终终与当时时信息科学中最活跃跃的前沿学科保持密切的联联系，并且一起发发展比如：机器学习习、小波分析、模式识别识别、神经经网络络、人工智能等人的言语过程想说说出传输接收理解语音合成语音编码语音识别说话人识别计算机第第11章章绪论绪论1.11.1概述概述语音识别和语音合成是实现人机语音通信，建立一个有听和说能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。第第11章章绪论绪论1.11.1概述概述v语音信号处理的主要分支语音识别

6、SpeechRecognition语音合成SpeechSynthesis语音编码SpeechCoding对模拟的语音信号进行编码，将模拟信号转化成数字信号，从而降低传输码率并进行数字传输。分为波形编码、参量编码（音源编码）和混合编码。利用计算机和一些专门装置模拟人，制造语音的技术。TTS（文语转换）技术隶属于语音合成。语音识别原理框图让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。主要包括特征提取、模式匹配及模型训练技术。语音信号处理发展概况：起步很早、尚未完全成熟1791年，WolfgangvonKempelen构建了语音机器1835年，CharlesWheatstone改进

7、了语音机器B.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognitionABriefHistoryoftheTechnologyDevelopment20041.11.1概述概述1870年代，电话发明之争第第11章章绪论绪论1.11.1概述概述安东尼奥梅乌奇AntonioMeucci(18081889)亚历山大格拉汉姆贝尔AlexanderGrahamBell(1847-1922)伊莱沙格雷ElishaGray1835-1901对于大多数人来说，每当提到电话的发明，一定会联想到贝尔。然而，一个叫伊莱沙格雷的人就曾与贝尔展开过关于电话专利权的法律诉

8、讼。格雷与贝尔在同一天申报了专利，由于比贝尔晚一点申报（只晚了2个小时左右），最终败诉。事实上，梅乌奇于1860年代就已对电话机进行了原创性的发明创造，比贝尔和格雷早10多年。由于经济困窘等原因，19世纪70年代，梅乌奇并没有赢得与贝尔的电话机专利争夺战。在其逝世113年后，美国议会认定梅乌奇为电话机的发明者。真理得以昭然，梅乌奇实至名归。谁是电话的真正发明者？AblockschematicofHomerDudleysVODERB.H.Juang#&LawrenceR.Rabiner.AutomaticSpeechRecognitionABriefHistoryoftheTechnologyD

9、evelopment2004第第11章章绪论绪论1.11.1概述概述1939年，H.Dudley研制成功第一个声码器l打破了以前的“波形原则”，提出了一种全新的语音通信技术，即提取参数加以传输，在收端重新合成语音。l其后，产生“语音参数模型”的思想1942年，Bell实验室发明了语谱仪1948年，美国Haskin实验室研制成功“语图回放机”1952年，Bell实验室研制成识别十个英语数字识别器1956年，Olson和Belar等人研制出语音打字机1960年代以后，随着计算机技术的发展，语音信号处理技术获得了长足的进步，计算机模拟实验取代了硬件研制的传统做法。各种突破性的思想不断涌现第第11章章

10、绪论绪论1.11.1概述概述1960年，Denes等人用计算机实现自动语音识别，引入了时间归正算法改进匹配性能1970年代起，人工智能技术开始引入到语音识别中。美国国防部ARPA组织了有CMU等五个单位参加的一项大规模语音识别和理解研究计划1970年代中，日本学者Sakoe提出的动态时间弯折算法对小词表的研究获得了成功，从而掀起了语音识别的研究热潮第第11章章绪论绪论1.21.2语音识别发展概况语音识别发展概况谁先提出动态时间弯折（DTW）算法？1960年代末期，苏联学者Vintsyuk提出了采用动态规划方法解决两个语音的时间对准问题其研究不为学术界的广大研究者所知道1980年代，学术界才知道

11、Vintsyuk当初的工作；而DTW已广为人知第第11章章绪论绪论1.21.2语音识别发展概况语音识别发展概况是采用动态规划技术将一个复杂的全局最优化问题转化为许多局部最优化问题，一步一步地进行决策1970年代末，基于矢量量化码本生成的LBG算法被提出，矢量量化技术广泛应用于语音识别、语音编码和说话人识别中1970年代末至80年代初，Baker等将隐马尔可夫模型(HiddenMarkovModel)技术应用到语音识别中1985年IBM公司研制了5000词英语听写机Tangora-5，80年代末完成的Tangora-20能识别的词汇达到了20000，识别率达到了94.6%第第11章章绪论绪论1.

12、21.2语音识别发展概况语音识别发展概况1990年代初，CMU的LeeKaifu完成的非特定人连续语音识别系统SPHINX是最有代表性的，它能识别997个词汇的连续语音，识别率达到95.8%1997年，IBM推出的汉语听写机Viavoice为语音识别在汉字输入方面的实际应用开辟了新的道路1999年，Intel推出语音识别软件开发包Spark3.0MicrosoftVoice及基于.net的语音识别引擎目前，在语音识别的系统框架方面并没有什么重大突破。但是，在语音识别技术的应用及产品化方面出现了很大的进展第第11章章绪论绪论1.21.2语音识别发展概况语音识别发展概况1988年，李开复获卡内基梅

13、隆大学计算机学博士学位。他的博士论文是世界上第一个“非特定人连续语音识别系统”。1988年，商业周刊授予该系统“最重要科学创新奖”。在校期间，李开复还开发了“奥赛罗”（黑白棋）人机对弈系统，因为1988年击败了世界团体冠军美国队的一名成员而名噪一时。1970年代起，国外就开始研究计算机网络上的语音通信，主要是基于ARPANET网络平台进行研究1974年，首次分组语音实验是在美国西海岸南加州大学和东海岸的林肯实验室间进行，数码率为9.6kbs1975年1月，美国实现使用LPC声码器的分组语音电话会议1980年代，集中在局域网上的语音通信，最早的实验是由英国剑桥大学于1982年在10Mbs的剑桥环

14、形网上进行的第第11章章绪论绪论1.31.3语音编码发展概况语音编码发展概况1988年，美国公布了一个4.8kbs的码激励线性预测编码（CELP）语音编码标准算法进入1990年代，随着Internet的兴起和语音编码技术的发展，IP分组语音通信技术获得了突破性的进展。如网络游戏，语音聊天，IP电话技术1990年代中期，出现了很多被广泛使用的语音编码国际标准，如数码率为5.36.4kbs的G.723.1、数码率为8kbs的G.729等目前，主要集中在4kbits码率以下的高音质、低延迟的声码器，提高在噪声信道中低码率编码器的性能第第11章章绪论绪论1.31.3语音编码发展概况语音编码发展概况第第

15、11章章绪论绪论1.41.4语音合成发展概况语音合成发展概况1939年，贝尔实验室利用共振峰原理制作出第一个电子语音合成器1960年，G.Fant系统地阐述了语音产生的理论，推动了语音合成技术的进步1968年，第一个完整的TTS系统得以实现1980年，D.Klatt设计出串并联混合型共振峰合成器1980年代，基音同步叠加的波形拼接方法PSOLA被提出第第11章章绪论绪论1.41.4语音合成发展概况语音合成发展概况20世纪末，提出了可训练的语音合成方法基于HMM的合成方法目前，语音合成系统具有了很高的可懂度，但自然度还不尽人意说话人识别说话人日志语种辨识语音转换语音隐藏语音情感识别语音增强语音搜

16、索SpeakerRecognition，又称声纹识别、话者识别。通过对语音信号的分析和处理，提取代表说话人个性信息的特征，计算机就能够自动地鉴别说话人的身份。主要分为：SpeakerIdentification和SpeakerVerification。SpeechRetri，一种新颖的搜索技术，代替原来的键盘或手写输入，用户可以使用语音进行检索和查询。SpeechHiding，利用语音信号中存在的冗余及人类感知系统的特性，在不影响原始语音信息感知质量的前提下，把额外的信息隐藏到原始语音中的一种技术。EmotionRecognition，计算机对语音信号进行分析和处理，从而得出说话人的情感状态（愤怒、悲伤、高兴、恐惧等）。VoiceConversion，将A话者的语音转换为具有B话者发音特征的语音，且保持语音内容不变。SpeechEnhancement，当语音信号被各种各样的噪声干扰、甚至淹没后，从噪

展开阅读全文