音频和语音处理学习培训课件

资源描述

《音频和语音处理学习培训课件》由会员分享，可在线阅读，更多相关《音频和语音处理学习培训课件（33页珍藏版）》请在金锄头文库上搜索。

1、第一章第一章绪论绪论1.1 1.1 音频和语音处理音频和语音处理1.2 1.2 国外语音处理技术概况国外语音处理技术概况1.3 1.3 我国语音处理技术的发展我国语音处理技术的发展1.4 1.4 语音处理技术的发展趋势语音处理技术的发展趋势1.5 1.5 嵌入式语音处理技术嵌入式语音处理技术1.6 1.6 单片机的历史及发展单片机的历史及发展1.7 1.7 凌阳单片机简介凌阳单片机简介2022/7/29第页第一章第一章绪论绪论1.1 1.1 音频和语音处理音频和语音处理音频是指频率在音频是指频率在20Hz20Hz20kHz20kHz的声音信号，分为：波的声音信号，分为：波形声音、语音和音

2、乐三种，其中波形声音就是自然界中所形声音、语音和音乐三种，其中波形声音就是自然界中所有的声音，是声音数字化的基础。有的声音，是声音数字化的基础。语音也可以表示为波形声音，但波形声音表示不出语语音也可以表示为波形声音，但波形声音表示不出语言、语音学的内涵。语音是对讲话声音的一次抽象，是语言、语音学的内涵。语音是对讲话声音的一次抽象，是语言的载体，是人类社会特有的一种信息系统，是社会交际言的载体，是人类社会特有的一种信息系统，是社会交际工具的符号。工具的符号。音乐与语音相比更规范一些，是符号化了的声音。但音乐与语音相比更规范一些，是符号化了的声音。但音乐不能对所有的声音进行符号化。乐谱是符号化声音

3、的音乐不能对所有的声音进行符号化。乐谱是符号化声音的符号组，表示比单个符号更复杂的声音信息内容。符号组，表示比单个符号更复杂的声音信息内容。2022/7/29第页第一章第一章绪论绪论语音是语言最本质、最自然、最直接的表现形式或载语音是语言最本质、最自然、最直接的表现形式或载体，其表现形式为声波体，其表现形式为声波一种由空气分子振动而形成的一种由空气分子振动而形成的机械波。机械波。语音学是研究人类语音的产生、传播及感知等过程机语音学是研究人类语音的产生、传播及感知等过程机理的学科，包括发音语音学、声学语音学和听觉语音学理的学科，包括发音语音学、声学语音学和听觉语音学3 3个分支。个分支。发音

4、语音学研究发音器官在发音过程中的运动和语音发音语音学研究发音器官在发音过程中的运动和语音的音位特性；声学语音学研究语音的物理属性的音位特性；声学语音学研究语音的物理属性(语音声波语音声波的振幅、频率和频谱特性等的振幅、频率和频谱特性等)；听觉语音学研究听觉和语；听觉语音学研究听觉和语音感知。音感知。2022/7/29第页第一章第一章绪论绪论数字信号处理是一门通过计算机或其他专用设备，对数字信号处理是一门通过计算机或其他专用设备，对离散信号用数字方式进行增强、压缩、滤波、变换及识别离散信号用数字方式进行增强、压缩、滤波、变换及识别等处理的新兴学科。等处理的新兴学科。语音学和数字信号处理的交叉

5、结合便形成了语音信号语音学和数字信号处理的交叉结合便形成了语音信号处理。语音信号处理处理。语音信号处理(简称语音处理技术或语音技术简称语音处理技术或语音技术)是建是建立在语音学和数字信号处理基础之上的，对语音信号模型立在语音学和数字信号处理基础之上的，对语音信号模型进行分析、存储进行分析、存储(编码编码)、传输、识别和合成等方面研究的、传输、识别和合成等方面研究的一门综合性学科。它包括语音编码、语音识别、说话人识一门综合性学科。它包括语音编码、语音识别、说话人识别和语音合成四大学科分支，并由此形成了语音分析技术、别和语音合成四大学科分支，并由此形成了语音分析技术、语音存储语音存储(编码编码)技

6、术、语音识别技术和语音合成技术四大技术、语音识别技术和语音合成技术四大实用技术。实用技术。2022/7/29第页第一章第一章绪论绪论1.21.2国外语音处理技术概况国外语音处理技术概况自自18761876年年BellBell发明了采用声电转换技术实现远距离语音通发明了采用声电转换技术实现远距离语音通信的电话开始，语音处理技术的发展大致经历了以下几个信的电话开始，语音处理技术的发展大致经历了以下几个阶段。阶段。1 1、萌芽阶段、萌芽阶段在这一阶段在这一阶段(上世纪上世纪3030年代至年代至5050年代年代)，人们对语音处理的，人们对语音处理的研究主要是根据语音学知识，提取若干特征参数，并利

7、用研究主要是根据语音学知识，提取若干特征参数，并利用这些参数制作成模拟电路来模仿人的发音过程，实现简单这些参数制作成模拟电路来模仿人的发音过程，实现简单的语音处理功能。的语音处理功能。2 2、发展阶段、发展阶段 19601960年代至年代至19801980年代初，随着集成电路技术和计算机技术年代初，随着集成电路技术和计算机技术的发展，语音处理的理论和技术亦日趋完善和成熟。的发展，语音处理的理论和技术亦日趋完善和成熟。2022/7/29第页第一章第一章绪论绪论3 3、实用阶段、实用阶段 19801980年代至今，随着遵循摩尔定律的超大规模集成电年代至今，随着遵循摩尔定律的超大规模集成电路技术的

8、迅速发展，路技术的迅速发展，PCPC机的触角深入到千家万户，极大机的触角深入到千家万户，极大地促进了计算机技术和人工智能技术的迅猛发展，使人类地促进了计算机技术和人工智能技术的迅猛发展，使人类社会进入到数字信息时代。社会进入到数字信息时代。鉴于语音识别产品的鲁棒性较差，对语音处理技术的鉴于语音识别产品的鲁棒性较差，对语音处理技术的研究将更加深入。美国研究将更加深入。美国DARPADARPA战略计算计划局提出研究战略计算计划局提出研究口语系统口语系统(spoken language system)(spoken language system)。该系统要求把语音识别。该系统要求把语音识别与自然语

9、言理解结合起来，即让计算机像人一样具有语言与自然语言理解结合起来，即让计算机像人一样具有语言理解能力，而不须过多地在孤立词识别上下功夫，从而形理解能力，而不须过多地在孤立词识别上下功夫，从而形成了新一代语音识别系统。成了新一代语音识别系统。2022/7/29第页第一章第一章绪论绪论1.3 1.3 我国语音处理技术的发展我国语音处理技术的发展我国对语音处理技术的研究起步要晚一些，我国对语音处理技术的研究起步要晚一些，19801980年前只年前只有中科院声学所、清华大学计算机系等单位从事语音识别有中科院声学所、清华大学计算机系等单位从事语音识别的研究工作。经过的研究工作。经过2020多年的努力

10、，我国在语音处理领域取多年的努力，我国在语音处理领域取得了显著进步。得了显著进步。1 1、汉语听写机方面、汉语听写机方面 2 2、汉语语音识别方面、汉语语音识别方面 3 3、汉语语音合成方面、汉语语音合成方面 2022/7/29第页第一章第一章绪论绪论1.4 1.4 语音处理技术的发展趋势语音处理技术的发展趋势语音存储技术的核心是语音编码技术。语音编码的研语音存储技术的核心是语音编码技术。语音编码的研究始于究始于19391939年年DudleyDudley的创造性发明的创造性发明声码器。声码器。直至直至19701970年代中期，除年代中期，除PCM(PCM(脉冲编码调制脉冲编码调制)和和A

11、DPCMADPCM(自适应差分脉冲编码调制自适应差分脉冲编码调制)已取得较大进展之外，中低比已取得较大进展之外，中低比特率语音编码一直没有实质性的突破。特率语音编码一直没有实质性的突破。1980 1980年美国政府公布了一种年美国政府公布了一种2.4 Kb2.4 Kbs s的线性预测编码的线性预测编码标准算法标准算法LPCLPC一一1010以后，在普通电话带宽信道中传输数字以后，在普通电话带宽信道中传输数字电话的愿望终于变成现实。电话的愿望终于变成现实。2022/7/29第页第一章第一章绪论绪论除除PCMPCM，ADPCMADPCM，AM(AM(增量调制增量调制)，LPC(LPC(线性预测

12、编码线性预测编码)，MEMELPC(LPC(多脉冲激励线性预测编码多脉冲激励线性预测编码)等声码器之外，美等声码器之外，美国于国于19881988年又公布了一个年又公布了一个4.8 Kb4.8 Kbs s的的CELP(CELP(码激励线性预码激励线性预测编码测编码)语音编码标准算法，欧洲也推出了一个语音编码标准算法，欧洲也推出了一个16 Kb16 Kbs s的的规则脉冲激励规则脉冲激励(RELP)(RELP)线性预测编码算法，其语音质量都能线性预测编码算法，其语音质量都能达到高音质，而不再像单脉冲达到高音质，而不再像单脉冲LPCLPC声码器的输出语音那样声码器的输出语音那样不为人们所接受。不为

13、人们所接受。近几年又出现了更好的编码算法近几年又出现了更好的编码算法多带激励声码器多带激励声码器(MBU)(MBU)，它可以在，它可以在2.4 Kb2.4 Kbs s的速率下提供较高质量的语音。的速率下提供较高质量的语音。语音合成技术的研究已有语音合成技术的研究已有200200多年的历史，但是真正有多年的历史，但是真正有实用意义的近代语音合成技术是随着计算机技术和数字信实用意义的近代语音合成技术是随着计算机技术和数字信号处理技术的发展而发展起来的，它主要是使计算机能够号处理技术的发展而发展起来的，它主要是使计算机能够产生高清晰度和高自然度的连续语音。产生高清晰度和高自然度的连续语音。2022/

14、7/29第页第一章第一章绪论绪论1.51.5嵌入式语音处理技术嵌入式语音处理技术嵌入式语音处理技术得到广泛应用的是语音编码技术。嵌入式语音处理技术得到广泛应用的是语音编码技术。语音编码技术促进了移动通信的发展，同时也被广泛用于语音编码技术促进了移动通信的发展，同时也被广泛用于语音复读机中。而语音识别的嵌入式应用一直是人们研究语音复读机中。而语音识别的嵌入式应用一直是人们研究的热点。的热点。根据语音识别性能及识别算法的不同，语音识别专用根据语音识别性能及识别算法的不同，语音识别专用芯片大致有以下几种类型：芯片大致有以下几种类型：（1 1）由多带通滤波器及线性匹配电路构成的专用）由多带通滤波器

15、及线性匹配电路构成的专用ICIC。（2 2）由单片机）由单片机(MCU)(MCU)组成的语音识别专用组成的语音识别专用ICIC。（3 3）由数字信号处理器）由数字信号处理器DSPDSP组成的语音识别系统。组成的语音识别系统。（4 4）由人工神经网络构成的语音识别专用芯片。）由人工神经网络构成的语音识别专用芯片。（5 5）语音识别系统级芯片）语音识别系统级芯片SOC(SystemSOC(System on Circuit)on Circuit)。2022/7/29第页第一章第一章绪论绪论语音识别芯片的算法特点如下：语音识别芯片的算法特点如下：语音信号输入后首先经过滤波器，去除干扰及可能造成语音

16、信号输入后首先经过滤波器，去除干扰及可能造成混淆的成分，然后由前端处理模块提取语音识别所需的特混淆的成分，然后由前端处理模块提取语音识别所需的特征参数。目前语音识别所用的特征参数主要有两种类型：征参数。目前语音识别所用的特征参数主要有两种类型：线性预测倒谱系数线性预测倒谱系数(LPCC)(LPCC)和和MELMEL频标倒谱系数频标倒谱系数(MFCC)(MFCC)。LPCCLPCC系数主要是模拟人的发声模型，未考虑人耳的听系数主要是模拟人的发声模型，未考虑人耳的听觉特性。它对元音有较好的描述能力，而对辅音描述能力觉特性。它对元音有较好的描述能力，而对辅音描述能力及抗噪性能比较差。其优点为计算量小，易于实现。及抗噪性能比较差。其优点为计算量小，易于实现。MFCCMFCC系数则考虑到了人耳的听觉特性，具有较好的识系数则考虑到了人耳的听觉特性，具有较好的识别性能。由于它需要进行快速傅里叶变换，将语音信号由别性能。由于它需要进行快速傅里叶变换，将语音信号由时域变换到频域上处理，因此其计算量大且计算精度要求时域变换到频域上处理，因此其计算量大且计算精度要求高，必须在高，必须在DSPDSP上完成。上

展开阅读全文