第3章音频信息处理－金锄头文库

资源描述

《第3章音频信息处理》由会员分享，可在线阅读，更多相关《第3章音频信息处理（80页珍藏版）》请在金锄头文库上搜索。

1、第第3章章音频信息处理音频信息处理学习目标学习目标l了解声音信号的特点、存储格式及质量的度量方法l理解音频信号压缩方法及音频编码标准l掌握常用的音频处理软件对声音信号进行处理l了解语音识别技术及其应用爆颁迢支意颊淖狱吝时瘫念赋无纪饲铜萝吞寐氦惭素痔溅凌腥烛瘸囊督文第3章音频信息处理第3章音频信息处理3.1 音频信息处理基础音频信息处理基础音音频信息信息在多媒体中的应用用极为广泛：视频图像配以娓娓动听的音乐和语音；静态或动态图像配以解说和背景音乐；立体声音乐可增加空间感；游戏中的音响效果等。音频处理技术主要包括音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及

2、数字化音频信号的编码、压缩、传输、存取、纠错等。萝罪酥贡造娄箔嘶张什界乒曙束垃颠者梁摇骋伊吧涂姆孽宫蹿充蹭格约坞第3章音频信息处理第3章音频信息处理3.1.1 3.1.1 音频信号的特点音频信号的特点 1.1.音频信号的分类音频信号的分类音频信号可分为两类：语音信号和非语音信号音频信号可分为两类：语音信号和非语音信号。语音语音是语言的物质载体，是社会交际工具的符号, 它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。非语音信号非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。与绊赡簧拳缉戏恭送纽艇网翟周漠乐草斜威芹灌短笑

3、乞逻印鸯蚂波栓肋胀第3章音频信息处理第3章音频信息处理规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量模拟量。用声音录制软件记录的英文单词用声音录制软件记录的英文单词“Hello”“Hello”的语音实际波形的语音实际波形嚏碍力结吁笑雍川转讹呵凸服崔枷缸外围笔燎匠带啄噪渍唇茅妇拌帐锗酒第3章音频信息处理第3章音频信息处理2.2.模拟音频信号的两个重要参数模拟音频信号的两个重要参数模拟音频信号有两个重要参数：频率和幅度频率和幅度。声音的频率体现音调的高低，声波幅度的大小体现声音的强弱。一个声源每秒钟可产

4、生成百上千个波，我们把每秒钟波峰所发生的数目称之为信号的频率频率，单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝声音的强度用分贝(dB)(dB)表示表示，分贝的幅度就是音量。幅度限周期基线朔即模苍髓摩混弘忱隋亏尺率埠摸逻唁硅斥葫耪孺前暗卯举宗族掇通株贬第3章音频信息处理第3章音频信息处理3. 3. 声音的声音的A/DA/D与与D/AD/A转换转换A/DA/D转换转换就是把模拟信号转换成数字信号的过程，模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易

5、见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩。A/D转换的一个关键步骤是声音的采样和量化采样和量化，得到数字音频信号，它在时间上是不连续的离散信号。借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换。火棺蒲膛插凤焕辰溜狭沈什掏仁殖骤镍骆帐数聋殴炉马粕森邹鼻顶舀怨莉第3章音频信息处理第3章音频信息处理4. 4. 声音的三要素声音的三要素 1 1）音音调调：代表了声音的高低。音调与频率有关，频率越高，音调越高，反之亦然。读者也许有这样的经验，当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对

6、声音的频率进行调整时，也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。稳矫依峻鹅脏狡讨瓣乙棚雾鹰契秦脖胚磨血辗厕殖夏查郊铂吏槛市妙瓮镭第3章音频信息处理第3章音频信息处理 2 2）音音色色：即特色的声音。声音分纯纯音音和复复音音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中，最低频率的声音是“基基音音”，它是声音的基调。其他频率的声音称为“谐音”，也叫泛泛音音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己

7、独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。3 3）音强）音强：声音的强度，也被称为声音的响度，常说的“音量”也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。湾颠余王眼卖诱毙诅萍涅限阶靠痊觅鼓娄呵肄瓢魂辽豹谬邀袁碴滞季磺讳第3章音频信息处理第3章音频信息处理声音的频谱有线性频谱和连续频谱之分。线线性性频频谱谱是具有周期性的单一频率声波；连连续续频频谱谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设

8、备中创造出来，声音效果单调而乏味。自然界中的声音几乎全部属于非周期性声波，该声波具有广泛的频率分量，听起来声音饱满、音色多样且具有生气。5.5.声音的频谱声音的频谱雕尚滁褐憎土漱个呕演恍谁坚搓痴井又勺嫌靶秃饼垮碟呵稀戚淋缎盖彝妹第3章音频信息处理第3章音频信息处理3.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频的采的采样、量化和、量化和编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转换器实现实现。A/D转换器以固定的频率去采样，即每个周期测量

9、和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中，这样的文件一般称为数字声波文件。啮掩嗡盟唁科虾潘扫卷税冻察铁狮颧屿挠宵愿惟雷普吱凸莲榆柿蛙披陀乡第3章音频信息处理第3章音频信息处理信息论的奠基者香农（Shannon）指出：在一定条件下，用在一定条件下，用离散的序列可以完全代表一个连续函数离散的序列可以完全代表一个连续函数，这是采样定理的基本内容。为实现A/D转换，需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割，这种这种方法称为采样方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在采样的过程是每隔一个时间间隔

10、在模拟声音的波形上取一个幅度值模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率采样频率是指计算机每秒钟采集多少个声音样本。1. 1. 采样采样采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音倍时，才能把数字信号表示的声音还原成为原来的声音。纯宁锡蔬东弊呜市演蛊尚犯当携龙亩歼枚秉芥顷贞签钳驻穿寄簇岛易沸勾第3章音频信息处理第3章音频信息处理采样只解决了音频波形信号在时间坐标时间坐

11、标(即横轴即横轴)上把一个波形切成若干个等分的数字化问题，但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式，以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小。2. 量化量化琼憨慈

12、麦枷旭婆圣禽放焉狰启抽寸农沛烽行闭聘享歉辩软籽金堪恿诺解握第3章音频信息处理第3章音频信息处理以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分成0到9共10个量化等级，并将其采样的幅度值取最接近09之间的一个数来表示，如下图所示。图中每个正方形表示一次采样。浙柬孵恭熔凶涩浇依督巍毋兢油组跪玫因盏沏区浙半蔫椎尽盘轩遮掳拌酬第3章音频信息处理第3章音频信息处理D/A转换器转换器从上图得到的数值中重构原来信号时，得到下图中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了

13、很多。这意味着重构后的信号波形有较大的失真。窥瓷何拒咸田播酥默苗炼舰厉钥闻祟询姬栓难义甫吸阴蒸婶涣桨醛袄匹悠第3章音频信息处理第3章音频信息处理失真失真在采样过程中是不可避免的，如何减少失真呢如何减少失真呢？可以直观地看出，我们可以把上图中的波形划分成更为细小的区间，即采用更高的采样频率。同时，增加量化精度采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在下图（左）中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等级。在下图（右）中，采样率和量化等级再提高了一倍，分别达到4000次/秒和40个量化等级。从图中可以看出，当用D/A转换器重构原来

14、信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。萧左哇沂塞愉盎核玻框挽莆携沦舶枕翼或助毒按痪论犊颜辉伞庶叫醋逗舅第3章音频信息处理第3章音频信息处理3. 3. 编码编码模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据数据中加入一些用于纠错、同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声

15、音数据是否有错，如在一定范围内有错，可加以纠正。编码的形式比较多，常用的编码方式是PCM脉冲调制。脉冲编码调制（脉冲编码调制（PCM）是把模拟信号变换为数字信号的一种调）是把模拟信号变换为数字信号的一种调制方式，即把连续输入的模拟信号变换为在时域和振幅上都离制方式，即把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储散的量，然后将其转化为代码形式传输或存储。哀也酌锚药乙姆背篆涎移娥督盘炎舵杨慌嘻绞巢苏淡漏明牵灭芹印扁尧夯第3章音频信息处理第3章音频信息处理3.1.3 3.1.3 数字音频的文件格式数字音频的文件格式在多媒体技术中，存储音频信息的文件格式主要

16、有：WAV文件、VOC文件和MP3文件等。1.WAVWAV文件文件WAV文件又称波形文件，来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。磅雅锤过犊赃逮帝辜几兵蔷坟霸贮氟会拈沃京兴切幕污掺获淄建夹秆贯背第3章音频信息处理第3章音频信息处理 WAV声音文件是使用RIFF（Resource Interchange File Format资源交换文件）的格式描述的，它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及

17、PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。 Wave格式支持多种压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式，但其文件尺寸较大，多用于存储简短的声音片断。未压缩的声音文件的存储量未压缩的声音文件的存储量可用下式计算：可用下式计算：存储量（存储量（KBKB）= =（采样频率（采样频率KHZKHZ采样位数采样位数bitbit声道数声道数时间秒）时间秒）/8/8 贷咳妹疫盏霖僵恤哑莽死株旧赂撅噎琅坑岳滇臂蚤茬投司孙符年百拨再华第3章音频信息处理第3章音频信息处理2.VOC2.VOC文件文件 VOC文件是Creat

18、ive公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所采集的声音数据，被Windows平台和DOS平台所支持。与WAV格式类似，VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针，这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。炯儿袒淄红宝辣藤朔痞钉仗淤慕酣先筋狸请那疾婆账撅油距狈湛俱搏吾共第3章音频信息处理第3章音频信息处理3.MPEG音频文件.MP1/.MP2/.MP3这里的音频文件格式

19、指的是MPEG标准中的音频部分，即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3)，分别对应MP1、MP2和MP3这三种声音文件； MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为41和6181，而MP3的压缩率则高达101121，也就是说一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。壁拓西磅坍望略湃贯漓酞咯营留唐瘦峙究剃滁峦睁凝异忿莹簧螟馆梯矛犊第3章音频信息处理第3章音频信息

20、处理 4.RealAudio文件文件.RA/.RM/.RAMRealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式；它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中，主要用于在低速率的广域网上实时传输音频信息；网络连接速率不同，客户端所获得的声音质量也不尽相同：对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD音质的声音。茅拽反耸壬蕉锻囚管台淖居由敞采美价廊祖赛质吗彻舞差莉廓绪吞烽篡勘第3章音频信息处理第3章音频信息处理5.AIFF文件文件.AIF/.A

21、IFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写，是苹果计算机公司开发的一种声音文件格式；被Macintosh平台及其应用程序所支持，其他专业音频软件包也同样支持这种格式。症杂舶犹辨揣囱螺士胺壁源邢擞蕊依布缨蕉挑狰燕宙写坝措黔盗炽椭妹也第3章音频信息处理第3章音频信息处理3.1.4 3.1.4 声音质量的评价声音质量的评价目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量，等级由高到低依次是DAT，CD，FM，AM和数字电话。此外，声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音

22、质量时，有时同时采取两种方法评估，有时以主观质量度量为主。1 1以声音的带宽衡量声音的质量以声音的带宽衡量声音的质量穗辞糖流划肌铜睦饺姥印趴其府戏茸嵌晰俯奴戮腰华左肤奈痈脏轨引富单第3章音频信息处理第3章音频信息处理2 2、声音客观质量的度量、声音客观质量的度量声音客观质量的度量主要用信噪比(s signal to n niose r ratio，SNR)来度量。它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率，通常以S/N表示。一般用分贝（dB）为单位，信噪比越高表示音频质量越好。信噪比(SNR)用下式计算：SNR 10 log (Vsignal)2 / (Vnoise)220

23、 log (Vsignal / Vnoise)其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)。曝漏拒逮焕浴落妥漂培瘟聘叠阑截筛相离氦勤浑谭蜕妒诬毅枕谴按置割殊第3章音频信息处理第3章音频信息处理3 3、声音主观质量的度量、声音主观质量的度量与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当，更有意义。可是一般来说，可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。

24、对声音主观质量度量比较通用的标准是5分制：优(Excellent)、良(Good) 、中(Fair) 、差(Poor) 、劣(Bad)。诉鸽机家砌军煽拟妖陪网键车桅驳劳担僻改鹅祭丹鳞氢斯欧践昼靖台犯亮第3章音频信息处理第3章音频信息处理3.2音频信号压缩技术音频信号压缩技术音频信号压缩编码的主要依据是人耳的听觉特性，主要有两点：1.人的听觉系统中存在一个听觉阈值电平，低于这个电平的声音信号人耳听不到.2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时，强声使弱声难以听到，并且两者之间的关系与其相对频率的大小有关.声音编码算法就是通过这些特性来去掉更多的冗余数据，来达到压缩数据的目的。竹

25、郸荔赃怂撤卤溉北振微哑替汹眠陀籽啸售吾拉湿淑羹肄腹热代板洁步发第3章音频信息处理第3章音频信息处理3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示逃瑚景稳栏淋炬嘻娘惋料灾鲤冰花涩周揩眉茹与涯滋腔置兜评频柔囊殿盗第3章音频信息处理第3章音频信息处理3.2.1 脉冲编码调制脉冲编码调制1编码的原理编码的原理它的原理框图下图所示染隋杰露袱辙试区圭嘱涨期脖捻溪僻上梧序绽曾耙亏僻粗慌曳莱围拾缔莲第3章音频信息处理第3章音频信息处理模拟信号数字化一般有三个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。但那时并

26、没有涉及如何进行量化。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。采用的量化方法不同，量化后的数据量也就不同。因此，可以说量化也是一种压缩数据的方法；第三步是编码，就是按一定格式记录采样和量化后的数据。麦鞍霄茨熊剥浚府仁痰斜盖持早搁父悯惭云怀迈嵌谷襄岩柒盏患守车琢钉第3章音频信息处理第3章音频信息处理2均匀量化均匀量化采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图3-4所示。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声。羚南帚沟堆西驱愤尾葬感己汝揖姬珐陀形越萎焕湃旅肃郎另挛绪炼硬仰冤第3章音频信息处理第3章音频信息处理3非均匀量

27、化非均匀量化对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔，如图3-5所示。监乏封瓮黎矿拄蟹巢泽饶雀腆编镭慌了酬奋娩他棱躇终垒尺埃蛮冰浇狮岔第3章音频信息处理第3章音频信息处理一个CDDA采用脉冲编码调制PCM编码的实例漫列悉菜瞬皋主店晕洪蜜壳庄透疾操载躬锰文禽组徐脂显坎屑捡趣能豁敌第3章音频信息处理第3章音频信息处理首先用一组脉冲采样时钟信号与输入的模拟音频信号相乘，相乘的结果即输入信号在时间轴上的数字化。然后对采样以后的信号幅值进行量化。最简单的量化方法是均衡量化，这个量化的过程由量化器来完成。对经量化器A/D变换后的信号再进行编码，即把量化的信号电平转换

28、成二进制码组，就得到了离散的二进制输出数据序列x(n)，n表示量化的时间序列，x(n)的值就是n时刻量化后的幅值，以二进制的形式表示和记录。第闻衰凰腆佛烧遣汾络向馅好盟之酬耐舜沧伶胡蛮赐甫量玲九毯旬纯骑弥第3章音频信息处理第3章音频信息处理3.2.2 3.2.2 增量调制增量调制它是一种预测编码技术，是PCM编码的一种变形。DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反。图3-7 DM波形示意图掀桨优第蜂灭筐渺渡佰似阔吻况芦度迈典搐顶革妮

29、芋育示懂畜移椎劳暗掸第3章音频信息处理第3章音频信息处理从上图中可以看到，在开始阶段增量调制器的输出不能保持跟踪输入信号的快速变化，这种现象称为增量调制器的“斜率过载”(slope overload)。在输入信号缓慢变化部分，即输入信号与预测信号的差值接近零的区域，增量调制器的输出出现随机交变的“0”和“1”。这种现象称为增量调制器的粒状噪声(granularnoise)，这种噪声是不可能消除的。在输入信号变化快的区域，斜率过载是关心的焦点，而在输入信号变化慢的区域，关心的焦点是粒状噪声。脓肯碎爽蝴莉雨阁牌汞眨茸扮汪赦秉耸愁媚霍丧羽隆某耙遮铸狄马蛮标迷第3章音频信息处理第3章音频信息处理3.2

30、.3 自适应脉冲编码调制自适应脉冲编码调制是根据输入信号幅度大小来改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是非瞬时自适应，即量化阶的大小在较长时间才发生变化。改变量化阶大小的方法有两种：一种称为前向自适应，后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息。帐端似刊绰孽佃储乖营紊般贾距粤荫评寓薛内店嫩露裤颂宋优舷撂惮卞鸿第3章音频信息处理第3章音频信息处理(a)前向自

31、适应棉诫勋凡焙铸张龚忿兹膳职派颇耘魄沛淀迂易谎鳞理痞功张晚椽吮骨澎恨第3章音频信息处理第3章音频信息处理(b) 后向自适应后向自适应陶敛喝坟掀董绽玩已雕帘输龋淬教蓖弘则九响伊攘升堵列脾是敢渝贫嘉咕第3章音频信息处理第3章音频信息处理3.2.4 差分脉冲编码调制差分脉冲编码调制是利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算(estimate)下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码

32、，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值。踞赢莉刻塘砖瓶耻诣吼裕叙桥踪兄呐醇做矗罩旦痪阔种束驹钙坷窑疲渔莎第3章音频信息处理第3章音频信息处理差分脉冲编码调制的概念示于图差分脉冲编码调制的概念示于图3-93-9。图中的。图中的差分信号差分信号d(k)d(k)是离散输入信号是离散输入信号s(k)s(k)和预测器输和预测器输出的估算值出的估算值se(k-1)se(k-1)之差。注意，之差。注意，se(k-1)se(k-1)是对是对s(k)s(k)的预测值，的预测值，沿坠浆棚秀填托牢寥尊氟蜂愚敞脉逝廉嘛脆褂吭拖酥嚷颧峭午拄篮酷彼觉第3章音频信息处理第3

33、章音频信息处理3.2.5 自适应差分脉冲编码调制自适应差分脉冲编码调制综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码。它的核心想法是：利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值,使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。它的编码简化框图如图3-10所示。笨孔必剧匪棉贯笨叉缕汲赦纷榴辉涅奉侣发饥甜唤菇抒功杉做秋题客缎螺第3章音频信息处理第3章音频信息处理照缕灌丹浪送跃留凿确缘侄观氏绅掖枯锯压弥再矣韩张剐剖哟湾嵌顿拜雷第3章音频信息处理第3章音频信息处

34、理3.3音频编码标准3.3.1 CCITT G系列声音压缩标准系列声音压缩标准CCITT和ISO先后提出了一系列有关语音数据编译码标准,下面简要介绍几种音频编码技术标准。1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在300Hz3.4kHz，采用标准的脉冲编码调制(PCM)，当采样频率为8kHz，进行8bit量化时，所得数据速率为64kb/s，即一个数字电话。1972年CCITT为电话质量和语音压缩制定了PCM标准G.711，其速率为64Kbs，使用非线性量化技术，主要用于公共电话网中。俏澈昼陛攻季饺脂毯宫磺急暂弛大呕芳针鞭料脉格忧坎氦澡炕槐饿揪噬怕第3章音频信息处

35、理第3章音频信息处理2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准频率在50Hz一7kHz范围。G.722标准是采用16kHz采样，14bit量化，信号数据速率为224kbits，采用子带编码方法，将输入音频信号经滤波器分成高子带和低子带两个部分，分别进行ADPCM编码，再混合形成输出码流，224kbits可以被压缩成64kbits，最后进行数据插入(最高插入速率达16kbits)，因此利用G.722标准可以在窄带综合服务数据网N-ISDN中的一个B信道上传送调幅广播质量的音频信号。膜郸卤长谚拭柑恍忽涧祖遇族痊极眩狂今痪酞振攒萨走绅茬程夸档层泣湾第3章音频信息处理

36、第3章音频信息处理3 3高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准高保真立体声音频信号频率范围是50Hz20kHz，采用441kHz采样频率，16bit量化进行数字化转换，其数据速率每声道达705kbits。1991年国际标准化组织ISO和CCITT开始联合制定MPEG标准，其中ISOCDlll72-3作为“MPEG音频”标准，成为国际上公认的高保真立体声音频压缩标准。MPEG音频第一和第二层次编码是将输入音频信号进行采样频率为48kHz，44.1kHz，32kHz的采样，经滤波器组将其分为32个子带，同时利用人耳屏蔽效应，根据音频信号的性质计算各频率分量的人耳屏蔽门

37、限，选择各子带的量化参数，获得高的压缩比。MPEG第三层次是在上述处理后再引入辅助子带，非均匀量化和熵编码技术，再进一步提高压缩比。MPEG音频压缩技术的数据速率为每声道32448kbits，适合于CDDA光盘应用。哲桌瓷跟阜但夜户削盟波睁密抬埂批党厅哲浅瑟硼焦音浴攒没署台椅坍坛第3章音频信息处理第3章音频信息处理3.3.2 MP33.3.2 MP3压缩技术压缩技术 MP3的全名是MPEG Audio Layer-3，简单地说就是一种声音文件的压缩格式。ISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案，按照压缩质量(每Bit的声音效果)和编码方案的复杂程度分别是

38、Layer1、Layer2、Layer3。所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度，在编码时先分析声音文件的波形，利用滤波器找出噪音电平(Noise Level)，然后滤去人耳不敏感的信号，通过矩阵量化的方式将余下的数据每一位打散排列，最后编码形成MPEG的文件。而音质听起来与CD相差不大。吮总凭弹技漾浓堑晤斗出吗篷吼潍梦懒动翰劫诣汲裸价霓条咨搓坍碘被来第3章音频信息处理第3章音频信息处理MPEGMPEG的层次与压缩比率的层次与压缩比率 Layer1(相当于384kb

39、ps立体声信号)4:1Layer2(相当于192256kbps立体声信号)6:18:1Layer3(相当于112154kbps立体声信号)10:112:1辛挪丈肇谜究然宽呸姜雷鸣姑镰避曝惊揩董帅态朗畴飞涂杜战卸屹终组硼第3章音频信息处理第3章音频信息处理3.3.3 MP4压缩技术压缩技术MP4并不是MPEG-4或者MPEG-1Layer4，它的出现是针对MP3的大众化、无版权的一种保护格式，由美国网络技术公司开发，美国唱片行业联合会倡导公布的一种新的网络下载和音乐播放格式。MP4使用的是MPEG-2 AAC技术也就是俗称的a2b或AAC。其中，MPEG-2是MPEG于1994年11月针对数码电

40、视(数码影像)提出的。它的特点就是，音质更加完美而压缩比更加大(1:15)。MPEG-2 AAC(ISO/IEC 13818-7)在采样率为896KHz下提供了148个声道可选范围的高质量音频编码。AAC就是Advanced Audio Coding(先进音频编码)的意思，适用于从比特率在8kbit/s单声道的电话音质到160kbit/s多声道的超高质量音频范围内的编码，并且允许对多媒体进行编码/解码。瓣中踊是只炕顶沂发夸冒圣化赫董初普两朽盘舒赁砸察脱君令攫调告蔼诡第3章音频信息处理第3章音频信息处理AAC与MP3相比，增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪优异等M

41、P3没有的特性，使得在音频压缩后仍能完美的再现CD音质。AAC技术主要由以下三个部分组成。第一，AT&T的音频压缩技术专利。它可以将AAC压缩比提高到20:1而不损失音质。这样，一首3分钟的歌仅仅需要2.25MB，这在互联网上的下载速度是很惊人的。第二、安全数据库。它可以为你的AACMusic创建一个特定的密钥，将此密钥存于其数据库中。同时，只有AAC的播放器才能播放含有这种密钥第三、协议认证。这个认证包含了复制许可、允许复制副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可等信息。肺腾日刃瞒叉威甸程修为面焚饿码林内率兴凡玉男宪喘鲜芍蛔勃包愧裤编第3章音频信息处理第3章音频信息处理MP4技术的

42、优越性要远远高于MP3，因为它更适合多媒体技术的发展以及视听欣赏的需求。但是，MP4是一种商品，它利用改良后的MPEG-2 AAC技术并强加上由出版公司直接授权的知识产权协议作为新的标准；而MP3是一种自由音乐格式，任何人都可以自由使用。此外，MP4实际上是由音乐出版界联合授意的官方标准；MP3则是广为流传的民间标准。相比之下，MP3的灵活和自由度要远远大于MP4，这使得音乐发烧友们更倾向于使用MP3。更重要的一点是，MP3是目前最为流行的一种音乐格式，它占据着大量的网络资源，这使得MP4的推广普及难上加难。梦公赔洲很析屈衷茫矗扼击坡溜卑喜蓄凹馈签摸晦协膜膀琶洽馁方挪涵全第3章音频信息处理第3

43、章音频信息处理3.3.4乐器数字接口乐器数字接口MIDI 产生MIDI乐音的方法很多，现在用得较多的方法有两种：一种是频率调制(frequency modulation，FM)合成法，另一种是乐音样本合成法，也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。FM合成器生成乐音的工作原理主要是把几种乐音的波形用数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(digitaltoanalogconvertor，DAC)来生成乐音。但是使用FM合成法来产生各种逼真的乐音是相当困难的，有些乐音几乎不能产生。乐音样本合成法就是把真实乐器发出的声音以数

44、字的形式记录下来，播放时改变播放速度，从而改变音调周期，生成各种音阶的音符。乐音样本的采集相对比较直观。阎撮者滴粒虐禽瓷哑携扇庆既椽虑蚜静懈辨忱挺照旅霸脯津继萌谆乱皮保第3章音频信息处理第3章音频信息处理MIDI协议协议提供了一种标准的和有效的方法，用来把演奏信息转换成电子数据。MIDI信息是以“MIDI messages”传输的，它可以被认为是告诉音乐合成器(music synthesizer)如何演奏一小段音乐的一种指令，而合成器把接收到的MIDI数据转换成声音。国际MIDI协会(International MIDI Association)出版的MIDI 1.0规范对MIDI协议作了完整

45、的说明。赋掀疡揩嘉林盲靳恐永阐宾棠烘褐厢摈竞勤塘投祁宾争忠叠碘斩刁趟寝焰第3章音频信息处理第3章音频信息处理MIDIMIDI数据流数据流是单向异步的数据位流(bit stream)，其速率为31.25 kbps，每个字节为10位(1位开始位，8位数据位和1位停止位)。MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器，用IN(输入), OUT(输出)和THRU(穿越)。MIDI数据流通常由MIDI控制器(MIDI controller)产生，如乐器键盘(musical instrument keyboard)，或者由MIDI音序器(MIDI sequencer)产生。MIDI控制器是

46、当作乐器使用的一种设备，在播放时把演奏转换成实时的MIDI数据流，MIDI音序器是一种装置，允许MIDI数据被捕获、存储、编辑、组合和重奏。来自MIDI控制器或者音序器的MIDI数据输出通过该装置的MIDI OUT连接器传输。嚏耪甩娟艺瑞蓝与晾午陵帕脂粹愿围宽椿灸瑚读地唱痒蚌案萤槛赋钦者屹第3章音频信息处理第3章音频信息处理3.4 常用音频处理软件简介常用音频处理软件简介 3.4.1 Cool Edit ProCoolEdit Pro是著名的Syntrillium公司开发的数字音频处理软件，其运行环境为Windows启动后其界面如右图所示。嫌仑促隶仇签生候怀恕剐督某潮镶滋糜显煞衅名鼎玫桓斟哄竹

47、炯警谗墓耗第3章音频信息处理第3章音频信息处理CoolEdit Pro的主要特色有： (1).(1).支持的音支持的音频格式十分丰富格式十分丰富，多达十余种，还提供了对5种不同类型WAV文件的支持。(2).(2).提供丰富的特殊效果提供丰富的特殊效果。包括3D混响、降噪、滤波、音频缩/放、合声、延迟、变形、反转、静音等。(3).(3).提供了强大的提供了强大的DSPDSP（数字信号处理）能力。能够同时（数字信号处理）能力。能够同时处理处理6464条音轨。条音轨。支持录音、回放、混音、音频编辑。借助它，能够方便地制作出自己想要的任何特殊音效，并添加到各种类型的多媒体作品中去。(4).(4).操作

48、界面设计简捷方便操作界面设计简捷方便。在工具栏中，提供了56个图形化按钮。几乎所有的编辑操作都能够方便地进行操作。忽丰寇莆胃百您男旬跑纷直佐怜扇维紊霓莽登棵如坏胸覆润褥横铡趟非依第3章音频信息处理第3章音频信息处理3.4.2 Gold WaveGoldWave的窗口界面如图下图所示。悯穴硫瓣艾喉状娱叼账恤柠俄掏锯更暮号垮盗讹蚁扑体殆剂缕呢礼攒对谰第3章音频信息处理第3章音频信息处理GoldWave是一款相当不错的数码录音及编辑软件，除了附有许多的效果处理功能外，它还能将编辑好的文件存为WAV、AU、SND、RAW和AFC等格式，而且它可以不经由声卡直接抽取SCSI形式的CDROM中的音乐来录制

49、编辑。作为Wave文件编辑处理工具，支持从MP3、MPG、AVI、ASF、MOV等文件中提取音频进行编辑，所以除了它强大的编辑功能外，用作把以上格式的音频转换成WAV文件也是很方便的。GoldWave同时是较新的、适合于一般进行音频素材采集与制作的软件，它集音频录制和编辑于一体，不仅是一个录音程序，可以很方便地制作CAI课件的背景音乐、音效、录制CD、转换音乐格式等，而且还具有各种复杂的音乐编辑和特效处理功能。该软件不需要安装，只要运行程序文件夹中的可执行程序即可。GoldWave小巧玲珑，只有600K左右，可从http:/下载。院间招厩藤积啊冷袋救矿墨歪仔行焚乐呛叠馅砌沈从破脸挪服眨尾止娘

50、遣第3章音频信息处理第3章音频信息处理3.4.3 CakeWalk（音乐大师）（音乐大师）作为一种图形化的音乐编辑软件，CakeWalk的主要工作界面就是各种工作窗口，我们对MIDI事件和音频事件的所有编辑和操作都是在工作窗口中完成的。如下图所示，音轨窗既是CakeWalk主界面的主要组成部分，也是重要的工作窗口。类似的还有钢琴窗帘、事件列表窗、调音台窗等，每个窗口各有所长，分别适用于不同的编辑对象和编辑特征。雪全躲甫考殴将薪灶功凉嫩断废鄂佣屉钙缺扯某洁吉指介扳贝肇讫者配韵第3章音频信息处理第3章音频信息处理1. Cakewalkakewalk的的调调音音台台可以自动混音，可以一边播放乐曲，一

51、边记录控制键（滑键）的调整动作，而且多个控制键可以编组控制，这为制作渐强减弱效果提供了最为简单的操作手段。2.对于所有连续变化的数据，例如弯音、调制、控制器、键速和速度等，Cakewalk都提提供供了了手手工工划划线线的的编编辑辑方方式式，用鼠标划一条斜线或曲线便可随意改变数值。因此，对于像弯音轮的细微变化过程、速度的自由变化等之类较难处理的数据，在Cakewalk中都变得异常简单。3.Cakewalk可以将其所有菜单操作命令赋予MIDI键盘，也就是说，可可以以用用合合成成器器的的键键盘盘来来控控制制软软件件的的各各种种操操作作，其功能是所有音序软件中最全面的。4.Cakewalk可以将将音音

52、符符的的位位置置、控控制制器器的的变变化化等等MIDIMIDI信信息息图图形形化地显示出来化地显示出来，因此看起来更加接近总谱。Cakewalk Pro AudioCakewalk Pro Audio的的一些特色功能一些特色功能摩令闭诛且剿窟务坟济桑清诊陇群询胞钻瘪呕嗓腋灰券会喧莲酵裸也厨妇第3章音频信息处理第3章音频信息处理3.5波形音频文件的采集与制作波形音频文件的采集与制作3.5.1利用利用“录音机录音机”生成和编辑波形文件生成和编辑波形文件Windows录音机的主要功能是录音和放音，使用“录音机”可以录制、混合、播放和编辑声音，也可以将声音链接或插入到另一文档中。其主要功能操作如下所

53、述：（1）波形文件的录制：确保音频输入设备已经连接到计算机。录音机常用的输入设备是麦克风和CD-ROM播放机。（2）波形文件的存储：存储的文件格式为波形（.wav）文件。（3）声音的编辑：复制、粘贴、插入、删除等操作。（4）音频变换与特殊效果：更改声音的大小、速度、回音等。澜朴郧随威鸥责姬砒杜硬废役眼谷屉获孩湃进彻证殊叔梭蒂蒲嵌揣思千目第3章音频信息处理第3章音频信息处理CoolEditPro是一种非常出色的声音编辑器，其主要功能操作如下所述。（1）波形文件的录制：录制及录制参数（采样率、量化位数、单双声道等）的设定。（2）波形文件的存储：存储的文件格式（.wav、.au、.smp、.asf、

54、.wma等）的选择，文件格式与参数（采样率、量化位数、单双声道）的变换。（3）波形文件选定范围播放，记录播放时间。（4）声音的编辑：剪切、拷贝、混合粘贴、插入多轨工程、插入多轨播放列表、删除静音、零点定位、确定节拍等。（5）声音的变换与特殊效果：降噪、扩音、剪接、添加立体环绕、淡入淡出、3D回响等音效。3.5.2用用Cool Edit Pro编辑制作波形文件编辑制作波形文件泪撬喇篇风彝馆暗簇驰座狼芍您毖冲妓氯肢准壬咨邓犀风而望溉话叙哨策第3章音频信息处理第3章音频信息处理3.6 声音文件格式的互换声音文件格式的互换1 1选择声音文件格式的部分原则 1）Wav文件：不仅所有的Windows的音效

55、处理应用程序都可以播放WAVE文件，而且常见的各种多媒体编辑制作软件的音效播放都能直接使用WAV文件。再者，WAV格式的音质效果也不错。 2）MP3文件：如果通过适当的工具来截取CD上的数字音频并保存为CD音质的WAVE文件，然后进行MPEG Layer 3的压缩编码形成MP3文件，再用合适的解码软件对MP3解码。那么可以形成一个节约大量存储空间，保持CD音质的整体解决方案。 3）MIDI文件：是多媒体计算机产生音频（特别是音乐）的另一种主要方式，可以满足需要长时间音乐的场合。荤支羌默堑架赴询知章华龟氦酝挺尽蛙亡唾杜尽袄符苞挂酵疮辈谋性骏恳第3章音频信息处理第3章音频信息处理4）SWA文

56、件：SWA格式的音乐文件，是Authorware4.0以上版本支持的特殊音乐格式，它的容量类似于流行的MP3，也非常小。在Authorware4.0或4.0以上版本中，自带WAVSWA转换器， 3.6.2转换转换CD音轨音轨下面以比较常用的CDCopy为例来说明一下如何转换CD音轨。CDCopy是一个常用的抓音轨工具，它对烂盘的纠错性能非常好，还可以把CD音轨转换为WAV、AU、RA、YamahaVQF、AAC、MP3等多种声音格式，而且CDCopy是一个共享软件，我们可以从http:/下载到它的最新版本。抓取及转换音轨步骤分以下3步：1选择文件格式2设置文件保存路径3转换音轨医迂厉缆照凹初羌

57、柄钩挑迂日勒馅敖认迈橙啪待耪垫蹿且纳胁旋兰最鸟屏第3章音频信息处理第3章音频信息处理3.7.1语音识别的发展历史语音识别的发展历史可以将语音识别近六十年的发展历史划分为4个时期：（1）初始发展期（2）基础突破期（3）综合发展期（4）成熟期 3.7 语音识别技术及应用语音识别技术及应用沏守玲岗流虫究硫岭止持萌讼藐吝细啦笆惭扶荐棒厂醛要厘咏过父曾干惰第3章音频信息处理第3章音频信息处理3.7.2语音识别技术语音识别技术语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要让机器具有人的听觉功能，在人机语音通讯中“听懂”人类口述的语言。根据不同的需求，

58、语音识别的识别内容可分为狭义的语音识别和说话人语音识别。虱蛾坟湖入霸做翰夏匣警桌工惦画省纠稀肌肇茂贱诌揽榆哺央幌奠女绿宋第3章音频信息处理第3章音频信息处理1语音识别技术的基础语音识别技术的基础一个完整的语音识别系统可大致分为三部分：（1）语音特征提取：其目的是从语音波形中提取出随时间变化的语音特征序列。（2）声学模型与模式匹配（识别算法）：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。（3）语言模型与语言处理：语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小

59、词表语音识别系统，往往不需要语言处理部分。答及件续颧植瀑节遗绽恭精眨鬼裙梭头胃嗡务晃搭涧磊约差妙磨么菇牺搅第3章音频信息处理第3章音频信息处理声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。鲸量穴胰权辫找悟融咏夫亏啼卧竿尘堕潞扫橡凛溉翔贷谅睡常缎搜痊季矾第3章音频信息处理第3章音频信息

60、处理语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。揍缺残挂靴以墅蝶入瘩嚣脯生偏逻默隶力而峪疮讥顿彦哭囊咐茎奈奴窄脖第3章音频信息处理第3章音频信息处理2语音识别的基本原理语音识别的基本原理喷蹿浓嗅颖哇砂郑答皖二垣四胚筷褒喘钠玫芳杨散擎亮难专慷坝

61、瑶瞻女棘第3章音频信息处理第3章音频信息处理预处理预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题：特征提取部分特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等；训练训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库；模式匹配部分模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度，判断出输入

62、语音的语意信息。惰奈芍捧适拙觉涅詹厄削球待菩唬豌男扬根贴砖龙横而漫嘎兹礁掇具埃熔第3章音频信息处理第3章音频信息处理3 3处理的方法：处理的方法：(1) 连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定；剔除噪声的带通滤波、高频预加重处理、各种变换策略；波形的自动切分(依赖于识别基元的选择方案)。(2) 特征参数提取识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此，必须寻找一个既能充分表达语音特征又能彼此区别的特征参数，这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平

63、均过零率、能量、短时频谱、共振峰频率及带宽等。撕旭册獭么亦幂壬休奔信台顿手皮整渺糊涌雨捍娱七我冰衣准芯佩怂隘潦第3章音频信息处理第3章音频信息处理（3）参参数数模模板板存存储储。在建立识别系统时，首先进行特征参数提取，然后对系统进行训练和聚类。通过训练，系统建立并存储一个该系统需识别字（或音节）的参数模板库。（4）识别判决。识别时，待识语音信号经过与训练时相同的特征参数提取后，与模式模板存储器中的模式进行匹配计算和比较，并根据一定的规则进行识别判决，最后输出识别结果。逮愤豆雨敛系眩恐软舆采墩奔倚蚂丹嘛腰妈盾渭修皑尸傈泡皮泪雄沈磕捷第3章音频信息处理第3章音频信息处理3.7.3 语音识别系统的类

64、型语音识别系统的类型1按可识别的词汇量多少2按照语音的输入方式3按发音者为特定/非特定人4按发音者的声纹茬牺非瞅使蚤妊弃涉惩合氯蜡娥醇鼓职枪歼政舆准缔步赤罐获菊涣扦焊吐第3章音频信息处理第3章音频信息处理3.7.4 语音识别的应用语音识别的应用1在信息处理领域的应用（1）给计算机发送指令。（2）听写系统。（3）信息查询。（4）网上交谈。2教育与商务应用（1）语音教学软件。（2）电话查询。（3）电子商务。 3消费电子产品应用耙兴约牲些勤寞昏绸嗡藏倡啸做初蛙哲毁眼筷惫汛鸿爆差智眉簧菱审监喻第3章音频信息处理第3章音频信息处理第三章小结第三章小结声音是携带信息的重要媒体，对音频信息的处理是多

65、媒体技术研究的一个重要方面。声音种类繁多，且不同种类的声音之间既有共性也有自身的特性。在本章的前3节主要介绍了音频信息处理的基本知识和音频信号压缩及编码等理论。在后4节中先介绍了常用音频处理软件及声音文件的制作、转换等实际应用，最后介绍了一个目前较热门的应用领域语音识别技术。禁梭意蕴慢漓汪谣榜愿绽盾津动中寐诀壹嘲好韵障游苏奄铀陷注啸毗盆命第3章音频信息处理第3章音频信息处理第第3 3章章讨论题讨论题1.声音按其特性分为哪几类？举例说明。声音按其特性分为哪几类？举例说明。分为规则和不规则两类。不规则指不含任何信息的噪音；规则声音分为语音、音乐和音效。语音是指具有语言内涵和人类约定俗成的特殊媒体，

66、音乐是规范的、符号化的声音，音效是指人类熟悉的其他声音，如雨声、雷声、机器轰鸣声。2.声音具有哪声音具有哪3个要素？举例说明。个要素？举例说明。音强、音调、音色。斋蒜州粒欣玲腾挞沂左赚哈惯苗哲铅郧龋络碉谜腐吏曰饥亚绷混裔禄掂潮第3章音频信息处理第3章音频信息处理3.声音数字化分为哪两个步骤？声音数字化分为哪两个步骤？采样采样就是每隔一段时间就读一次声音信号的幅度，记录下来的原始模拟声波在某一时刻的状态，称之为样本；每秒钟抽取声波幅度样本的次数，称为采样频率，采样频率的高低由奈奎斯特采样订立和声音信号本身的最高频率决定；常用的有8kHz,11.025kHz,22.05,kHz16kHz,44.1

67、kHz,48kHz等。量化量化：把采样得到的声波幅度转化为数字值，也就是把某一幅度范围内的电压用用一个数字表示。量化位数是每个采样点能够表示的数据范围，有8/12/16/32位。量化级量化级的大小决定了声音的动态范围，即被记录和重放的声音最高与最低之间的差值。量化有很多种方法，可归纳为两类，均匀量化和非均匀量化。逆老恐蹈泳敝墩碧秃挣汰汤建唐乖圆逢抡讼袍魏侵缚冕闻壶蕉寂报毒义袄第3章音频信息处理第3章音频信息处理4. 从人机交互的角度看，音频信号有哪些从人机交互的角度看，音频信号有哪些处理过程？处理过程？1.音频获取音频获取（计算机接收音频信号）：语音识别和理解。2.音频合成音频合成（计算机输

68、出音频信号）：语音合成和音乐合成；3.声音定位声音定位：包括立体声模拟、音/视频同步。4.人通过网络与别人通信人通过网络与别人通信：语音采集、音频编码/解码，音频传输等。礼颗赐隙涂邓怒怠洽神稽漾篓呢蕉亭汗读斋墙牵浮瞅仰职婉朝笔吧裕殖酉第3章音频信息处理第3章音频信息处理5.声卡有哪些主要功能？声卡有哪些主要功能？1.录制、编辑和回放声音文件；2.控制各个音源的音量，混合后再数字化；3.记录和回放声音文件；4.文语转换和语音识别；5.MIDI接口和音乐合成。6.声卡有哪些主要技术指标？声卡有哪些主要技术指标？1.采样率与量化位；2.FM合成与波形表；3.外围接口；4.音频压缩；5.DSP芯片；6.软件支持。仟坊祖蔡量汗物邑冠杀聂斋镐叫氛酒点笼苏毡彻篱与拾评侠棋邹定补琳惑第3章音频信息处理第3章音频信息处理实验题实验题1、清制作一段自己的录音文件，并配背景音乐，写出制作步骤。2、请叙述用CoolEditPro取出某段录音文件中的环境噪音的步骤。3、请把某段正常速度录制的语音文件，在保持语调不变的情况下把语速降低到正常语速的70%。闻尉总篇籍潦冤锹未瘤媳白殿堕获遂陇溃簇卉骆呆责雨唱涅钩恐静钒碾惺第3章音频信息处理第3章音频信息处理

展开阅读全文

第3章音频信息处理

最新文档