[精选]数字音频处理技术

资源描述

《[精选]数字音频处理技术》由会员分享，可在线阅读，更多相关《[精选]数字音频处理技术（49页珍藏版）》请在金锄头文库上搜索。

1、第三章数字音频处理技术,第一节数字音频基础,一、声学基础： 1、声音的三个物理量：响度、音调、音色。 2、室内声场中声能结构：直达声、早期反射声、混响声,第一节数字音频基础,3、模拟音频信号的产生与再生,第一节数字音频基础,二、音频的数字化,第一节数字音频基础,三、立体声与三维立体声技术,第一节数字音频基础,第一节数字音频基础,四、数字音频的文件格式 1、WAV 波形文件。是非常流行的音频文件格式，占有磁盘空间较大。 2、是音质最好的音频格式之一，采样率及量化位数较高。 3、MP123文件。其中MP3是目前最为流行的音乐文件格式。 4、VQF文件：雅马哈公司特有的文件格式，

2、压缩后文件可比MP3小30%50%，但支持软件不多。所以影响力不大,第一节数字音频基础,5、AIFF文件；音频交换文件格式，可广泛用于其它类型的计算机平台。 6、RealAudio文件：流媒体文件格式，普遍用于网络音频传播。 7、WMA文件：微软公司开发的流媒体文件格式，音质好于MP3。 8、MIDI文件：计算机记录音乐的一种格式，不能用于语音场合,第二节数字音频压缩技术,第二节数字音频压缩技术,一、数字音频压缩方法分类 1、无损压缩：它利用数据统计冗余进行压缩，根据信源符号出现概率的分布特性进行压缩编码，在信源符号与码字之间明确的一一对应关系，但压缩率受统计冗余度的限制，一般为2：15

3、：1。常用的编码方法为哈夫曼编码和游程编码,第二节数字音频压缩技术,1)霍夫曼编码霍夫曼编码是哈夫曼于1952年提出的一种代码长度不均匀的编码方法。它的基本原理是按信源符号出现的概率大小进行排序，出现概率大的分配短码，反之则分配长码。在分配码字时，需建立一株n阶完全二叉树。哈夫曼编码有时称为最佳编码，因为当符号的概率都是2的乘方时，哈夫曼编码中码字的平均长度达到最小的极限。即信源的熵。霍夫曼编码是消除编码冗余的最常用技术,第二节数字音频压缩技术,假定要对下面这段歌词进行哈夫曼编码， Because Im bad，Im badcome On Bad，bad-really,really ba

4、d You know Im bad，Im bad- Bad，bad-really，rea1ly bad You know Im bad，Im badCome on, you know Bad，bad really，really bad,第二节数字音频压缩技术,第二节数字音频压缩技术,第二节数字音频压缩技术,第二节数字音频压缩技术,结果，采用哈夫曼编码，大约可得到20%左右的压缩率。编码效率=1.59/2.32=69,第二节数字音频压缩技术,2)游程编码游程编码是一种简单的编码方式，在二值图像处理中应用较广。普遍用于传真系统中的信号编码。游程（行程）：指由信源字符或信号样值在数据流

5、中重复出现的字符串长度,第二节数字音频压缩技术,主要方法是将数据中相同的符号串用一个游程长度（符号数）和一个代表值描述，并分别赋予不同的码字。编码方式有定长编码与变长编码两种,第二节数字音频压缩技术,第二节数字音频压缩技术,在对以上图像数据传输时，只要对上述扫描得到的13对数据编码传输，就可以在接收端恢复该图像的64个像素的灰度值。为了达到比较好的数据压缩效果，行程编码常常与其它一些编码技术结合使用,第二节数字音频压缩技术,3）算术编码算术编码是一种较好的统计编码，每一符号对应0，1上的一个子空间，区间长度为该符号出现的概率。该方法将被编码的符号串表示为一个0和1之间的一个区间,

6、第二节数字音频压缩技术,第二节数字音频压缩技术,2、有损压缩普通的无损压缩方法对信号的保真度高，但是信号传输占用带宽较宽，保存占有磁盘空间较大。所以，压缩技术的发展拓展了数字技术发展的平台,第二节数字音频压缩技术,2.2.2 时域波形编码时域波形编码音频质量好，但压缩比不大。基本方法为：差值量化、自适应预测编码、增量调制等。差分脉冲编码（DPCM）：利用取样值之间的差值作为编码的依据。从而减少码字。增量调制（DM）：用一个比特的两种状态表示相邻取样值的增加与减少关系,第二节数字音频压缩技术,2.2.3 感知编码： 1、心理声学模型 2、感知编码：用一个随音频信号而定的听力门限

7、和原有音频进行比较，对于哪些低于门限（人耳无法分辨）的信号，略过编码或者减少比特位。以降低编码后的总比特位。 3、频域压缩编码：分为子带编码和变换编码。把音频信号变换到频域，用心理声学模型中的掩蔽曲线作为对数据进行压缩的参照，对筛选出来的信息进行编码,第二节数字音频压缩技术,2.2.4 音频压缩标准 1、MPEG-1音频标准：属于感知编码类型。它规定了三个不同层次的编码方案。、层建立在掩蔽模式通用子带和多路复用编码算法的基础之上。层次编码复杂程度较大，应用于目前常见的MP3音频文件编码,2、 MPEG-2音频标准：经历了三个阶段，前两个阶段增加了低取样频率的应用，同时增加了单声道、双声道立

8、体声、5.1声道立体声应用。有向后兼容的特点。第三阶段支持多声道应用，不向后兼容,第二节数字音频压缩技术,MPEG-4 标准 MPEG-4研究的目的是解决低比特率下的多媒体窄宽传输、高画质压缩、交互性操作以及如何将自然物体与人造物体相溶合的表达方式，并特别强调广泛的适应性和可扩展性。 MPEG-4音频结构包括：传统的音频编码标准；独特的音频结构；合成/自然混合编码方法。从而解决了高质量音频在窄带中传输的问题,第二节数字音频压缩技术,Dolby AC-3音频标准是一款由杜比实验室开发的数字式多声道环绕式立体声系统。系统由 “左声道”、“中置声道”、“右声道”、后置的“左环绕声道”和“右环绕

9、声道”五个全频域声道加一个超低音声道（频率响应为3-120Hz ）组成。前置的左、右音箱，中置音箱产生极有深度感和定位明确的音场，两个后置或侧置的环绕音箱和超低音箱表现宽广壮阔的音场，全频段的细节十分丰富，具有真正的立体声,第三节计算机音乐,1、数字式电子合成器模拟电子合成器是用电子元件制成信号发生器来产生声音信号中的各种频率成分。而数字式电子合成器则是由数字方法造成波形然后转换为声音信息,第三节计算机音乐,第三节计算机音乐,2、MIDI(乐器数字接口) 通过电缆将电子音乐设备（MIDI键盘）与计算机连接起来，与相关软件相配合进行电脑作曲。 1、MIDI输入单元（硬件设备）：输入作曲旋

10、律。 2、编辑控制单元（计算机软件）：记录相关信息 3、音源单元（音乐合成器）：合成音乐,第三节计算机音乐,MIDI键盘,MIDI链接电缆,声卡的MIDI接口和游戏杆接口是共用的,第三节计算机音乐,第三节计算机音乐,3、数字音频工作站（1）数字音频工作站是一种集中多种音频处理工具，以计算机软硬件平台为主的数字音频制作系统,第三节计算机音乐,2）数字音频工作站的功能具有专业要求的声音录入和声音播放。具备录音、放音、与音乐合成功能。方便快捷的音乐剪辑功能。具备数字效果处理功能,第三节计算机音乐,Pocketstudio 5 是一方便移动的4轨数字录音机，使用Flash卡用作存

11、储载体。除了它的四个音频轨用于人声，吉他以及其它乐器外，Pocketstudio 5 还带有一个内置的MIDI音源，因此它也可以被用作音序播放器，而且四音轨可同时播放。它本身自带100首标准的MIDI文件，插上卡就可以享受多种背景音乐风格！另外，它还增加了超过100种自带的效果,第三节计算机音乐,罗兰 VS2480通道数字音频工作站,VS-2480也是一个集录音机调音台，和效果器于一体的产品。具有24轨同时播放，24比特AD/DA转换，96KHZ采样频率，17个电动推子，LCD液晶显示屏。更令人振奋的是，VS-2480可以象电脑那样操作,第四节数字语音处理技术,1、语音合成语音合成最

12、基本的目的是让机器模仿人类的语言发声来传送信息。例如：常见的自动化语音服务系统。（1）波形编码语音合成：以语句、短句、词和音节为合成单元，这些单元被分别录音后，直接进行数字编码，经适当数据压缩后组成数字语音库。重放时，根据待输出的信息，在语音库中取出相应单元的波形数据，串接或编辑在一起，经解码还原出声音,第四节数字语音处理技术,2）基音同步叠加法（PSOLA），在拼接语音波形片断之前，根据上下文要求，对拼接单元的韵律特征进行调整，使合成波形既保持原有的音段特征，又能使拼接单元韵律特征符合上下文要求。 Sonic文语转换系统：这是清华大学计算机系基于波形编辑的汉语文语转换系统。该系统利用汉

13、语词库进行分词，并且根据语音学研究的成果建立了语音规则，对汉语中的某些常见语音现象进行了处理。系统采用PSOLA算法修改超音段语音特征，提高了言语输出的质量,第四节数字语音处理技术,3）参数语音分析合成按照语言理论，对所有合成单元的语音进行分析，一帧一帧地提取有关语音参数，以音节、半音节或音素为合成单元，组成一个合成语音库，输出时，根据带合成的语音信息，从语音库中提取相关信息进行合成。 3、规则语音合成除提取有关语音参数外，在存储语音组成规则。语音合成过程较复杂。音质一般,第四节数字语音处理技术,4）文语转换系统以文字串为语音合成对象，对文字进行正确理解后调用语音库数据进行语音合成。

14、是一个语义、语音转换的人工智能系统,第四节数字语音处理技术,2、语音增强主要目的是消除原有语音中的噪声。（1）噪声对消法（2）谐波增强法（3）基于参数估计的语音合成法,第四节数字语音处理技术,3、语音识别语音识别技术集声学、语音学、计算机、信息处理和人工智能等诸多领域的一项综合技术。是多媒体领域目前研究的热点。目的是让机器能听懂人的语言,第四节数字语音处理技术,4、汉语语音识别（1）汉语与其它语言有着截然不同的特点：以字为最小语音单位，而且每一个汉字的发音对应与一个音节，在常用的6000多个汉字中，全部语音音节只有1281个，如果不考虑声调中的四声，汉语无调音节只有412个。

15、所以，以音节作为语音合成的基本单位，历来是汉语语音合成的常用方法,第四节数字语音处理技术,2）语音特征参数的提取 LPC倒谱系数分析法。 Mel倒谱系数感知线性预测。小波变换系数分析法（3）模式识别匹配动态时间规整技术隐马尔科夫模型技术人工神经网络技术混合型模式匹配技术自适应鲁棒性,谢谢,21.3.2921:45:5021:4521:4521.3.2921.3.2921:45,21:4521:45:5021.3.2921.3.2921:45:50,2021年3月29日星期一9时45分50秒,9、静夜四无邻，荒居旧业贫。21.3.2921.3.29Monday, March 2

16、9, 2021 10、雨中黄叶树，灯下白头人。21:45:5021:45:5021:453/29/2021 9:45:50 PM 11、以我独沈久，愧君相见频。21.3.2921:45:5021:45Mar-2129-Mar-21 12、故人江海别，几度隔山川。21:45:5021:45:5021:45Monday, March 29, 2021 13、乍见翻疑梦，相悲各问年。21.3.2921.3.2921:45:5021:45:50March 29, 2021 14、他乡生白发，旧国见青山。2021年3月29日星期一下午9时45分50秒21:45:5021.3.29 15、比不了得就不比，得不到的就不要。2021年3月下午9时45分21.3.2921:45March 29, 2021 16、行动出成果，工作出财富。2021年3月29日星期一9时45分50秒21:45:5029 March 2021 17、做前，能够环视四周；做时，你只能或者最好沿着以脚为起点的射线向前。下午9时45分50秒下午9时45分21:45:5021.3.29 9、没有失败，只有暂时停止成功！。21.3.29

展开阅读全文