多媒体技术基础3版章MPEG声音说课材料

资源描述

《多媒体技术基础3版章MPEG声音说课材料》由会员分享，可在线阅读，更多相关《多媒体技术基础3版章MPEG声音说课材料（42页珍藏版）》请在金锄头文库上搜索。

1、多媒体技术基础(第3版)第11章 MPEG声音,张奇复旦大学计算机科学技术学院 2011年4月,2020年7月20日,第11章 MPEG声音,2/42,第11章 MPEG声音目录,11.1 听觉系统的感知特性 11.1.1. 对响度的感知 11.1.2. 对音高的感知 11.1.3. 掩蔽效应 11.2 感知声音编码 11.2.1 MPEG声音的压缩依据 11.2.2 感知子带编码 11.2.3 杜比数字编码 11.3 MPEG-1 Audio 11.3.1 声音编码 11.3.2 声音的性能 11.3.3 子带编码 11.3.4 多相滤波器组 11.3.5 编码层,11.4 MPEG-2

2、 Audio 11.4.1 MPEG-2 Audio简介 11.4.2 MPEG-2 Audio使用的环绕声 11.4.3 MPEG-2 Audio的后向兼容结构 11.5 MPEG-2 AAC 11.5.1 MPEG-2 AAC是什么 11.5.2 MPEG-2 AAC编解码器的结构 11.5.3 MPEG-2 AAC的类型 11.6 MPEG-4 Audio 11.6.1 MPEG-4 Audio是什么 11.6.2 MPEG-4 Audio工具与文档 11.6.3 MPEG-4话音(speech)编码 11.6.4 MPEG-4声音(audio)编码 11.6.5 MPEG-4 声音无损

3、压缩,2020年7月20日,第11章 MPEG声音,3/42,第11章 MPEG声音,前言 MPEG声音的数据压缩和编码不是依据波形本身的相关性和模拟人的发音器官的特性，而是利用人的听觉系统的特性来达到压缩声音数据的目的，这种压缩编码称为感知声音编码进入20世纪80年代，人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很大的进展，先后制定了MPEG-1 Audio, MPEG-2 Audio，MPEG-2 AAC和MPEG-4 Audio等标准1234，并把它们统称为MPEG声音。本章涉及的许多具体算法已经超出本教材的要求。为给需要深入研究和具体开发产品的读者提供方便，本章提供了大量

4、宝贵的参考文件和站点地址,2020年7月20日,第11章 MPEG声音,4/42,11.1 听觉系统的感知特性,对响度的感知声音的响度就是声音的强弱在物理上，用dyn/cm2(达因/平方厘米)(声压)或W/cm2(瓦特/平方厘米)(声强)度量在心理上，主观感觉的声音强弱使用响度级“方(phon)”或“宋(sone)”来度量这两种计量单位完全不同，但它们之间有一定的联系人耳的听觉范围听阈：当声音弱到人耳朵刚可听见时的声音强度痛域：声音强到使人耳感到疼痛时的声音强度听觉范围：位于听阈和痛域之间，见图11-1,2020年7月20日,第11章 MPEG声音,6/42,11.1 听觉系统

5、的感知特性(续2),对音高(频率)的感知客观上用频率表示声音的音高，其单位是Hz。而主观感觉的音高单位则是“美(Mel)”。主观音高与客观音高的关系为,其中，f 的单位为Hz，Hz和Mel不同但有联系,人耳对频率的感知范围，可以听到最低频率约20 Hz 最高频率约20000 Hz,2020年7月20日,第11章 MPEG声音,7/42,11.1 听觉系统的感知特性(续3),音高-频率曲线测量主观音高时，让实验者听两个声强级为40 dB的纯音，固定其中一个纯音的频率，调节另一个纯音的频率，直到他感到后者的音高为前者的两倍，就标定这两个声音的音高差为两倍。测出的“音高频率”曲线见图11-2

6、,图11-2 “音高频率”曲线,2020年7月20日,第11章 MPEG声音,8/42,11.1 听觉系统的感知特性(续4),掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象前者称为掩蔽声音(masking tone) 后者称为被掩蔽声音(masked tone) 掩蔽可分成频域掩蔽和时域掩蔽频域掩蔽一个强纯音掩蔽在其附近同时发声的弱纯音的特性，也称同时掩蔽(simultaneous masking), 如图11-3所示,2020年7月20日,第11章 MPEG声音,9/42,11.1 听觉系统的感知特性(续5),图11-3 频域掩蔽,2020年7月20日,第11章 MPE

7、G声音,10/42,11.1 听觉系统的感知特性(续6),图11-4中的一组曲线表示为250 Hz，1 kHz和4 kHz纯音的掩蔽效应，它们的声强均为60 dB 250 Hz，1 kHz和4 kHz附近，对其他纯音的掩蔽效果最明显低频纯音可有效地掩蔽高频纯音，相反则不明显,图11-4 不同纯音的掩蔽效应曲线,2020年7月20日,第11章 MPEG声音,11/42,11.1 听觉系统的感知特性(续7),临界频带(critical band) 人耳刚可感知两种频率的声音有差别的频率范围通常认为声音(audio)有25个临界频带，见表11-1 临界频带的宽度随声音频率的变化而变化在低频端，

8、宽度小于100 Hz，可认为接近于常数在高频端，宽度近似线性增加，宽度可大到4 kHz 临界频带的单位为Bark(巴克) 1 Bark等于一个临界频带的宽度,2020年7月20日,第11章 MPEG声音,12/42,11.1 听觉系统的感知特性(续8),2020年7月20日,第11章 MPEG声音,13/42,11.1 听觉系统的感知特性(续9),时域掩蔽在时间上相邻的声音之间的掩蔽现象 67 一个强掩蔽音出现前、同时存在时或消失后的掩蔽效果见图11-5 同时掩蔽(simultaneous masking)：信号和掩蔽音同时产生的现象滞后掩蔽(post-masking)：信号出现在掩蔽音

9、消失后出现的现象，可以持续50200 ms 超前掩蔽(pre-masking)：信号出现在掩蔽音出现之前产生的现象。虽然对超前掩蔽有许多研究报告，但这种现象依然令人费解9 7。超前掩蔽很短，通常只有大约220 ms，产生时域掩蔽的主要原因人的大脑处理信息需要花费一定的时间,2020年7月20日,第11章 MPEG声音,14/42,11.1 听觉系统的感知特性(续10),图11-5 时域掩蔽,2020年7月20日,第11章 MPEG声音,15/42,11.2 感知声音编码,感知编码(perceptual audio coding) 频率为1020000 Hz的声音数据压缩技术依据是人耳朵的

10、听觉特性方法是使用“心理声学模型”来取消人耳感觉不到的声音数据应用于MPEG-1 Audio、MPEG-2 Audio、MPEG-2 AAC (Advanced Audio Coding)和MPEG-4 Audio MPEG声音主要采纳两种感知编码算法感知子带编码(perceptual sub-band coding) 杜比实验室(Dolby Laboratories)开发的杜比数字(Dolby Digital),2020年7月20日,第11章 MPEG声音,16/42,11.2 感知声音编码(续1),MPEG声音的压缩依据听觉系统存在听觉阈值电平低于阈值电平的信号听不到，因此可把这

11、部分信号去掉听觉阈值的大小随声音频率的改变而改变大多数人的听觉系统对25 kHz之间的声音最敏感听觉掩饰特性听觉阈值电平会随听到的不同频率的声音而发生变化例如，1000 Hz和1100 Hz的声音同时存在，前者的强度大于后者18dB，在这种情况下，1100 Hz的声音就听不到体验：在一个安静房间里的普通谈话可以听得很清楚，但在播放摇滚乐的环境下，同样的普通谈话就听不清楚了,2020年7月20日,第11章 MPEG声音,17/42,11.2 感知声音编码(续2),感知子带编码简化算法框图见图11-6 输入信号通过“滤波器组(filter bank)”进行滤波之后被分割成许多子带每

12、个子带信号对应一个“编码器”，然后根据心理声学模型对每个子带信号进行量化和编码，输出量化信息和经过编码的子带样本通过“多路复合器”把每个子带的编码输出按照传输或者存储格式的要求复合成数据位流(bit stream) 解码过程与编码过程相反,2020年7月20日,第11章 MPEG声音,18/42,11.2 感知声音编码(续3),图11-6 感知子带压缩算法框图,2020年7月20日,第11章 MPEG声音,19/42,11.2 感知声音编码(续4),杜比数字(Dolby Digital) 前称为Dolby AC-3，简称AC-3 1992年杜比实验室开发的数字声音编码系统，采用了感知编码技术

13、多声道环绕声格式，现已作为国际标准杜比数字可提供6个声音通道，称为5.1声道，即左、中、右、后左、后右5个主声道和1个低音加强声道声音数据的位速率通常为64448 kbps 立体声的位速率通常为192 kbps 5.1声道的位速率通常为384 kbps，但可高达640 kbps 已用在DVD影视盘、DTV(数字电视)、HDTV和其他娱乐产品中,2020年7月20日,第11章 MPEG声音,20/42,11.2 感知声音编码(续5),图11-7 Dolby AC-3压缩编码算法框图10,编码器框图见图11-7 输入是未被压缩的PCM样本，而PCM样本的采样频率必须是32, 44.1或48

14、kHz，样本精度可多到20位获得高压缩比的基本方法是对用频域表示的声音信号进行量化，详细计算请看文献1011 12,2020年7月20日,第11章 MPEG声音,21/42,11.2 感知声音编码(续6),各部分的功能简述如下分析滤波器组(analysis filter bank)：把用PCM时间样本表示的声音信号变换成用频率系数块(frequencies coefficients block)表示的声音信号。单个频率系数用二进制的指数(exponent)和尾数(mantissa)表示频谱包络编码(spectral envelope encoding)：对“分析滤波器组”输出的指数进行编

15、码。指数代表粗糙的信号频谱，因此称为(频)“谱包络编码” 位分配(bit allocation)：使用“谱包络编码”输出的信息确定尾数编码所需要的位数尾数量化(mantissa quantization)：按照“位分配”输出的位分配信息对尾数进行量化 AC-3帧格式(AC-3 frame formatting)：把“尾数量化”输出的量化尾数和“谱包络编码”输出的频谱包络组成AC-3帧一帧由6个声音块(1536个声音样本)组成。“AC-3帧格式”输出的是AC-3编码位流，它的位速率为32640 kbps,2020年7月20日,第11章 MPEG声音,22/42,11.3 MPEG-1 Aud

16、io,MPEG-1 Audio编码器 MPEG-1 Audio (ISO/IEC 11172-3) 是世界上第一个高保真声音数据压缩标准，得到极其广泛的应用编码器的输入信号为线性PCM信号采样率为32, 44.1或48 kHz 编码器的输出信号为32384 kbps,图11-8 MPEG-1 Audio编码器的输入/输出,2020年7月20日,第11章 MPEG声音,23/42,11.3 MPEG-1 Audio(续1),MPEG-1 Audio定义了三个独立压缩层次第1层MP1(MPEG Audio Layer 1) 仅利用频域掩蔽特性，典型的压缩比为1:4，相应的数据率为384 kbps 算法复杂度最低第2层MP2(MPEG Audio Layer 2) 利用频域掩蔽特性和时间掩蔽特性，典型的压缩比为1:61:8，数据率为256192 kbps 算法复杂度中等第3层MP3(MPEGAudio Layer 3) 利用频域掩蔽特性、时间掩蔽特性和临界频带特性，典型的压缩比为1:101:12，相应的数据率为128112 kbps，声音质量接近CD-DA 算法复杂度最高,2

展开阅读全文