第5章音频数据的压缩编码

资源描述

《第5章音频数据的压缩编码》由会员分享，可在线阅读，更多相关《第5章音频数据的压缩编码（26页珍藏版）》请在金锄头文库上搜索。

1、第5章音频数据的压缩编码,第5章音频数据的压缩编码,明确人的听觉特性掌握音频编码的分类及原理掌握MPEG-1音频编码的原理和特点了解MPEG-2音频编码,学习目标,第5章音频数据的压缩编码,本章的主要内容 5.1概述 5.2人的听觉特性 5.3音频信号的数字化 5.4-5.8 5.9MPEG-1音频编码 5.10MPEG-2音频编码 5.12音频压缩编码的国际标准小结,5.1 概述,声音是机械振动在弹性介质中传播的机械波，称为声波。声音转换为电信号时，声音的电信号在时间和幅度上都是连续的模拟信号。,振幅,周期,空气、液体、固体,认识声音,声音的强度 (响度或音量)，与声波振幅成

2、正比；唱盘、CD 盘等声音载体中的音强不变，通过播放设备的音量控制可改变聆听时强度；音频处理软件可提高声源音强,声音的特色，主要影响因素是复音；复音指具有不同频率和不同振幅的混合声音，其中最低频率是 “基音”，是声音的基调，其他频率的声音为 “谐音 (泛音)”,代表声音的高低，与频率有关；使用音频处理软件对声音的频率进行调整时，其音调也会随之发生变化,声音的三要素,(高),(低),(弱),(强),(停),钢琴,吉他,小号,小提琴,5.1 概述,音频压缩编码研究的基本问题在给定编码速率的条件下，如何能够得到尽量好的重建语音质量；尽量减少编码延时；降低算法的复杂程度。音频信

3、号分为话音（人的说话声音）和一般声音（如音乐）两类。,5.1 概述,音频编码分类按照编码速率来分：,按照编码方法来分：,5.2 人的听觉特性,声音频率是常用的描述声音的参量，人耳所能感受到的声音的频率范围在16HZ-16KHZ。声压及声压级SPL（Sound Pressure Level）也是常用的声音描述参量。简单来说，声压就是声音的压力。,5.2.1 响度级和响度,5.2.1 响度级和响度,人耳的等响度曲线：实验表明，人耳感知的声音强度是频率和声压级的函数，通过比较不同频率和幅度的语音可以得到人耳的等响度曲线。,图5-1 等响曲与声强的关系,5.2.2 听觉灵敏度,听阈：能引起人耳听到

4、声音时的声压称为听阈；听觉灵敏度：在给定频率上，人耳能够听到声音的最小声压级。,横轴表示频率，纵轴表示与这段信号相比其他频率信号能被听到的强度，用分贝表示；从图中看出，人耳对不同频率的敏感程度差别很大，其中对2-4KHZ范围的信号最为敏感，这个频段以外，人耳的听觉灵敏度逐渐降低。,5.2.3 听觉掩蔽,人耳听觉的掩蔽效应：一个频率声音的听阈由于另一个声音的存在而上升的现象称为掩蔽。在一个较强的声音附近，相对较弱的声音将不能被人耳察觉，即被强音掩蔽。,频域掩蔽（同时掩蔽）当音频信号中存在多个信号时，强信号会降低人耳对该信号频域附近其他信号的敏感度，这种现象称为频率掩蔽，也称同时掩蔽，是较

5、强的掩蔽效应。时域掩蔽（异时掩蔽）人耳听到一个强音后，会经过一个短暂的延时才能听到较弱的声音，称为时域掩蔽，也称异时掩蔽。超前掩蔽（5-20ms）滞后掩蔽（50-200ms）,5.2.4 临界带宽,为了描述窄带噪声对纯音信号的掩蔽效应，引入临界带宽的概念。临界带宽：一个纯音可以被以它为中心频率，并且有一定宽度的连续噪声所掩蔽，如果在这一频带内噪声功率等于该纯音的功率，这是该纯音处于刚好能被听到的临界状态，则称这一带宽为临界带宽。单位：巴克（Bark） 1 Bark=一个临界带宽,5.3 音频信号数字化,转换模拟信号数字信号,采样、量化、编码,5.3 音频信号数字化,音频信

6、号频率,采样频率,采样,量化,保存为声音文件,开始,结束,根据声音频带、取样频率和样本精度，通常把声音分为五个等级（见表5-1）。由低到高为：电话、调幅（AM）广播、调频（FM）广播、激光唱盘（CD）、数字录音带（DAT）,5.4-5.8 音频编码的分类,1波形编码波形编码是基于对语音信号波形的数字化处理，试图使处理后重建的语音信号波形与原语音信号波形保持一致。优点是实现简单、语音质量较好、适应性强等。缺点是话音信号的压缩程度不是很高，实现的码速率比较高。常见的方法有：脉冲编码调制PCM、差分脉冲编码调制DPCM、自适应差分脉冲编码调制（ADPCM）、子

7、带编码（SBC）等。波形编码的比特率一般在16至64KHZ之间，它有较好的话音质量与成熟的技术实现方法。,从第一个音频编码出现到现在，出现了很多压缩编码方法，可以将它们分为三类：波形编码、参数编码、混合编码,5.4-5.8 音频编码的分类,2参数编码参数编码又称声源编码，它是通过构造一个人发声的模型，以发音机制的模型作为基础，用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型，在发送端从模拟语音信号中提取各个特征参量并对这些参量进行量化编码，以实现语音信息的数字化。优点是语音编码速率较低，基本上在2kbits9.6kbits之间。缺点合成语音质量差，清晰度满足要求而自然度

8、不好，难以辨认说话人；电路实现复杂度比较高。常见的方法有：线性预测编码LPC。,3混和编码混和编码将波形编码和参量编码结合起来，力图保持波形编码话音的高质量与参量编码的低速率。常见的方法有：码激励线性预测编码器(CELP) ；感知编码。,5.9 MPEG-1音频编码-概述,MPEG-1音频编码是第一个高保真立体声音频压缩标准。为了保证其普遍性，MPEG-1提供了以下压缩模式：,MPEG-1声音标准规定其音频信号采样频率可以有32kHz、44.1kHz或48kHz三种。应用感知编码和子带编码模型来对声音数据进行压缩。音频编码提供三个独立的压缩层次： Layer-1、Layer-2和L

9、ayer-3，使用户可在复杂性和压缩质量之间权衡选择。,5.9.2 MPEG-1的心理声学模型 5.9.3 编码层次,Layer-1编码器的组成 32子带滤波器组 512点FFT 心理声学模型线性量化器外部控制比特流格式的CRC-检验,5.9.3 编码层次,按照标准的帧格式将声音样本的编码、位分配、比例因子及CRC检验码等编码信息封装成帧，帧结构如下（表5-18a）：,帧头：由每帧开始的前32个比特组成，这32个比特包含同步信息和状态信息，同步码由12bit组成。所有的三层音频信息编码在这部分都是一样的。帧校验码：帧校验码占16比特，用来检测传输后比特流的差错，所有三层的这一部分也都是

10、相同的。音频数据：由比特分配表、比例因子选择信息、比例因子和子带样值组成。其中子带样值是音频数据的最大部分，不同层的音频数据是不同的。辅助数据（AD）：用来传输相关的辅助信息。,1.第一层Layer-1的编码,5.9.3 编码层次,Layer-2编码在Layer-1的基础上作了改进。32个子带，每个子带分为3个12样本组，这样每帧共有1152个样本。在掩蔽特性方面除保留原有的频域掩蔽外还增加了时域掩蔽。另外在低频、中频和高频段对比特分配做了一些限制，对比特分配、比例因子和量化样本值编码也更紧凑。,考虑到人耳对声音的低频段最为敏感，所以对低频段划分更细，分配更多的比特数，高频段分配较少的比特

11、数。为此就需要较复杂的滤波器组，故FFT增加到1024，提高了频率分辨率。,2.第二层Layer-2的编码,5.9.3 编码层次,Layer-3使用不等长子带划分。心理声学模型在使用频域掩蔽和时域掩蔽特性之外又考虑到了立体声信息数据的冗余，还增加了霍夫曼编码器。滤波器组在原有的基础上增加了改进离散余弦变换MDCT，可以部分消除由多相滤波器组引入的混叠效应。 Layer-3指定了两种MDCT块长，18个样本组成的长块长和8个样本组成的短块长。对于平稳信号使用长块可以获得更高的频域分辨率，对跳变信号使用短块长可以获得更好的时域分辨率。,3.第三层Layer-3的编码,5.10 MPEG-2音频编码

12、,MPEG-2定义了两种视频压缩格式： MPEG-2 BC（与MPEG-1声音格式兼容）和MPEG-2 AAC（与MPEG-1声音格式不兼容）。, 5.10.1 MPEG-2 BC,5.10.1 MPEG-2 BC,MPEG-2对多声道的扩展方式是通过可分级的方式来实现的。在编码器端，5个输入的声道信号别向下混合为一路兼容立体声信号，再按照MPEG-1的编码标准进行编码；用于在解码端恢复原来5个声道的相关信息都被安置在MPEG-2的扩展区里，MPEG-1在进行解码的时候可忽略此区的数据。 MPEG-2多声道解码器除了对MPEG-1的部分进行解码外，还对附加的信道信息进行解码，根据这些信息来

13、恢复原来的5.1声道。（图5-22）,5.10.2 MPEG-2 AAC 编码标准,MPEG-2 AAC（Advanced Audio Coding） MPEG-2标准中一种非常灵活的编码标准，采用感知编码方法，主要是利用听觉系统的掩蔽特性来减少声音编码的数据量；并且通过子带编码将量化噪声分散到各个子带中，用全局的声音信号将噪声掩蔽掉。,MPEG-2 AAC 采用模块化的编码方法，把整个AAC系统分成一系列模块，用标准化的AAC工具对模块进行定义。 AAC定义了3种配置：基本配置、低复杂性配置和可变采样率配置,5.12 音频压缩编码的国际标准,ITU-T语音编码标准（波形编码标准）制定时间、

14、编码速率及算法详见p181 表5-5 地区性语音编码标准 GSM全速率RPE-LTP编码器 GSM半速率语音编码器自适应多速率AMR编码器 IS-54 7.95kb/s WSELP IS-96 8.5kb/sb变速率码激励线性预测日本的数字蜂窝语音编码器JDC-VSELP JDC半速率3.45 kb/s音调同步CELP(PSI-CELP)语音编码器 MPEG制定的音频标准 AC-3音频压缩标准,小结,本章概况介绍了音频数据压缩编码的相关概念及涉及的若干标准，主要内容有：,人的听觉特性：响度、响度级、等响度曲线听觉灵敏度听觉掩蔽和临界带宽音频编码的分类：波形、参数、混合编码 MPEG-1音频编码标准 MPEG-2音频编码标准（了解）,

展开阅读全文

第5章音频数据的压缩编码

最新文档