信b141131曾强(音频编解码技术分析)剖析

资源描述

《信b141131曾强(音频编解码技术分析)剖析》由会员分享，可在线阅读，更多相关《信b141131曾强(音频编解码技术分析)剖析（20页珍藏版）》请在金锄头文库上搜索。

1、JIU JIANG UNIVERSITY专业技能测试题目音频编解码技术分析院系信息科学与技术学院专业计算机应用技术姓名曾强班级学号 31 指导教师孟娜、严涛二一六年十二月目录一、音频编解码基本概念介绍11.1语音编码11.1.1什么是波形编码11.1.2什么是参数编码11.1.3什么是混合编码11.2 音乐编码21.2.1 什么是自适应变换编码21.2.2 什么是心理声学模型21.2.3 什么是熵编码2二、音频编解码内容32.1什么是采样率和采样大小（位、bit）32.2 有损无损32.3 为何要使用音频压缩技术32.4 频率与采样的关系42.5 流特征4三、

2、音频编解码类型43.1 PCM编码43.2 WAV编码43.3 MP3编码5关于VBR53.4 OGG编码63.5 MPC编码63.6 MP3Pro编码73.7 WMA编码73.8 RA编码73.8 APE编码8四、主流音频格式的特点及其适应性84.1 PCM编码的WAV格式84.2 MAP384.3 OOG84.4 MPC94.5 WMA94.6 mp3PRO94.5 APE10五、在音频编码解码的过程中会碰到一下问题105.1 回声抵消EC105.2 混音105.3 背景噪声抑制ANS|105.4 静音压缩105.5 自动增益控制AGC115.6 唇音同步115.7 包丢失隐藏PLC

3、111、音频编解码基本概念介绍对数字音频信息的压缩主要是依据音频信息自身的相关性以及人耳对音频信息的听觉冗余度。音频信息在编码技术中通常分成两类来处理，分别是语音和音乐，各自采用的技术有差异。语音编码技术又分为三类：波形编码、参数编码以及混合编码。1.1语音编码1.1.1什么是波形编码波形编码是在时域上进行处理，力图使重建的语音波形保持原始语音信号的形状，它将语音信号作为一般的波形信号来处理，具有适应性能力强、话音质量好等优点，缺点是压缩比偏低。该类编码的技术主要有非线性量化技术、时域自适应差分编码和量化技术。非线性量化技术利用语音信号小幅度出现的概率大而大幅度出现的概率小的特点，通过为小信

4、号分配小的量化阶，为大信号分配大的量阶来减少总量化误差。我们最常用的G.711标准用的就是这个技术。自适应差分编码是利用过去的语音来预测当前的语音，只对它们的差进行编码，从而大大减少了编码数据的动态范围，节省了码率。自适应量化技术是根据量化数据的动态范围来动态调整量阶，使得量阶与量化数据相匹配。G.726标准中应用了这两项技术，G.722标准把语音分成高低两个子带，然后在每个子带中分别应用这两项技术。1.1.2什么是参数编码广泛应用于军事领域。利用语音信息产生的数学模型，提取语音信号的特征参量，并按照模型参数重构音频信号。它只能收敛到模型约束的最好质量上，力图使重建语音信号具有尽可能高的可懂性

5、，而重建信号的波形与原始语音信号的波形相比可能会有相当大的差别。这种编码技术的优点是压缩比高，但重建音频信号的质量较差，自然度低，适用于窄带信道的语音通讯，如军事通讯、航空通讯等。美国的军方标准LPC-10，就是从语音信号中提取出来反射系数、增益、基音周期、清/浊音标志等参数进行编码的。MPEG-4标准中的HVXC声码器用的也是参数编码技术，当它在无声信号片段时，激励信号与在CELP时相似，都是通过一个码本索引和通过幅度信息描述；在发声信号片段时则应用了谐波综合，它是将基音和谐音的正弦振荡按照传输的基频进行综合。1.1.3什么是混合编码将上述两种编码方法结合起来，采用混合编码的方法，可以在较低

6、的数码率上得到较高的音质。它的特点是它工作在非常低的比特率(416 kbps)。混合编码器采用合成分析技术。它的基本原理是合成分析法，将综合滤波器引入编码器，与分析器相结合，在编码器中将激励输入综合滤波器产生与译码器端完全一致的合成语音，然后将合成语音与原始语音相比较（波形编码思想），根据均方误差最小原则，求得最佳的激励信号，然后把激励信号以及分析出来的综合滤波器编码送给解码端。这种得到综合滤波器和最佳激励的过程称为分析（得到语音参数）；用激励和综合滤波器合成语音的过程称为综合；由此我们可以看出CELP编码把参数编码和波形编码的优点结合在了一起，使得用较低码率产生较好的音质成为可能。通过设计不

7、同的码本和码本搜索技术，产生了很多编码标准，目前我们通讯中用到的大多数语音编码器都采用了混合编码技术。例如在互联网上的G.723.1和G.729标准，在GSM上的EFR、HR标准，在3GPP2上的EVRC、QCELP标准，在3GPP上的AMR-NB/WB标准等等音乐的编码技术主要有自适应变换编码（频域编码）、心理声学模型和熵编码等技术。1.2 音乐编码1.2.1 什么是自适应变换编码利用正交变换，把时域音频信号变换到另一个域，由于去相关的结果，变换域系数的能量集中在一个较小的范围，所以对变换域系数最佳量化后，可以实现码率的压缩。理论上的最佳量化很难达到，通常采用自适应比特分配和自适应量化技术来

8、对频域数据进行量化。在MPEG layer3和AAC标准及Dolby AC-3标准中都使用了改进的余弦变换（MDCT）；在ITU G.722.1标准中则用的是重叠调制变换（MLT）。本质上它们都是余弦变换的改进。1.2.2 什么是心理声学模型其基本思想是对信息量加以压缩，同时使失真尽可能不被觉察出来，利用人耳的掩蔽效应就可以达到此目的，即较弱的声音会被同时存在的较强的声音所掩盖，使得人耳无法听到。在音频压缩编码中利用掩蔽效应，就可以通过给不同频率处的信号分量分配以不同的量化比特数的方法来控制量化噪声，使得噪声的能量低于掩蔽阈值，从而使得人耳感觉不到量化过程的存在。在MPEG layer2、3和

9、AAC标准及AC-3标准中都采用了心理声学模型，在目前的高质量音频标准中，心理声学模型是一个最有效的算法模型。1.2.3 什么是熵编码根据信息论的原理，可以找到最佳数据压缩编码的方法，数据压缩的理论极限是信息熵。如果要求编码过程中不丢失信息量，即要求保存信息熵，这种信息保持编码叫熵编码，它是根据信息出现概率的分布特性而进行的，是一种无损数据压缩编码。常用的有霍夫曼编码和算术编码。在MPEG layer1、2、3和AAC标准及ITU G.722.1标准中都使用了霍夫曼编码；在MPEG4 BSAC工具中则使用了效率更高的算术编码。2、音频编解码内容2.1什么是采样率和采样大小（位、bit）声音

10、其实是一种能量波，因此也有频率和振幅的特征，频率对应于时间轴线，振幅对应于电平轴线。波是无限光滑的，弦线可以看成由无数点组成，由于存储空间是相对有限的，数字编码过程中，必须对弦线的点进行采样。采样的过程就是抽取某点的频率值，很显然，在一秒中内抽取的点越多，获取得频率信息更丰富，为了复原波形，一次振动中，必须有2个点的采样，人耳能够感觉到的最高频率为20kHz，因此要满足人耳的听觉要求，则需要至少每秒进行40k次采样，用40kHz表达，这个40kHz就是采样率。我们常见的CD，采样率为44.1kHz。光有频率信息是不够的，我们还必须获得该频率的能量值并量化，用于表示信号强度。量化电平数为2的整数

11、次幂，我们常见的CD位16bit的采样大小，即2的16次方。采样大小相对采样率更难理解，因为要显得抽象点，举个简单例子：假设对一个波进行8次采样，采样点分别对应的能量值分别为A1-A8，但我们只使用2bit的采样大小，结果我们只能保留A1-A8中4个点的值而舍弃另外4个。如果我们进行3bit的采样大小，则刚好记录下8个点的所有信息。采样率和采样大小的值越大，记录的波形更接近原始信号。2.2 有损无损根据采样率和采样大小可以得知，相对自然界的信号，音频编码最多只能做到无限接近，至少目前的技术只能这样了，相对自然界的信号，任何数字音频编码方案都是有损的，因为无法完全还原。在计算机应用中，能够达到最

12、高保真水平的就是PCM编码，被广泛用于素材保存及音乐欣赏，CD、DVD以及我们常见的WAV文件中均有应用。因此，PCM约定俗成了无损编码，因为PCM代表了数字音频中最佳的保真水准，并不意味着PCM就能够确保信号绝对保真，PCM也只能做到最大程度的无限接近。我们而习惯性的把MP3列入有损音频编码范畴，是相对PCM编码的。强调编码的相对性的有损和无损，是为了告诉大家，要做到真正的无损是困难的，就像用数字去表达圆周率，不管精度多高，也只是无限接近，而不是真正等于圆周率的值。2.3 为何要使用音频压缩技术要算一个PCM音频流的码率是一件很轻松的事情，采样率值采样大小值声道数 bps。一个采样率为44.

13、1KHz，采样大小为16bit，双声道的PCM编码的WAV文件，它的数据速率则为 44.1K162 =1411.2 Kbps。我们常说128K的MP3，对应的WAV的参数，就是这个1411.2 Kbps，这个参数也被称为数据带宽，它和ADSL中的带宽是一个概念。将码率除以8,就可以得到这个WAV的数据速率，即176.4KB/s。这表示存储一秒钟采样率为44.1KHz，采样大小为16bit，双声道的PCM编码的音频信号，需要176.4KB的空间，1分钟则约为10.34M，这对大部分用户是不可接受的，尤其是喜欢在电脑上听音乐的朋友，要降低磁盘占用，只有2种方法，降低采样指标或者压缩。降低指标是不可

14、取的，因此专家们研发了各种压缩方案。由于用途和针对的目标市场不一样，各种音频压缩编码所达到的音质和压缩比都不一样，在后面的文章中我们都会一一提到。有一点是可以肯定的，他们都压缩过。2.4 频率与采样的关系采样率表示了每秒对原始信号采样的次数，我们常见到的音频文件采样率多为44.1KHz，这意味着什么呢？假设我们有2段正弦波信号，分别为20Hz和20KHz，长度均为一秒钟，以对应我们能听到的最低频和最高频，分别对这两段信号进行40KHz的采样，我们可以得到一个什么样的结果呢？结果是：20Hz的信号每次振动被采样了40K/20=2000次，而20K的信号每次振动只有2次采样。显然，在相同的采样率下

15、，记录低频的信息远比高频的详细。这也是为什么有些音响发烧友指责CD有数码声不够真实的原因，CD的44.1KHz采样也无法保证高频信号被较好记录。要较好的记录高频信号，看来需要更高的采样率，于是有些朋友在捕捉CD音轨的时候使用48KHz的采样率，这是不可取的！这其实对音质没有任何好处，对抓轨软件来说，保持和CD提供的44.1KHz一样的采样率才是最佳音质的保证之一，而不是去提高它。较高的采样率只有相对模拟信号的时候才有用，如果被采样的信号是数字的，请不要去尝试提高采样率。2.5 流特征随着网络的发展，人们对在线收听音乐提出了要求，因此也要求音频文件能够一边读一边播放，而不需要把这个文件全部读出后然后回放，这样就可以做到不用下载就可以实现收听了。也可以做到一边编码一边播放，正是这种特征，可以实现在线的直播，架设

展开阅读全文