媒体信号编码第8章

上传人:洪易 文档编号:51679526 上传时间:2018-08-15 格式:PPT 页数:122 大小:1.77MB
返回 下载 相关 举报
媒体信号编码第8章_第1页
第1页 / 共122页
媒体信号编码第8章_第2页
第2页 / 共122页
媒体信号编码第8章_第3页
第3页 / 共122页
媒体信号编码第8章_第4页
第4页 / 共122页
媒体信号编码第8章_第5页
第5页 / 共122页
点击查看更多>>
资源描述

《媒体信号编码第8章》由会员分享,可在线阅读,更多相关《媒体信号编码第8章(122页珍藏版)》请在金锄头文库上搜索。

1、第8章 音频编码技术 第8章 音频编码技术 8.1 音频编码概述 8.2 感知音频编码理论 8.3 SBR 频带复制技术 8.4 子带编码与滤波器组 8.5 MP3音频标准分析 习题与思考题 第8章 音频编码技术 8.1 音频编码概述8.1.1 音频编码技术分类1. 波形编码技术波形编码是指直接对音频信号时域或频域波形样值进行编码。它主要利用音频样值的幅度分布规律和相邻样值间的相关性进行压缩,目标是力图使重构后的音频信号的波形与原音频信号波形保持一致。由于这种编码系统保留了信号原始样值的细节变化,从而保留了信号的各种过渡特征。所以,波形编码适应性强,算法复杂度低,编解码延迟小,重构音频信号的质

2、量一般较高,但压缩比不高。常见的波形编码 方法主要有增量调制、自适应差分脉冲编码调制(Adaptive Differential Pulse Code Modulation, ADPCM)等。第8章 音频编码技术 2. 参数编码技术与传统的音频编码方法相比,参数音频编码对音频信号源的模型和听觉模型进行了拓展。这种编码方法假设音频信号是由不同种类的信号成分叠加而成的,每一种信号成分都可以用一种相对简单的音源模型或一组数目较少的特征参数来表示,同时使用听觉模型,使解码端重建的输出信号尽量在听觉上与编码端的输入信号一致。第8章 音频编码技术 参数编码技术是在信源信号频率域或其他正交域提取特征参量并将

3、其变换为数字代码进行传输,以及在接收端从数字代码中恢复特征参量,并由特征参量重建音频信号的一种编码方式。这种方式在提取音频特征参量时,往往会利用某种模型在幅度谱上逼近原音频,其特点是编码所需速率低,但音频质量不够好。目前,参数编码技术已用于宽带音频编 码中,特别是频带复制技术(Spectral Band Replication,SBR)和参数立体声技术(Parametric Stereo, PS)已经成为 MPEG 的扩展标准,用于增强原有编解码器的质量。第8章 音频编码技术 3. 感知音频编码技术感知音频编码(Perceptual Audio Coding, PAC)在编码形式上也属于波形编

4、码,但其发展基于对音频信号统计特性和人类听觉感知特性的应用。它有效利用心理声学现象中的掩蔽效应,使用心理声学模型,去除人耳不能感知的音频成分,并且不用追求最小的量化噪声,只要使量化噪声不被人耳感知即可,所以感知音频编码算法既能提高音频数据压缩效率,又能保证对音频信号的编解码质量。现今质量较高的音频编码方案都基于感知音频编码算法,例如当今世界最流行 的音频编解码器 MP3(MPEG-1 Audio Layer3)及MPEG-2高级音频编解码器(Advanced Audio Coding, AAC),都采用了感知音频编码算法。第8章 音频编码技术 感知音频编码算法中广泛应用子带编码和变换编码技术

5、,由于它们都是根据人耳对声音信号的感知模型(心理声学模型),分析信号频谱,从而决定子带样值或频域样值的量化阶数和其他参数的选择,因此又可称为感知编码技术。4. 混合编码技术综上所述,波形感知音频编码算法可以获得较高的音频编码质量,但是压缩效率较低,并且由于心理声学模型理论的限制,很难进一步提高压缩比;而参数编码技术虽然可以获得较高的压缩效率,但是其提取的音源模型和特征参数由过于抽象,音频编码质量较低。如果将感知编码与参数编码结合起来,采用混合编码的方法,就可以在较低的编码比特率下获得较高的音质。第8章 音频编码技术 现今功能强大的音频编码算法EAAC+(Enhanced aacPlus)和MP

6、3Pro都是混合编码器。EAAC+是AAC与SBR和PS相结合产生的,MP3Pro是MP3与SBR相结合产生的,在加入了参数编码技术SBR后,原编解码器都得到30%左右的压缩比提高,并且EAAC+在编码速率48 kb/s以上和MP3Pro在编码速率64 kb/s以上时,都能达到接近CD的“透明”音质。但是在编码速率32 kb/s以下时,编码质量有明显缺陷,需做进一步研究来提高质量。第8章 音频编码技术 8.1.2 几种常用的音频编码标准1. MPEG-1音频编码标准MPEG-1音频编码是国际上第一个真正意义上的数字音频压缩编码标准。1989年,活动图像专家组(Moving Pictures E

7、xpert Group, MPEG)在全世界征求数字音频的编解码方案,最后得到14种音频编解码草案。经过筛选,保留了自适应频谱感知熵编码(Adaptive Spectral Perceptual Entropy Coding, ASPEC)、自适应变换音频编码(Adaptive Transform Audio Codling, ATAC)、掩蔽型自适应通用子频带集成编码与复用 (Masking Pattern AdaptiveUniversal Subband Integrated Coding And Multiplexing, MUSICAM)和SB/ADPCM这四种方案。经过一系列测试,

8、结果表明ASPEC和MUSICAM音质第8章 音频编码技术 优良,便以此确定了MPEG-1音频编码三层算法(Layer、),并在1991年11月收入MPEG-1草案,最终在1993年以国际标准ISO/IEC 11172-3的形式发布。MPEG-1的三层音频编码方案实质是三种互相关联的编码方案,而且三层编/解码算法按层次兼容,即高层兼容低层。三层编码算法中,每层都支持32 kHz、44.1 kHz和48 kHz三种采样速率;每层都可以支持下面四种模式:(1) 立体声(Stereo):左、右声道的声源是一个立体声对。两声道分别编码,形成一个比特流输出。(2) 联合立体声(Joint-stereo)

9、:利用立体声双声道的多余度进行左右声道联合编码,并形成一个比特流输出。第8章 音频编码技术 (3) 双声道(Dual-channel):两个声道的音频内容互不相关(如两种语言)。两声道分别编码,形成一个比特流输出。(4) 单声道(Single-channel):只有一个声道有数据,对该声道数据单独编码形成一个比特流输出。三层编码算法分别支持的压缩比和复杂度都有所不同: 层1支持输出码率32448 kb/s,层2支持输出码率32384kb/s,层3支持输出码率32320 kb/s。这三层编码算法随着层次的增加,其压缩比增大、算法时延加长、算法复杂度增 高。也就是说,在相同音频感知质量的条件下层3

10、的码率最低,层1的码率最高;或者说,在相同码率的条件下层3的音频感知质量最高,层1的音频感知质量最低;另外,层3的复杂度最高。第8章 音频编码技术 一个由荷兰Leon Van de Kerkhof、德国Gerhard Stoll、法国Yves-Francois Dehery和德国Karlheinz Brandenburg 组成的工作小组吸收了Musicam和ASPEC的设计思想,并添加了他们自己的设计思想从而开发出了MP3(MPEG-1 Layer 3)。MP3能够在128 kb/s达到MP2 (MPEG-1 Laye)192 kb/s 音质,是目前最为流行和普及的音频压缩格式。它采用了子带分

11、解、分析滤波器组、变换域编码、熵编码、动态比特分配、非线性量化编码和心理声学分析等技术,实现了在双声道 128 kb/s码率条件下的接近CD音质的音频编码。第8章 音频编码技术 MP3编码流程如图8-1所示。原始PCM音频输入信号分为两路:一路信号送往32路多相滤波器组,将音频信号分成时域的32个等宽的子带信号,对每个子带的音频信号进行重叠50%的MDCT,得到每个子带的频域系数;另一路信号进行1024点的FFT,然后对频域的系数进行心理声学模型分析。为了进行回声控制,MDCT必须接收心理声学模型输出的窗类型来确定使用长窗(36点)或短窗(12点)进行MDCT。经MDCT输出的频谱系数和经心理

12、声学模型输出的心理声学参数送往比特分配模块确定出编码需要的比特,再将频谱系数采用比特分配模块计算出的比特数进行非线性量化,然后将 量化完的系数采用Huffman编码进行熵编码。最后,编码后的频谱数据和编码中使用的各种信息组合成最终的音频输出流。第8章 音频编码技术 图8-1 MP3编码框图第8章 音频编码技术 2. Dolby音频编码标准从20世纪80年代开始,美国Dolby(杜比)实验室一直进行感知音频编码算法及标准化工作的研究,代表性成果是由 该实验提出的AC-2和AC-3等算法,其中AC-3算法应用得最广泛。AC-2是一种独立声道编码算法,AC-3是多声道复合编码算法,它已经被美国高清晰

13、电视(HDTV)大联盟选定为音频编码算法,并在1994年10月成为美国高级电视系统委员会(ATSC)的音频编码标准。AC-2是一种变换编码算法,其特点是按临界频带划分子带,对子带的包络和样点进行压缩编码,编码器自适应地 控制样点分块的长度。该算法每个声道的编码速率为64192 kb/s,支持双声道立体声编码。第8章 音频编码技术 AC-3是AC-2的多声道扩展算法,支持5.1声道技术。在5.1声道技术中,5代表着5个基本声道,独立连接至五个不同的一般喇叭(2020 kHz),分别是右前(RF)、中置(C)、左前(LF)、右后(RR)、左后(LR);而1则代表1个低音声道,连接至重低音喇叭(20

14、120 Hz)。与此同时,杜比数字格式也支持单声道及立体声输出。AC-3编码流程如图8-2所示。输入音频信号一路经加KBD(凯塞-贝塞尔)窗后自适应进行MDCT,将输入信号从时域变换到频域,而另一路信号经暂态检测器检测出信号的变化特性,若在某个输入音频信号块中信号变化比较平缓,则 在进行MDCT时使用长窗变换(512点);若输入信号块中信号变化比较剧烈,则使用多个短块的MDCT(256点)。对变第8章 音频编码技术 换后的系数,AC-3采用指数/尾数编码模式,即将MDCT输出的频域系数表示成尾数和指数的指数表示形式,其中尾数 为规整化后的大于0小于1的数,指数为0到24之间的整数,为了用二进制

15、数对尾数进行表示,尾数必须转换为定点形式 。然后,MDCT系数的指数和尾数送到指数编码器和尾数量化器中进行编码。在进行尾数的量化时,必须使用到比特分配模块计算出的量化比特数,为了计算该比特数,必须将 MDCT后的频谱包络送到感知模型中,通过频谱包络计算出掩蔽阈值,然后再分配比特数。最后,经过编码后的尾数和 指数信息,感知模型参数及某些比特信息参数组合成AC-3码流,完成AC-3编码过程。第8章 音频编码技术 图8-2 AC-3编码框图第8章 音频编码技术 3. MPEG-2/4高级音频编码MPEG-1音频的继续发展是MPEG-2/4音频。在MPEG-2音频标准的制定过程中,首先由于考虑到向下兼

16、容MPEG-1音频,因此, 制定的音频标准采用的关键技术与MPEG-1 Audio Layer 3类似,只是对输出码率和采样率等进行了扩展。但是由于存在向下兼容的限制,使得该标准在编码640 kb/s以下的5声道音频数据时感知效果不太好。因此, 为获得更好的音频压缩音质和降低信号的编码比特率,MPEG组织发展了向下不兼容的高级音频编码标准,这就是现在的 MPEG-2/4 AAC(Advanced Audio Coding),国际标准号为ISO/IEC 13818-7。第8章 音频编码技术 MPEG-2 AAC由Fraunhofer IIS、杜比实验室、AT 二是对尽量少的短窗用高的比特流压缩来减小前回声效应也是很合适的。虽然窗切换的方法很成功, 但还是存在很大的缺点。如前面在基于MDCT的变换中,通常需要过渡窗才能实现窗切换,但这会造成编码效率的下降 ,另外一个问题就是会造成编码延迟大,或者对于周期音调 信号过多的使用短窗。第8章 音频编码技术 3. 时域噪声成形时域噪声成形(Temporal Noise Shaping, TNS)技术也被用来解决前回声问题。TN

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号