感知音频编码及AAC-MP3教材

上传人:我** 文档编号:113206437 上传时间:2019-11-08 格式:PPT 页数:26 大小:274KB
返回 下载 相关 举报
感知音频编码及AAC-MP3教材_第1页
第1页 / 共26页
感知音频编码及AAC-MP3教材_第2页
第2页 / 共26页
感知音频编码及AAC-MP3教材_第3页
第3页 / 共26页
感知音频编码及AAC-MP3教材_第4页
第4页 / 共26页
感知音频编码及AAC-MP3教材_第5页
第5页 / 共26页
点击查看更多>>
资源描述

《感知音频编码及AAC-MP3教材》由会员分享,可在线阅读,更多相关《感知音频编码及AAC-MP3教材(26页珍藏版)》请在金锄头文库上搜索。

1、感知音频编码及AAC、MP3,目录,感知音频编码,MP3,AAC,4.感知音频编码的发展,3.感知音频编码的框架,2.感知音频编码的原理,1.感知音频编码的概念,1.感知音频编码的概念,感知编码是利用人耳听觉的心理声学特性(频谱掩蔽特性和时间掩蔽特性)、人耳对信号幅度、频率、时间的有限分辨能力,凡是人耳感觉不到的成分不编码,不传送,即凡是对人耳辨别声音信号的强度、音调、方位有贡献的部分(称为不相关部分或无关部分)都不编码和传送。对感觉到的部分进行编码时,允许有较大的量化失真、并使其处于听阈以下,人耳仍然感觉不到。简单的说感知编码是建立在人类听觉系统的心理声学原理为基础,只记录那些能被人的听觉所

2、感知的声音信号,从而达到减少数据量而又不降低音质的目的。 心理声学“人脑解释声音的方式”。,2.感知音频编码的原理,绝对听觉门限 人耳实际上可看成一个多频段的听感分析器,在接收端的最后,它对瞬间的频谱功率进行了重新分配,这就为音频的数据压缩提供了依据。 人耳能听到的振动频率约在 20 Hz 到 20KHz 之间,低于 20 Hz 或高于 20K Hz 的振动,不能引起人类听觉器官的感觉。心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。 听觉阈值的大小随声音频率的改变而改变,各个人的听觉阈值也不同。大多数人的听觉系统对

3、2kHz 5kHz 之间的声音最敏感。一个人是否能听到声音取决于声音的频率,以及声音的幅度是否高于这种频率下的听觉阈值。这就是说在听觉阈值以外的电平可以去掉,相当于压缩了数据 听觉阈值电平是自适应的,即听觉阈值电平会随听到的不同频率的声音而发生变化。,2.感知音频编码的原理,听觉掩蔽效应 心理声学模型中的另一个概念是听觉掩饰特性 掩蔽效应,即 一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应。前者称为掩蔽声音 (masking tone) ,后者称为被掩蔽声音 (masked tone) 。 掩蔽效应探讨的基础是 感知编码中的一个重要的概念临界频段。 临界频段,即人耳对不同频率

4、段声音信号的反应灵敏程度有所差别。人耳中包含了约 3 万个毛细胞,它们能够检测到基膜的振动,通过生理脉冲将音频信息传到大脑,但这些细胞在不同频率的敏感程度不同,在低频区域对几赫兹的差异都能分辨出来,而在高频区域,必须要有几百赫兹的差别才能分辨。所以,一般毛细胞会对其周围的强刺激作出反应,这就是临界频段。 低频区域临界频段比在高频区域临界频段窄,在低频段临界频段很窄,频段宽度只有 100 Hz 到 200 Hz ,在高于 5000 Hz 以后的临界频段的宽度有 1000 Hz 至几万 Hz 的频段宽度。,2.感知音频编码的原理,听觉掩蔽效应分类 掩蔽可分成频域掩蔽和时域掩蔽。 所谓频域掩蔽是指掩

5、蔽声与被掩蔽声同时作用时发生掩蔽效应,即较强的声音信号可以掩蔽临近频段中同时发声的较弱的信号。 这种特性称为频域掩蔽,也称同时掩蔽 (simultaneous masking) 。掩蔽声在掩蔽效应发生期间一直起作用,是一种较强的掩蔽效应。 掩蔽特性与掩蔽音的强弱,掩蔽音的中心频率,掩蔽音与被掩蔽音的频率相对位置等有关。 除了同时发出的声音之间有掩蔽现象之外,在时间上相邻的声音之间也有掩蔽现象,并且称为时域掩蔽。 所谓时域掩蔽是指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现时,又称异时掩蔽。 时域掩蔽又分为超前掩蔽 (pre-masking) 和滞后掩蔽 ( post-masking). 主要原因是

6、人的大脑处理信息需要花费一定的时间。,3.感知音频编码的框架,4.感知音频编码的发展,感知编码技术产生于20世纪80年代,在音频编码中有着广泛的应用。 最早是在1991年制定的MPEG-1音频编码中得到成功应用。 1992年,Philips公司生产的数字录音带DCC(Digital Compact Cassette)是最早采用感知编码技术的设备,但是由于销售不佳,在1996年停产,但随着心理声学模型和空间心理声学模型的发展,感知编码技术会得到进一步的发展。 同样之后的MPEG-2、杜比AC-3、AAC、DTS和AVS等音频编码标准都是感知编码技术的成功应用。,目录,感知音频编码,MP3,AAC

7、,4.MP3优劣,3.MP3相关指标,2.MP3文件结构,1.MP3简介,MP3简介,MPEG-1音频压缩标准是第一个高保真音频数据压缩标准。 MPEG-1音频压缩标准提供3个独立的压缩层次,使用户可在复杂性和压缩质量之间权衡选择。第3层最复杂,但音质最好,MP3便是指MPEG-1中的第3层音频压缩模式。 MP3是利用 MPEG Audio Layer 3 的技术,将音乐以1:10 甚至 1:12 的压缩率,压缩成容量较小的file,换句话说,能够在音质丢失很小的情况下把文件压缩到更小的程度。而且还非常好的保持了原来的音质。正是因为MP3体积小,音质高的特点使得MP3格式几乎成为网上音乐的代名

8、词。每分钟音乐的MP3格式只有1MB左右大小,这样每首歌的大小只有3-4兆字节。使用MP3播放器对MP3文件进行实时的解压缩(解码),这样,高品质的MP3音乐就播放出来了。,MP3文件结构,MP3文件大体分为三部分:TAG_V2(ID3V2),Frame, TAG_V1(ID3V1) ID3V2 包含了作者,作曲,专辑等信息,长度不固定,扩展了ID3V1的信息量 Frame 一系列的帧,个数由文件大小和帧长决定 每个FRAME的长度可能不固定,也可能固定,由位率bitrate决定 每个FRAME又分为帧头和数据实体两部分 帧头记录了mp3的位率,采样率,版本等信息,每个帧之间相互独立 ID3V

9、1 包含了作者,作曲,专辑等信息,长度为128BYTE。,MP3发展,在1992年成为了MPEG的第一个标准组MPEG-1的一部分,并且生成了1993年公布的国际标准ISO/IEC 11172-3。 1994年7月7日Fraunhofer-Gesellschaft发布了第一个称为l3enc的MP3编码器。 Fraunhofer开发组在1995年7月14日选定扩展名.mp3(以前扩展名是.bit)。使用第一款实时软件MP3播放器Winplay3(1995年9月9日发布)许多人能够在自己的个人电脑上编码和回放MP3文件。由于当时的硬盘相对较小(如500MB),这项技术对于在计算机上存储娱乐音乐来说

10、是至关重要的。 从1995年上半年开始直到整个九十年代后期,MP3开始在因特网上蓬勃发展。MP3的流行主要得益于如Nullsoft于1997年发布的Winamp和Napster于1999年发布的Napster这样的公司和软件包的成功,并且它们相互促进发展。这些程序使得普通用户很容易地播放、制作、共享和收集MP3文件。,MP3音频质量,因为MP3编码标准是一种有损编码,它提供了多种不同“位速”的选项也就是用来表示每秒音频所需的编码数据位数。典型的速度介于每秒128和320kb之间。使用较低位速编码的MP3文件通常回放质量较低。 MP3文件的质量也与编码器的质量以及播放环境等因素有关。使用优质编码

11、器编码的普通信号,一些人认为128kbit/s的MP3以及44.1kHz的CD采样的音质近似于CD音质,同时得到了大约11:1的压缩率。在许多情况下认为MP3音质太低是不可接受的,然而其他一些听众或者换个环境(如在嘈杂的车中或者聚会上)又认为音质是可接受的。,MP3位速,位速对于MP3文件来说是可变的。总的原则是位速越高则声音文件中包含的原始声音信息越多,这样回放时声音质量也越高。在MP3编码的早期,整个文件使用一个固定的位速。 MPEG-1 Layer 3允许使用的位速是32、40、48、56、64、80、96、112、128、160、192、224、256和320 kbit/s,允许的采样

12、频率是32、44.1和48kHz。44.1kHz是最为经常使用的速度(与CD的采样速率相同),128kbit/s是事实上“好品质”的标准,尽管192kbit/s在对等文件共享网络上越来越受到欢迎。 可变位速(VBR)也是可能的。MP3文件的中的音频切分成有自己不同位速的帧,这样在文件编码的时候就可以动态地改变位速。,MP3编码,MP3设计局限,MP3编码标准有一些不能仅仅通过使用更好的编码器绕过的内在限制。一些新的压缩格式AAC不再有这些限制。 按照技术术语,MP3有如下一些限制: 位速最大是320 kbit/s 时间分辨率相对于变化迅速的信号来说太低 延迟时间长,最小理论延时59ms,实际上

13、要比这大得多。 然而,即使有这些限制,一个好好的调整MP3编码器能够非常有竞争力地完成编码任务。,MP3利弊,优点 MP3的优点有许多,主要有三点: 一是由于大大压缩了文件的体积,所以相同的空间能存储更多的信息; 二是音质出色,文件小; 三是从网络下载几乎免费。 缺点 MP3音频编码技术是一种失真压缩,因为人耳只能听到一定频段内的声音,而其他更高或更低频率的声音对人耳是没有用处的,所以MP3 技术就把这部分声音去掉了,从而使得文件体积大为缩小。虽然听上去MP3音乐仍旧具有接近CD的音质,但毕竟要比CD稍逊一些。而且,由于技术比较落后,同样码率下音质会比AAC、OGG差一些。,目录,感知音频编码

14、,MP3,AAC,4.AAC优劣,3.AAC相关指标,2.AAC文件结构,1.AAC简介,AAC简介,AAC(Advanced Audio Coding),中文名:高级音频编码,出现于1997年,基于MPEG-2的音频编码技术。 由Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发,目的是取代MP3格式。 2000年,MPEG-4标准出现后,AAC重新集成了其特性,加入了SBR技术和PS技术,为了区别于传统的MPEG-2 ,AAC又称为MPEG-4 AAC。 根据MPEG规范的说法,MPEG-4中的AAC是MP3格式的下一代。 SBR:Spectral Band Rep

15、lication 频段复制 PS:parametric stereo 参数立体声 SBR代表的是Spectral Band Replication(频段复制)。SBR的关键是在低码流下提供全带宽的编码而不会产生产生多余的信号。这种方法可在指定的位率下增加音频的带宽或改善编码效率。SBR最大的优势就是在低数据速率下实现非常高效的编码。 PS技术就是从立体声音轨里提取出能够表征立体声信息的一系列参数,并把这些参数记录在压缩后的码流内,然后编码器使用一个单声道音轨来表征原立体声音轨,并对这个单声道音轨进行编码,在编码时使用AAC+SBR。,AAC音频文件格式,AAC的扩展名也有好几种,比如:mp4、

16、m4a、aac等等,因功能不同(ADTS、ADIF等文件头)以及容器不同,会有所差异。 AAC的音频文件格式有ADIF ADTS: ADIF:Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始,不需进行在音频数据流中间开始的解码,即它的解码必须在明确定义的开始处进行。故这种格式常用在磁盘文件中。 ADTS:Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流,解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。 简单说,ADTS可以在任意帧解码,也就是说它每一帧都有头信息。ADIF只有一个统一的头,所以必须得到所有的数据后解码。且这两种的header的格式也是不同的,目前一般编码后的和抽取出的都是ADTS格式的音频流。,AAC音频文件格式,两者具体的组织结构如下所示: AAC的ADIF格式见下图: AAC的ADTS的一般格式见下图: 图中表示出了ADTS一帧的简明结构,其两边的空白矩形表示一帧前后的数

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号