第二讲 音频处理技术

上传人:飞*** 文档编号:32711093 上传时间:2018-02-12 格式:DOC 页数:29 大小:681KB
返回 下载 相关 举报
第二讲 音频处理技术_第1页
第1页 / 共29页
第二讲 音频处理技术_第2页
第2页 / 共29页
第二讲 音频处理技术_第3页
第3页 / 共29页
第二讲 音频处理技术_第4页
第4页 / 共29页
第二讲 音频处理技术_第5页
第5页 / 共29页
点击查看更多>>
资源描述

《第二讲 音频处理技术》由会员分享,可在线阅读,更多相关《第二讲 音频处理技术(29页珍藏版)》请在金锄头文库上搜索。

1、1第二章、音频处理技术声音是多媒体信息的一个重要组成部分。也是表达思想和情感的一种必不可少的媒体,随着多媒体信息处理技术的发展,音频处理技术得到了广泛的应用。如:视频图像的配音、配乐;静态图像的解说、背景音乐;可视电话、电视会议中的话音;游戏中的音响效果:虚拟现实中的声音模拟;电子读物的有声输出等。声音的合理使用可以使多媒体系统变得更加丰富多彩。一、声音信号的形式和特征任何声音都是物体振动产生的现象,物体受到敲打或激发就能产生振动,通过一定介质(如空气、水等)传播形成的连续波,在物理学中称为声波。这种波就像在平静的池塘中投入石子,涟漪从中心向四面扩散,当它到达人的耳膜是,耳膜就会感觉到这种压力

2、的变化,或者感觉到振动,这就是声音。声波有各种不同的强度和频率,许多声波混合在一起可能构成交响乐,也可能是一片噪音。在物理上,声音可以用一条连续的曲线来表示,它是随时间连续变化的模拟量。声波信号有两个重要的参数:频率和幅度。声波幅度大小体现声音的强弱,声音的频率体现音调的高低。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大,声音越强。对音频信号它的强度用分贝(dB)表示。分贝的幅度就是音量。一个声源每秒钟可产生成百上千个波峰,把每秒钟波峰所发生的数目称之为信号的频率,用赫兹(HZ 比)或千赫兹 (kHZ)表示。例如一个声波信号在一秒钟内有 5000 个波峰,则

3、可将它的频率表示为 5000hz 或 5khz。人们在日常说话时的语音信号频率范围在 300hz3000hz 之间,人所能辨别的频率范围在 20hz20khz 之间,频率小于 20hz 的 信号成为次声波(subsonic) ,频率高于 20khz 的称为超声波。2音箱和耳机的频响范围所谓频响范围,指的是频率响应范围。在音箱、耳机等音频回放设备中一般会有标注 20Hz-20KHz 类似这样的一个数字范围的指标,此即是指该设备可以回放的有效频率范围。当然,与之相对应的是,人耳理论上可听到的声波范围也是 20Hz-20KHz。作为频响范围,规范的标注方法必须在这个频率范围后有声强度大小的条件范围,

4、例如 60Hz-20KHz (3dB ) ,否则该频率响应曲线是没有意义的。目前的情况是,大家很少会在音箱或者耳机产品后面看到这样与声音强度相关的标注。普通功放的频率响应为 20Hz-20000Hz 约( /-)l-3dB;优质功放的频率响应为 20Hz-20kHz 约 /-0.1dB。在许多人认识到 20Hz-20KHz 的频响范围是完全不可信之后,有些“聪明”的音箱厂商从另一个角度来解决这个问题,他们开始把这个频响范围刻意的调整一下。例如,把低频调整到 30Hz 或者 40Hz,把高频调整到 18KHz,想通过这样的数字游戏来赢得大家的信任。但是,对于一款普通的 2.1 产品来说,20Hz

5、 和 40Hz 对它们来说有什么不同,同样是无法实现的一个频率。耳机是一个比音箱更加夸张标注“频响范围”的产品。一款产品动不动就可以超过 20Hz-20KHz。例如某品牌耳机频响范围标注的是 5Hz-30KHz,这有些夸张了。如果两个耳机的频响上限分别是 16kHz 和20kHz,听感上是不一样的。过高的频率虽然听不到,但宽泛的频响参数中还包含有一些其它的含义,比如频响曲线的平直、瞬态响应能力等等。它也是耳机素质的一种参考。但是,由于标称的参数没有统一标准,所以厂家标称的这类参数对比较两个不同的耳机的品质并不具有实际意义与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时

6、3间。周期是频率的倒数。如果每隔一定时间波形就重复相同的形状,这个时间就称为周期。二、模拟音频的数字化声音信号是振幅随时间连续变化的模拟信号。而计算机只能处理和存储二进制的数字信号,因此,计算机要获取与处理音频,必须先对模拟信号进行数字化处理,转换为计算机所能识别的二进制表示的数字信号,然后才能对其进行各类编辑处理。对模拟音频数字化的过程涉及音频的采样、量化和编码。其过程的实质是将连续的模拟音频信号转换为离散的一系列数字音频编码信号。1、采样采样就是每隔一段时间在模拟声音的波形上取一个幅度值,把时间上的连续信号变成时间上的离散信号,这个间隔时间称为采样周期其倒数为采样频率。采样频率是采样最主要

7、的参数。采样频率是指计算机每秒钟采集多少个样本。采集频率越高,即采样的时间间隔越短则在单位时间内得到的声音样本数据就越多、对波形的描述也越精确。较高的采样频率固然可以得到比较精确的对象描述,但是同时也会带来大量的数据,因此在实际应用中,不能无限制的增加采样频率。为了用较少的数据来尽可能的描述对象的主要内容,我们常常规定一个与声音频率之间有一定关系的最低采样频率。根据内奎斯持理论只有采样频率高于声音信号最高频率的 2 倍时,才能得到基本反映原信号主要特征的数字音频信号。例如人耳可以听到最高声音频率为 20kHz,因此在采集数字音乐信号时,如果将采样频率设置为 44kHz,就能够得到高保真的音乐(

8、 考虑到滤波器的衰减,提高了 10增益),因此标准激光 CD 唱片的采样频率被规定为 441kHz。2、量化量化就是把采样得到的声音信号幅度转化为数字值,使声音信号在幅度上被离散化。量化的过程是先将采样后的信号按整个声波的最大(或有效最大) 振幅划分成有限个区段的集合,把落入同一个区间的采样值归为一类,井赋予相同的近似取值(量化值) ,这样,原来无限的取值可能性被限制简化为有限的取值数列。在同样采样频率下,量化等级越多,数字音频相于原声音源的记录也就越准确,但数据量也就会更大。由于通用计算机一般采用二进制编码的方法来记录数据,为了方便使用和节省编码空间,我们一般使用量化位数( 也称量化精度)

9、这个量来描述量化等级的多少。例如, 8 位量化是指用 28 个量化等级,即有 256 个量化取值区间,而 16 位量化则表示 216 个量化等级,有465536 个量化取值区间。声音数字化过程失真在采样过程中是不可避免的,如何减少失真呢?可以把波形划分成更为细小的区间,即采用更高的采样频率。同时,增加量化精度,以得到更高的量化等级,即可减少失真的程度。3、声道反映音频数字化质量的另一个因素是声道个数。记录声音时,如果每次生成一个声波的数据,称为单声道;每次生成两个声波数据,称为双声道(立体声) ;每次生成两个以上的声波数据,称为多声道(环绕立体声) 。未经压缩的数字化声音的数据量是由采样频率、

10、量化精度、声道数和声音持续时间所决定的,它们与声音的数据星是成比例关系的,其数据量计算方式为:数据量(Byte)=采样频率(hz)( 量化位数(bit)8)声道数声音持续时间(s),公式中(量化位数8)是为了把计量单位 bit(位) 转化为 Byte(字节)。例: 对于调频广播级立体声,采样频率为 44.1khz,量化等级为 16 位(即 2 字节) ,声道形式为双声道,则转换后每秒数据量为:44100(hz)(168)(B)2176400Bs,约等于 172KBS4、编码与压缩所谓编码,就是按照定的格式把经过采样和量化得到的离散数据记录下来,并在有效的数据中加入一些用于识别、纠错和进行控制的

11、数据。编码后的数据就可以以文件的方5式存入计算机中,或进行处理和输出。将量化后的数字声音信息直接存人计算机将会占用大量的存储空间、在多媒体系统中般是对数字化声音信息进行压缩和编码后再存人计算机,以减少音频的数据量。便于存储和传输,这一过程称为压缩编码,为了区别,我们将未经过压缩处理的编码文件成为原始编码。三、音频文件的格式1、WAV 文件WAV 是微软公司开发的一种音频文件格式,是使用最广,兼容性最好的一种数字音频格式。WAV 来源于对声音模拟波形的采样,它记录的是数字化的波形数据。该格式直接记录声音的波形,不作任何压缩。虽然文件巨大,但可以达到较高的音质要求,它是音乐编辑和创作的首选格式,适

12、合保存音乐素材。由于 Windows 操作系统的影响力, WAV 格式已经成为事实上的通用音频格式,目前所有的音频播放软件、编辑软件和多媒体软件都支持这一格式,并将其作为首选的音频文件格式。作为最原始、最基本的波形声音文件,WAV 文件格式几乎可以转换为所有类型的数字音频文件格式。WAV 文件囊括各种精度的音频,支持多种音频位数、采样频率和声道。采用 441kHz 的采样频率、16 位量化位数时,WAV 音频质量与 CD 唱片的声音相差无几。每存放 1 秒声音 WAV 文件占用空间: 1 秒44100 次采样秒16 位/8 位2( 左右两个通道) 1764KB(KB 即千字节)。以此计算,存储

13、每分钟 WAV 音频数据占用约10MB(即 10 584MB)空间;存储 1 个小时 WAV 音频数据占用大约 620MB(635040MB)空间,几乎占满整整一张 CD 盘。如此巨大的音频数据量,非常不易保存。WAV 格式对存储空间需求过大,传播起来难度较大。优点:音质高兼容性好缺点:文件过大,不利于存储和传输62、MP3(MP3PRP)文件MP3 是 MPEG 格式组中的专用于音频压缩的一种格式。它能在对音质影响较小的前提下,将音频文件压缩为原来大小的 1/12 到 1/14。因此成为目前最为流行的一种的音频压缩格式。一分钟 CD 音质的音乐,未经压缩需要 10M 存储空间,而经过 MP3

14、 压缩编码后只有 lMB 左右,同时其音质基本保持不失真。原来的一张标准 CDROM,刻录成音乐 CD只能存放几首乐曲;但是,使用 MP3 格式却能容纳几百个曲日。在有限的存储空间内,能够存储大量的音频数据,极大地方便了数字音频的存储、交流、传输。MP3 格式开始于 1980 年中期,在德国 Erlangen 的 Fraunhofer 研究所开始的,研究致力于高质量、低数据率的声音编码。在 Dieter Seitzer个德国大学教授的帮助下,1989 年,Fraunhofer 在德国被获准取得了 MP3 的专利权,几年后这项技术被提交到国际标准组织(ISO), 整合进入了 MPEG-1 标准。

15、最早的播放器是 Frauenhofer 在 1990 年早期开发的, 但它只是一个非常不知名的小程序,没有引起大家的重视。而被大家公认的第一个 Mp3 播放器是在 1997 年, 由一个叫做 Tomislav Uzelac 的开发者开发的。他开发了 AMP MP3 播放引擎。当 AMP 引擎进入网络以后不久, 几个大学生 Justin Frankel 和Dmitry Boldyrev 拿到了 Amp 引擎,并且为它添加了一个 Windows 界面,最后他们把这个程序命名为Winamp. 在 1998 年,当 Winamp 作为免费的音乐播放器在网络上传播的时候,Mp3 的狂潮开始了。许许多多的

16、爱好者在网络上交换有版权的音乐 mp3。 MP3 编码器,制作器,播放器铺天盖地。我们周围更是出现了各种歌手的 MP3 全集,甚至有 MP3 搜索引擎帮助搜索各种 MP3。Napster 的出现更是让 MP3的风暴到达的顶峰。当然音乐界对这些“侵权”行为岂能座视不理?于是运用法律进行了围剿,今年 IT界最有名的事件之一恐怕就是 Napster 侵权案的败诉了。或许有人还记得,早在 1998 年,美国东北波士顿大学的一年级新生、18 岁的肖恩范宁为了能够解决他的室友的一个问题如何在网上找到音乐而编写的一个简单的程序,这个程序能够搜索音乐文件并提供检索,把所有的音乐文件地址存放在一个集中的服务器中,这样使用者就能够方便地过滤上百的地址而找到自己需要的 MP3 文件。到了 1999 年,令他们没有想到的是,这个叫做 Napster 的程序成为了人们争相转告的“杀手程序”它令无数散布在互联网上的音乐爱好者美梦成真,无数人在一夜之内开始使用 Napster。Napster

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 其它文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号