雷运发第3章音频信息处理

资源描述

《雷运发第3章音频信息处理》由会员分享，可在线阅读，更多相关《雷运发第3章音频信息处理（80页珍藏版）》请在金锄头文库上搜索。

1、第3章音频信息处理,学习目标 l 了解声音信号的特点、存储格式及质量的度量方法 l 理解音频信号压缩方法及音频编码标准 l 掌握常用的音频处理软件对声音信号进行处理 l了解语音识别技术及其应用,3.1 音频信息处理基础,音频信息在多媒体中的应用极为广泛：视频图像配以娓娓动听的音乐和语音；静态或动态图像配以解说和背景音乐；立体声音乐可增加空间感；游戏中的音响效果等。音频处理技术主要包括电声转换、音频信号的存储、重放技术、加工处理技术以及数字化音频信号的编码、压缩、传输、存取、纠错等。,3.1.1 音频信号的特点,1.音频信号的分类音频信号可分为两类：语音信号和非语音信号。语音是语言

2、的物质载体，是社会交际工具的符号, 它包含了丰富的语言内涵，是人类进行信息交流所特有的形式。非语音信号主要包括音乐和自然界存在的其他声音形式。非语音信号的特点是不具有复杂的语义和语法信息，信息量低、识别简单。,规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量。,用声音录制软件记录的英文单词“Hello”的语音实际波形,2.模拟音频信号的两个重要参数,模拟音频信号有两个重要参数：频率和幅度。声音的频率体现音调的高低，声波幅度的大小体现声音的强弱。一个声源每秒钟可产生成百上千个波，我们把每秒钟波峰所发生的数目称之为信号

3、的频率，单位用赫兹(Hz)或千赫兹(kHz)表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝(dB)表示，分贝的幅度就是音量。,3. 声音的A/D与D/A转换,A/D转换就是把模拟信号转换成数字信号的过程，模拟电信号变为了由“0”和“1”组成的Bit信号。这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩。 A/D转换的一个关键步骤是声音的采样和量化，得到数字音频信号，它在时间上是不连续的离散信号。借助于A/D或D/A转换器，模拟信号和数字信号可以互相转换。,4.

4、声音的三要素,1）音调：代表了声音的高低。音调与频率有关，频率越高，音调越高，反之亦然。读者也许有这样的经验，当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对声音的频率进行调整时，也可明显感到音调随之而产生的变化。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。,2）音色：即特色的声音。声音分纯音和复音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中，最低频率的声音是“基音”，它是声

5、音的基调。其他频率的声音称为“谐音”，也叫泛音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。,3）音强：声音的强度，也被称为声音的响度，常说的“音量”也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。,声音的频谱有线性频谱和连续频谱之分。线性频谱是具有周期性的单一频率声波；连续频谱是具有非周期性的带有一定频带所有频率分量的声波。纯粹的单一频率的声波只能在专门的设备中创造出来，声音效

6、果单调而乏味。自然界中的声音几乎全部属于非周期性声波，该声波具有广泛的频率分量，听起来声音饱满、音色多样且具有生气。,5.声音的频谱,3.1.2 模拟音频的数字化过程,数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音频的采样、量化和编码。采样和量化的过程可由A/D转换器实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中，这样的文件一般称为数字声波文件。,信息论的奠基者香农（Shannon）指出：在一定条件下，用离散的序列

7、可以完全代表一个连续函数，这是采样定理的基本内容。为实现A/D转换，需要把模拟音频信号波形进行分割，这种方法称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采样频率是指计算机每秒钟采集多少个声音样本。,1. 采样,采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音。,采样只解决了音频波形信号在时间坐标(即横轴)上把一个波形切成若干个等分的数字化问题，但是还需要用某种

8、数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为“量化”。量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢? 我们还是采取二进制的方式，以位(bit)或16位(bit)的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小。,2. 量化,以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分成0到9共10个量化等

9、级，并将其采样的幅度值取最接近0 9之间的一个数来表示，如下图所示。图中每个正方形表示一次采样。,D/A转换器从上图得到的数值中重构原来信号时，得到下图中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。,失真在采样过程中是不可避免的，如何减少失真呢？可以直观地看出，我们可以把上图中的波形划分成更为细小的区间，即采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在下图（左）中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等级。在下图（右）中，采样率和量化

10、等级再提高了一倍，分别达到4000次/秒和40个量化等级。从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。,3. 编码模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如在一定范围内有错，可加以纠正。编码的形式比较多，常用的编码方式是PCM脉冲调制。脉冲编码调制（PCM）是

11、把模拟信号变换为数字信号的一种调制方式，即把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储。,3.1.3 数字音频的文件格式在多媒体技术中，存储音频信息的文件格式主要有：WAV文件、VOC文件和MP3文件等。 1. WAV文件 WAV文件又称波形文件，来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。WAV文件用于保存Windows平台的音频信息资源，被Windows平台及其应用程序所广泛支持。,WAV声音文件是使用RIFF（Resource Interchange File Format资源交

12、换文件）的格式描述的，它由文件头和波形音频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波形音频数据3个数据子块组成。 Wave格式支持多种压缩算法，支持多种音频位数、采样频率和声道，是PC机上最为流行的声音文件格式，但其文件尺寸较大，多用于存储简短的声音片断。,未压缩的声音文件的存储量可用下式计算：存储量（KB）=（采样频率KHZ采样位数bit声道数时间秒）/8,2.VOC文件 VOC文件是Creative公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸)系列声卡所

13、采集的声音数据，被Windows平台和DOS平台所支持。与WAV格式类似，VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始地址的指针，这个指针帮助数据块定位以便顺利找到第一个数据块。数据块分成各种类型的子块，如声音数据、静音、标记、ASCII码文件、重复、重复的结束及终止标记等。,3.MPEG音频文件.MP1/.MP2/.MP3 这里的音频文件格式指的是MPEG标准中的音频部分，即MPEG音频层(MPEG Audio Layer)。MPEG音频文件的压缩是一种有损压缩，根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3

14、)，分别对应MP1、MP2和MP3这三种声音文件； MPEG音频编码具有很高的压缩率，MP1和MP2的压缩率分别为41和6181，而MP3的压缩率则高达101121，也就是说一分钟CD音质的音乐，未经压缩需要10MB存储空间，而经过MP3压缩编码后只有1MB左右，同时其音质基本保持不失真。,4. RealAudio文件.RA/.RM/.RAM RealAudio文件是RealNetworks公司开发的一种新型流式音频(Streaming Audio)文件格式；它包含在RealNetworks所制定的音频、视频压缩规范RealMedia中，主要用于在低速率的广域网上实时传输音频信息；网络连接速率

15、不同，客户端所获得的声音质量也不尽相同：对于28.8kb/s的连接，可以达到广播级的声音质量；如果拥有ISDN或更快的线路连接，则可获得CD音质的声音。,5.AIFF文件.AIF/.AIFF AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写，是苹果计算机公司开发的一种声音文件格式；被Macintosh平台及其应用程序所支持，其他专业音频软件包也同样支持这种格式。,3.1.4 声音质量的评价,目前有三种方法可以衡量声音的质量。一是用声音信号的带宽来衡量声音的质量，等级由高到低依次是DAT，CD，FM，AM和数字电话。此外，声音质量的度量还有两种基

16、本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时同时采取两种方法评估，有时以主观质量度量为主。 1以声音的带宽衡量声音的质量,2、声音客观质量的度量声音客观质量的度量主要用信噪比(signal to niose ratio，SNR)来度量。它指音源产生最大不失真声音信号强度与同时发出噪音强度之间的比率，通常以S/N表示。一般用分贝（dB）为单位，信噪比越高表示音频质量越好。信噪比(SNR)用下式计算：SNR 10 log (Vsignal)2 / (Vnoise)220 log (Vsignal / Vnoise) 其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(db)。,3、声音主观质量的度量与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主观质量度量比使用客观质量度量更

展开阅读全文