【2017年整理】多媒体计算机的声音信息处理

上传人:豆浆 文档编号:1010328 上传时间:2017-05-25 格式:DOC 页数:13 大小:126.50KB
返回 下载 相关 举报
【2017年整理】多媒体计算机的声音信息处理_第1页
第1页 / 共13页
【2017年整理】多媒体计算机的声音信息处理_第2页
第2页 / 共13页
【2017年整理】多媒体计算机的声音信息处理_第3页
第3页 / 共13页
【2017年整理】多媒体计算机的声音信息处理_第4页
第4页 / 共13页
【2017年整理】多媒体计算机的声音信息处理_第5页
第5页 / 共13页
点击查看更多>>
资源描述

《【2017年整理】多媒体计算机的声音信息处理》由会员分享,可在线阅读,更多相关《【2017年整理】多媒体计算机的声音信息处理(13页珍藏版)》请在金锄头文库上搜索。

1、第四章 多媒体计算机的声音信息处理23第四章 多媒体计算机的声音信息处理4.1 数字化声音信息的获取一、 声音多媒体计算机中由于增加了音乐、解说和一些有特殊效果的声音,这就使多媒体应用程序显得丰富多彩,充满活力。声音(Sound)是文字、图形之外表达信息的另一种有效方式。从物理学角度来认识,空气振动而被人们耳朵所感知就是声音。通常,声音用一种连续的随时间变化的波形来表示,该波形描述了空气的振动(图 4.1)图 4.1 声音的波形表示从图中可以看出,波形的最高点或最低点与基线(时间轴)之间的距离称为该波形的“振幅”。振幅表示声音的音量。波形中两个连续波峰间的距离称为“周期”,波形的“频率”是 1

2、 秒钟内所出现的周期数目,单位是赫兹(Hz)。声音按其频率的不同可分为次声、可听声和超声三种。次声的频率低于 20Hz,它是一种人耳听不见的声音。或听声的频率在 20-20000Hz 之间,这是人耳可感受的声波。超声的振动频率高于 20000Hz,也是人耳听不见的声波。多媒体计算机中处理的声音信息主要是指可听声,所以也叫音频信息(Audio)。从应用的角度来说,多媒体计算机中的声音可分为三类:一类是语言(语音),它的作用与文字信息一样,输出的语言可作为解释、说明、叙述、回答之用,输入的语言可做命令、参数或数据。第二类是音乐、音乐的播放可烘托气氛、强调应用程序的主题。第三类是效果声(Sound

3、Efect),例如括风、下雨、打雷、爆炸等,它们在特写的场合下起到文第四章 多媒体计算机的声音信息处理24字、语言等无法代替的作用。多媒体计算机中发出的声音有两种来源。一是获取法,即利用声音获取硬件将指定的声音源所发出的声音转换成数字方式并经过编码后保存下来,输出时再进行解码和数模转换,还原成为原来的波形。另一种是合成法,计算机通过一种专门定义的语言去驱动一些预制的语言或音乐的合成器,借助于合成器产生的数字声音信号还原成相应的语言或音乐。合成法的优点是数据量大大减少,特别是音乐的合成技术上已很成熟,这在下面第三节进行介绍。二、声音信息的数字化声音信息的计算机获取过程主要是进行数字化处理,因为只

4、有数字化以后声音信息才能像文字、图形信息那样进行存贮,检索、编辑和各种处理。声音信息的数字 的数字化过程通常如图 4.2 所示。图 4.2 声音信息的数字化采样指的是以固定的时间间隔对波形的值进行抽取。如果以 Xa(t)表示声音的连续波形,则采样后得到的是一个离散的序列 X(n)。如果以 T 作为时间间隔(称为采样周期),则采样后得到的声音信号序列为:X(n)Xa(nt) n1,2,3,.序列中的每一个信号,称为“样本”。采样后得到的样本,其数值仍然是模拟量。采样过程最重要的参数是采样频率。采样频率越高,声音保真度越好,但要求的数据存贮量也就越大。理论研究表明,采样频率为声音信号的最高频谱分量

5、的两倍时,即可不失真地还原了原始声音信号,若超过此采样频率,则就包含某些冗余信息;若低于此频率,则产生失真。实验表明,使用 8KHz 采样频率时,人们讲话所产生的语言信号的处理已可以基本满足要求了。多媒体计算机在声音信号获取时,采样频率通常可以有三种选择,它们是;44.1KHz,22.05KHz 和 11.025KHz。声音信息数字化的第二步处理是量化,即把每一个样本值 X(n)从模拟量转换成为数字量,该数字量用 n 个二进位表示,精度是有限的。n 越大,量化精度越高,反之量化精度降低。若量化过程用 Q 表示,量化后的样本用 x(n)表示,则量化过程可表示为:x(n)QX(n) n1,2,3,

6、. 量化误差可以定义为:e(n)x(n)-X(n) n1,2,3,.显然,不论量化精度有多高,量化过程必定会引入一定的误差,这些误差是量化时数的截尾和舍入所引起的。由于量化误差的存在,当数字化的声音还原成模拟量的波形输出时,第四章 多媒体计算机的声音信息处理25必然会产生一定的噪声,这称为量化噪声。但是,只要选择适当的量化精度,量化噪声可以控制在人耳感觉不出的程度。多媒体计算机中声音的量化精度一般有两种:8 位和 16 位。前者是将样本划分为 256等份,后者则分为 65536 等份。任意一个特定的样本值经过量化后只能是 256(或 65536)个不同结果中的某一个,量化精度分别为 2-8 或

7、 2-16。计算机中的后有信息都是以二进制形式进行存贮、传输和处理的。经过采样和量化后所得到的数字化声音信息还必须以二进制形式并按照一定的数据格式进行表示,这个过程称为“编码”。在不进行任何信息压缩时,多媒体计算机中的每个样本值可以用 8 位或 16位整数来表示,前者为一个字节,后者为两个字节。若需要进行信息的压缩,则编码过程要复杂得多。这在本章第二节中再进行讨论。三、数字化声音的质量与存贮容量决定数字化声音的质量和存贮容量的因素有三个:采样频率、量化精度和记录的声道数目。声音通道(声道)的个数表明声音获取过程中只记录一个声波(单志道)还是记录两个波形(立体声)。立体声听起来要比单声道的声音丰

8、满,真实感更好,但需要两倍的存贮空间。一般而言,用获取方法所得到的数字化声音的信息量都很大。下面是计算音频信息文件所需存贮容量的公式(单位:字节):存贮容量采样频率样本量化精度/8声道数目声音持续时间(秒)例如,一段 1 分钟的双声道所需要的存贮容量见表 4.1 所示。按照数字式激光唱盘的标准(CD-DA 标准,也叫红皮书标准),其上所记录的数字化声音采样频率为 44.1KHz,量化精度为 16 位,它具有很高的声音保真度。多媒体计算机一般都能播放 CD-DA 唱盘,以取得最好的效果。表 4.1 1 分钟立体声所需的存贮空间使用 CD-DA 声音虽然效果好,但占用存贮空间很大,且数据速率也高达

9、 88.2KB/s(单声道)或 176.4KB/s(双声道),这就要求占用 CD-ROM 驱动器的全部能力,即播放 CD-DA 声音时夫法再从 CD 盘上读取其他数据。所以开发多媒体应用软件时,获取数字化声音所使用的采样频率和量化精度可根据实际情况进行选择。当录音技术很好时,22.05KHz 采样频率、8位量化精度所获取的数字化声音,播放时可达到调幅广播的质量。若采样频率降低到11.025KHz,则可用作为语言或低频为主的声音信息。第四章 多媒体计算机的声音信息处理26多媒体计算机中所处理的数字化声音信息通常有多种不同的采样频率和量化精度可以选择,以适应不同应用埸合的质量要求(参见表 4.2)

10、表 4.2 几种不同的数字化声音信息4.2 声音信息的压缩编码一、编码方法的分类数字化声音信息的编码方法在数字通信中有多种,以下是这些方法的分类。图 4.3 编码方法分类波形编码的做法中先对声音波形进行采样,然后再进行量化、编码。为了减少声音信息的数据量,往往还采用相应的压缩措施。多媒体计算机中的波形声音信息大多采用 PCM第四章 多媒体计算机的声音信息处理27和 ADPC 编码方法。声音编码的另一种做法是参数编码,它是从声音信号中提特征参数,然后在声音播放(还原)时根据这些参数重建声音信号。这类方法实现的编码器一般叫做声码器(Vocoder),它的压缩倍率很高,但重建的声音质量很难满足高标准

11、的要求。二、脉冲编码调制(PCM)脉冲编码调制简称脉码调制,它已广泛应用于数字通信系统中。由于这种编码方法简单,它不需要复杂的信号处理技术就可以实现瞬时的数据压缩与还原,且信噪比高,因此激光唱盘记录声音的红皮书标准(CD-DA)就采用这种编码方法。多媒体计算机中的声音卡在都具有 PCM 编码/解码的功能。PCM 编码和解码的原理见图 4.4图 4.4 PCM 编码解码原理声音波形信号 Xa(t)经采用门和反混迭滤波组成的采样处理后,变成一系列离散的脉冲调幅信号 X(n)。为了压缩编码数据率,X(n)要进行变换。该变换实际上是一个非线性放大器,它对小信号电平放大,对大信号电平作适当的衰减。经过变

12、换后的脉冲信号 y(n)送入一个线性编码器,其量化特性是均匀分级的,但对 X(n)信号则为非均匀量化。这样,每一个脉冲用一组二进制代码来表示,在 CD-DA 标准中则为 16 位代码。PCM 解码过程则是上述过程的逆过程。为了提高声音信息的信噪比,将 X(n)变换为 y(n)最有效的是对数变换,即y(n)lnX(n)这就使采样脉冲 X(n)在经过均匀量化后其相对量化误差都比较相近。实际使用时为了达到更好的效果,并不简单地使用对数函数,而是采用下面两种近似对数函数:(1) 律压缩(式 4-1)其中 Xmax 是 X(n)的最大限幅值,也叫过载点。 是一个常数,它往往取比较大的数值。(2)A 律压

13、缩 (式 4-2)第四章 多媒体计算机的声音信息处理28其中 Xmax 含义同 律,A 也是一个常数。按照 CCITT 橙皮书 G711 建议, 值为 255,A 值为 87.56。美国、日本等多采用 律,欧洲和中国采用 A 律,国际通信中则一致采用 A 律。三、DPCM 和 ADPCM 压缩编码为了降低采用 PCM 编码的数字化声音信息的数据量,一种改进的方法是差分小于 X(n),因此所需要的量化电平数就可以减少,从而编码数据量得到压缩。DPCM 的编码/解码器原理框图如图 4.5 所示。图 4.5 PDCM 的编码和解码过程图中的预测器 p(z)是一个线性预测器,它在 n 时刻的预测值是由

14、其前 N 个样本的线性组合来得到的,其关系为:(式 4-3)式中,a j 为预测系数,N 为预测阶次。DPCM 的主要关系式如下:预测误差信号 d(n)X(n)-x(n)量化后的预测误差信号 d(n)d(n)e(n) e(n)为量化误差解码后重建信号 x(n)x-(n)d(n) X(n)e(n)可见,重建信号 x(n)与原输入信号 X(n)的差为预测误差信号的量化误差。很明显,如果预测误差的量化误差小于 X(n)直接量化时的误差功率,那么 DPCM 系统就优于 PCM。在 DPCM 系统中,通常假设输入声音信号是平稳的,由此而设计一个固定的预测器和一个固定差值量化器。预测器预测系数的确认可以使

15、用均方误差为极小值的准则来解决,这里不再赘述。在实际使用中,输入声音信号远非平稳的,此时 DPCM 的信噪比大大下降。解决这个问题的方法是使 DPCM 中加入自适应的方法,使之构成自适应差分脉码调制(ADPCM)。ADPCM 的方案有多种,一种是带有固定量化器的自适应预测器,一训是带有自适应量化器的固定预第四章 多媒体计算机的声音信息处理29测器,第三种是带有自适应量化器的自适应预测器。CCITT1988 年 G721 建议的 ADPCM 编码器原理如图 4.6 所示。图 4.6 ADPCM 编码器原理从图中可以看出,编码器的输入信号为 PCM 码 c(n),为了电路便于数字运算,首先将非线性

16、的 PCM 码转换为线性码 X(n),然后与预测信号 x(n)相减后得到预测误差信号d(n),d(n)经量化、编码后即产生 ADPCM 码 C(n)输出。为了使量化器能适应各种不同统计特性的声音信号,ADPCM 要依据输入信号的性质自动改变自适应速度参数来控制量化器的量阶大小,同时也控制自适应预测器的工作。自适应预测器采用 6 阶零点预测和两阶极点预测。即 (式 4-4)其中 和 bni()1均为可根据输入信号性质加以自动调整的预测系数。ai()由于 ADPCM 压缩编码方案信噪比高,数据压缩倍率可达 5 倍,因此,多媒体计算机所获取的数字化声音信息大都采用此种压缩方法。4.3 音乐的合成-MIDI一、什么是 MIDI多媒体计算机中,生成音乐或声响效果的途径除了数字波形声音方法之外,更常用的方法是 MID

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号