《多媒体声音》PPT课件

资源描述

《《多媒体声音》PPT课件》由会员分享，可在线阅读，更多相关《《多媒体声音》PPT课件（59页珍藏版）》请在金锄头文库上搜索。

1、.,1,第三部分声音,声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。声音的种类繁多。本章将介绍声音的相关知识。,.,2,3.1声音与听觉器官,声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上，音调的高低体现在声音的频率上。声音用电表示时，声音信号在时间和幅度上都是连续的模拟信号，如图所示。声波具有普通波所具有的特性，如反射、折射和衍射等。,.,3,3.1声音与听觉器官,对声音信号的分析表明，声音信号由许多频率不同的信号组成，这类信号称为复合信号，而单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽，它用来描述组成复合信号的频率范围

2、。,高保声音信号(high-fidelity audio)的频率范围为20 Hz20000 Hz，它的带宽约为20 kHz，而视频信号的带宽是6 MHz。,.,4,3.1声音与听觉器官,声音信号的两个基本参数是频率和幅度。信号的频率是指信号每秒钟变化的次数，用Hz表示。,例如，大气压的变化周期很长，以小时或天数计算，一般人不容易感到这种气压信号的变化，更听不到这种变化。对于频率为几Hz到20 Hz的空气压力信号，人们也听不到，如果它的强度足够大，也许可以感觉到。,.,5,3.1声音与听觉器官,人们把频率小于20 Hz的信号称为亚音信号，或称为次音信号(subsonic)；频率范围为20 Hz

3、20 kHz的信号称为音频(Audio)信号；虽然人的发音器官发出的声音频率大约是803400 Hz，但人说话的信号频率通常为3003000 Hz，人们把在这种频率范围的信号称为话音(speech)信号；高于20 kHz的信号称为超音频信号，或称超声波信号。超音频信号具有很强的方向性，而且可以形成波束，在工业上得到广泛的应用，如超声波探测仪，超声波焊接设备等就是利用这种信号。在多媒体技术中，处理的信号主要是音频信号，它包括音乐、话音、风声、雨声、鸟叫声、机器声等。,.,6,3.1声音与听觉器官,人们是否都能听到音频信号，这主要取决于各个人的年龄和耳朵的特性。一般来说，人的听觉器官能感

4、知的声音频率大约在2020000 Hz之间，在这种频率范围里感知的声音幅度大约在0120 dB之间。人的听觉器官对声音的感知还有一些重要特性，这些特性将在MPEG声音中介绍，它们在音频数据压缩中已经得到广泛的应用。,.,7,3.2声音信号的数字化,3.2.1从模拟过渡到数字数字精度高，模拟精度低。 3.2.2模拟信号与数字信号话音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。,.,8,3.2.3声音信号的数字化,在某些特定的时刻对这种模拟信号进行测量叫做采样(sampling)，由这些特定时刻采样得到的信号称为离散时间信号。采样得到的幅值是无穷多个实数值中的一个，因

5、此幅度还是连续的。如果把信号幅度取值的数目加以限定，这种由有限个数值组成的信号就称为离散幅度信号。,.,9,3.2.3声音信号的数字化,我们把时间和幅度都用离散的数字表示的信号就称为数字信号。声音进入计算机的第一步就是数字化，数字化实际上就是采样和量化。连续时间的离散化通过采样来实现，就是每隔相等的一小段时间采样一次，这种采样称为均匀采样；连续幅度的离散化通过量化来实现，就是把信号的强度划分成一小段一小段，如果幅度的划分是等间隔的，就称为线性量化，否则就称为非线性量化。,.,10,3.2.3声音信号的数字化,声音数字化需要回答两个问题：每秒钟需要采集多少个声音样本，也就是采样频率(fs)

6、是多少，每个声音样本的位数(bit per sample，bps)应该是多少，也就是量化精度。,.,11,3.2.4采样频率,采样频率的高低是根据奈奎斯特理论和声音信号本身的最高频率决定的。奈奎斯特理论指出，采样频率不应低于声音信号最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音。采样定律用公式表示为 fs 2f 或者 Ts T/2其中f为被采样信号的最高频率。可以这样来理解奈奎斯特理论：声音信号可以看成由许许多多正弦波组成的，一个振幅为A、频率为f的正弦波至少需要两个采样样本表示，因此，如果一个信号中的最高频率为fMAX ,采样频率最低要选择2 fMAX 。例如，电话话音

7、的信号频率约为3.4 kHz，采样频率就选为8 kHz。,.,12,3.2.5采样精度,样本大小是用每个声音样本的位数bit/s(即bps)表示的，它反映度量声音波形幅度的精度。例如，每个声音样本用16位(2字节)表示，测得的声音样本值是在065536的范围里，它的精度就是输入信号的1/65536。样本位数的大小影响到声音的质量，位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。,.,13,3.2.5采样精度,采样精度的另一种表示方法是信号噪声比，简称为信噪比(SNR)，并用下式计算： SNR 10 log (Vsignal)2 / (Vnoi

8、se)220 log (Vsignal / Vnoise) 其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝(dB)。例1：假设Vnoise1，采样精度为1位表示Vsignal21，它的信噪比SNR6分贝。例2：假设Vnoise1，采样精度为16位表示Vsignal216，它的信噪比SNR96分贝。,.,14,3.2.6 声音质量与数据率,根据声音的频带，通常把声音的质量分成5个等级，由低到高分别是电话、调幅(AM)广播、调频(FM)广播、激光唱盘(CD-Audio)和数字录音带(DAT)的声音。在这5个等级中，使用的采样频率、样本精度、通道数和数据率列于下

9、表,.,15,3.2.6 声音质量与数据率,.,16,3.3 声音文件的存储格式,如同存储文本文件一样，存储声音数据也需要有存储格式。在因特网上和各种机器上运行的声音文件格式很多，但目前比较流行的有以.wav (waveform)，.au(audio)，.aiff(Audio Interchangeable File Format)和.snd(sound)为扩展名的文件格式。 .wav格式主要用在PC上，.au主要用在Unix工作站上，.aiff和snd主要用在苹果机和美国视算科技有限公司(SGI)的工作站上。,.,17,3.3 声音文件的存储格式,用.wav为扩展名的文件格式称为波形文件格式

10、，它在多媒体编程接口和数据规范文档中有详细的描述。该文档是由IBM和微软公司于1991年8月联合开发的，它是一种为交换多媒体资源而开发的资源交换文件格式。 WAV格式支持许多压缩算法，支持多种音频位数、采样频率和声道，采用44.1kHz的采样频率，16位量化位数，跟CD一样，对存储空间需求太大不便于交流和传播。,.,18,3.3 声音文件的存储格式,波形文件有许多不同类型的文件构造块组成，其中最主要的两个文件构造块是Format Chunk(格式块)和Sound Data Chunk(声音数据块)。格式块包含有描述波形的重要参数，例如采样频率和样本精度等，声音数据块则包含有实际的波形声音数据。

11、规范中的其他文件块是可选择的。,.,19,3.3 声音文件的存储格式,.,20,3.4声音工具,Windows本身自带的工具-录音机,.,21,3.4声音工具,买声音卡时带的工具,.,22,3.4声音工具,网络上下载的工具,.,23,3.4声音工具,网络上下载的工具,.,24,3.4声音工具,网络上下载的工具,.,25,3.5 声音质量的度量,声音质量的评价是一个很困难的问题，目前还在继续研究的课题。前面介绍了用声音信号的带宽来衡量声音的质量，等级由高到低依次是DAT，CD，FM，AM和数字电话。声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。评价语音质量时，有时

12、同时采取两种方法评估，有时以主观质量度量为主。,.,26,3.5 声音质量的度量,声音客观质量的度量主要用信噪比(SNR) 与用SNR客观质量度量相比较，应该可以说人的感觉(如听觉、视觉等)更具有决定意义，感觉上的、主观上的测试应该成为评价声音质量和图像质量不可缺少的部分。而有的学者则认为，在语音和图像信号编码中使用主观质量度量比使用客观质量度量更加恰当，更有意义。可是一般来说，可靠的主观度量值也是比较难获得的，所获得的值也是一个相对值。,.,27,3.5 声音质量的度量,主观度量声音质量的方法类似于电视节目中的歌手比赛，由评委对每个歌手的表现进行评分，然后求出平均值。对声音质量的度量也可

13、以使用类似的方法，召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。这种方法称为主观平均判分法，所得的分数称为主观平均(MOS)分。,.,28,3.6乐器数字接口（MIDI）,3.6.1 MIDI简介乐器数字接口(Musical Instrument Digital Interface，MIDI)是用于在音乐合成器(music synthesizers)、乐器(musical instruments)和计算机之间交换音乐信息的一种标准协议。从20世纪80年代初期开始，MIDI已经逐步被音乐家和作曲家广泛接受和使用。MIDI是乐器和计算机使用的标准语言，是一套

14、指令(即命令的约定)，它指示乐器即MIDI设备要做什么，怎么做，如演奏音符、加大音量、生成音响效果等。 MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是发给MIDI设备或其它装置让它产生声音或执行某个动作的指令。,.,29,3.6乐器数字接口（MIDI）,3.6.1 MIDI简介 MIDI标准之所以受到欢迎，主要是它有下列几个优点：生成的文件比较小，因为MIDI文件存储的是命令，而不是声音波形；容易编辑，因为编辑命令比编辑声音波形要容易得多；可以作背景音乐，因为MIDI音乐可以和其它的媒体，如数字电视、图形、动画、话音等一起播放，这样可以加强演示效果。,.,30,3.6乐器数字

15、接口（MIDI）,3.6.1 MIDI简介产生MIDI乐音的方法很多，现在用得较多的方法有两种：一种是(frequency modulation，FM)合成法，另一种是乐音样本合成法，也称为波形表(Wavetable)合成法。这两种方法目前主要用来生成音乐。,.,31,3.6.2 FM合成声音,音乐合成器的先驱Robert Moog采用了模拟电子器件生成了复杂的乐音。 20世纪80年代初，美国斯坦福大学(Stanford University)的一名叫John Chowning的研究生发明了一种产生乐音的新方法，这种方法称为数字式频率调制合成法，简称为FM合成器。他把几种乐音的波形用

16、数字来表达，并且用数字计算机而不是用模拟电子器件把它们组合起来，通过数模转换器(DAC)来生成乐音。斯坦福大学得到了发明专利，并且把专利权授给Yamaha公司，该公司把这种技术做在集成电路芯片里，成了世界市场上的热门产品。FM合成法的发明使合成音乐工业发生了一次革命。,.,32,3.6.2 FM合成声音,FM合成器生成乐音的基本原理如图所示。它由5个基本模块组成：数字载波器、调制器、声音包络发生器、数字运算器和模数转换器。数字载波器用了3个参数：音调(pitch)、音量(volume)和各种波形(wave)；,.,33,3.6.2 FM合成声音,调制器用了6个参数：频率(frequency)、调制深度(depth)、波形的类型(type)、反馈量(feedback)、颤音(vibrato)和音效(effect)；,.,34,3.6.2 FM合成声音,乐器声音除了有它自己的波形参数外，还有它自己的比较典型的声音包络线，声音包络发生器用来调制声音的电平，这

展开阅读全文