《数字声音及ppt课件》由会员分享,可在线阅读,更多相关《数字声音及ppt课件(44页珍藏版)》请在金锄头文库上搜索。
1、第二章 数字声音及MIDIn信息:数、文、形、音、图n音频:麦克风、扬声器n多媒体计算机:n声音的输入、存储、处置、输出n声音:音讯、意向、情感n 表示方式数据量表达信息汉字内码2-4字节编码点阵32数百字节 汉字形、体声音几千字节声学、意向、情感2.1 声音与听觉n声音:经过空气传播的一种延续的波,又称声波。n声音的度量:频率与幅度声波压力的大小n频率用音高表示,幅度用声强表示n与看得见的水波类似波形声音n波形声音,实际上包含了一切的声音方式。任何波形声音,实际上包含了一切的声音方式。任何声音信号,包括麦克风、磁带录音、无线电和电声音信号,包括麦克风、磁带录音、无线电和电视广播、光盘等各种声
2、源所产生的声音,都要首视广播、光盘等各种声源所产生的声音,都要首先对其进展模数转换,然后再恢复出来。先对其进展模数转换,然后再恢复出来。语音speechn人的声音不仅是一种波形,而且还有内在的言语、人的声音不仅是一种波形,而且还有内在的言语、语音学的内涵,可以利用特殊的方法进展抽取,语音学的内涵,可以利用特殊的方法进展抽取,通常将语音也作为一种媒体。通常将语音也作为一种媒体。音乐n音乐是符号化了的声音。这种符号就是乐曲,乐音乐是符号化了的声音。这种符号就是乐曲,乐谱是转化为符号媒体的声音。电子乐器数字接口谱是转化为符号媒体的声音。电子乐器数字接口musical instrument digit
3、al interface, MIDI 是非常规范的一种方式。是非常规范的一种方式。语语音音SpeechSpeech带带宽宽音音频频AudioAudio带带宽宽次声带次声带超声带超声带 20 300 3K 20K f(Hz)n带宽与听觉nHertz,Amplitude, Frequencyinfra-sound, ultrasound, hypersound18kn感知声音的幅度:用dyne(达因/平方厘米表示,常转换成0120dB(decibel),但对不同的频率,同样的声强,觉得不同。n声音信号:n有许多不同频率的信号组成,又称复合信号。n带宽:组成复合信号的频率范围。n纯音:单一频率的声音
4、。声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而变化的延续信号,可近似地看成是一种周期性的函数。通常用模拟的延续波形描画声波的外形,单一频率的声波可用一条正弦波表示,如以以下图所示。振幅周期基线基线是丈量模拟信号的基准点。基线是丈量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调,声音细尖声波的频率反映出声音的音调,声音细尖表示频率高,声音粗低表示频率低。表示频率高,声音粗低表示频率低。振幅和频率不变的声音信号,称为单音。振幅和频率不变的声音信号,称为单音。单音普通只能由公用电子设备产生。单音普通只能由公用电子设备产
5、生。在日常生活中,我们听到的自然界的声音在日常生活中,我们听到的自然界的声音普通都属于复音,其声音信号由不同的振普通都属于复音,其声音信号由不同的振幅与频率合成而得到。幅与频率合成而得到。n模拟声音信号:可分解成一系列正弦波的线性叠加。n最低频的音波称为基音,频率为基频n其他的为泛音,频率是基频的整数倍。n声音三要素:音高、音色、音强n音高:由基频决议,基频取对数后与人的音高觉得成线性关系。n音色:有混入基音中的泛音决议。n音强:幅度,听觉与声音信号强度不成线性关系,因此用20log幅度分贝表示简谱频率20log频率126148.3229349.3333050.3434950.8539251.
6、8644052.8749453.8(1). 采样和量化 (c) 采样信号的量化(a) 模拟音频信号(b) 音频信号的采样数字化音频的过程如以以下图所示。2.2 声音信号数字化1.从模拟信号到数字信号2.模拟信号:在时间与幅度上都延续,延续3. 记为x(t).4.离散信号:按一定的时间间隔T,得到的x(nT).5.T为抽样周期,1/T抽样频率6.量化:把抽样序列x(nT)量化成一个有限个幅度之的集合x(nT).对模拟音频信号进展采样量化编码后,得到数字音频。数字音频的质量取决于采样频率量化位数声道数采样频率n采样频率是指一秒钟时间内采样的次数。n在计算机多媒体音频处置中,采样频率通常采用三种:1
7、1.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。量化位数n量化位数也称“量化精度,是描画每个采样点样值的二进制位数。n例如,8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示,而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。声道数n声音通道的个数称为声道数,是指一次采样所记录产生的声音波形个数。n记录声音时,假设每次生成一个声波数据,称为单声道;每次生成两个声波数据,称为双声道立体声。随着声道数的添加,所占用的存储容量也成
8、倍添加。2. 声音数字化:Sampling, Quantization, Coding采样频率与量化精度3.采样频率奈奎斯特(Nyquist)定理1928年提出原理,仙侬(Shannon)构成定理并运用,1933年卡切尼科夫用公式表述: 采样频率2f 这里f为被采样信号的最高频率。4. 量化精度量化: 取样值-,+有限个数量化值近似假设量化值有J个,假设用二进制表示,需求R=log2(J) 位量化误差:用有限的离散值表示无限多的延续值,必然存在误差. 该误差又称为量化噪声与普通的噪声不同。采样精度可以用信噪比表示: R为编码位数5. 音频数据率未经紧缩的数字音频数据率bit/s 采样频率Hz量
9、化位数 bit声道数音频数据存储量Byte 数据率bit/s继续时间s / 8例:采样率11.025KHz、量化位8位,采集1分钟, 那么:音频数据率11.025KHz8bit 88.2 (Kbit/s) 音频数据量11.025KHz8bit 60s/8 0.66 (MByte)存储量=采样频率量化位数/8声道数时间声音的质量与数据率n根据声音的频带,把声音的质量分为5个等级质量采样频率(KHz)分辨率(b/s)单声道/立体声数据率KB/s频率范围(Hz)电话88单声道82003400AM11.0258单声道11.0507000FM22.05016立体声88.22015000CD44.116立
10、体声176.4202000DAT4816立体声192.02020002.3 声音文件的存储格式1.声音文件的格式:2.PC机:.wav3.Apple: .aiff, .snd4.Unix: .au 5.2. 波形文件格式:1991年IBM与微软开发以 .wav为扩展名6. Fig 2.37.3. 常见声音文件的扩展名 8. 表2-2声音文件n在多媒体技术中,存储声音信息的常用文件在多媒体技术中,存储声音信息的常用文件格式主要有:格式主要有:WAV文件、文件、VOC文件、文件、MIDI文件、文件、AIF文件、文件、SNO文件和文件和RMI文件等。文件等。1 WAV文件nWAV是是Microsof
11、t公司的音频文件格式。利用公司的音频文件格式。利用Microsoft Sound System软件软件Sound Finder可可以将以将AIF、SND和和VOD文件转换到文件转换到WAV格式。格式。nWAV文件来源于对声音模拟波形的采样。用不同文件来源于对声音模拟波形的采样。用不同的采样频率对声音的模拟波形进展采样可以得到的采样频率对声音的模拟波形进展采样可以得到一系列离散的采样点,以不同的量化位数一系列离散的采样点,以不同的量化位数8位或位或16位把这些采样点的值转换成二进制数,然后位把这些采样点的值转换成二进制数,然后存入磁盘,这就产生了声音的存入磁盘,这就产生了声音的WAV文件,即波形
12、文件,即波形文件。文件。WAV文件是由采样数据组成的,所以它需文件是由采样数据组成的,所以它需求的存储容量很大。求的存储容量很大。2 VOC文件nVOC文件是文件是Creative公司波形音频文件格式,也公司波形音频文件格式,也是声卡运用的音频文件格式。每个是声卡运用的音频文件格式。每个VOC文件由文文件由文件头块件头块header block和音频数据块和音频数据块data block组成。文件头包含一个标识、版本号和一组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。数据块分成各种类型个指向数据块起始的指针。数据块分成各种类型的子块,如声音数据、静音、标志、的子块,如声音数据、静
13、音、标志、ASCII码文件码文件、反复的终了,以及终止标志、扩展块等。、反复的终了,以及终止标志、扩展块等。3 MIDI文件nMIDImusical instrument digital interface是一种技术规范,从它的英文全是一种技术规范,从它的英文全名可以看出,它用于音乐。名可以看出,它用于音乐。其他音频文件其他音频文件n最重要的是最重要的是PCM格式,它是模拟的音频信号经数模转格式,它是模拟的音频信号经数模转换换A/D变换直接构成的二进制序列,该文件没有变换直接构成的二进制序列,该文件没有附加的文件头和文件终了标志。在声卡提供的软件中,附加的文件头和文件终了标志。在声卡提供的软件
14、中,可以利用可以利用VOCHDR程序,为程序,为PCM格式的音频文格式的音频文件加上文件头,而构成件加上文件头,而构成VOC格式。格式。Windows的的Convert工具也可以将工具也可以将PCM音频文件转换成音频文件转换成Microsoft的的WAV格式。格式。nAIF是是Apple计算机的音频文件格式。计算机的音频文件格式。WindowsConvert工具可以把工具可以把AIF格式的文件转换成格式的文件转换成Microsoft的的WAV格式的文件。格式的文件。2.4 声音工具n声音工具:录、放、存储、编辑nWindows自带:sound recordern播放和录音设备:SoundMAX
15、 Digital Audion声卡:附带wave studion网上:cool edit, goldwavenWindows Media Playern播放和组织计算机和 Internet 上的数字媒体文件。这就好象把收音机、视频播放机、CD 播放机和信息数据库等都装入了一个运用程序中nWindows Media Player 播放器支持的文件类型.doc2.5 声音质量的度量1.声音信号的带宽2.客观质量度量signal-to-noise ratio,SNR3.客观质量度量:人的觉得 MOS:mean opinion score声音质量 MOS规范 分数 质量级别失真级别5优 ( Excel
16、lent )察觉不到4良 ( Good )(刚)察觉但不讨厌3中 ( Fair )(察觉)及有点讨厌2差 ( Poor )讨厌而不反感1劣 ( Bad ) 极讨厌(令人反感)2.5 声音质量的度量作业 运用“录音机软件把10秒钟的CD音乐录制成CD音质44.1kz、16位、双声道、PCM)的.wav文件。把录制的文件分别转换为“22.05kz、16位、单声道、PCM, “11.025kz、8位、单声道、PCM以及“44.1kz、4位、单声道、ADPCM比较以上四种格式的声音文件的数据量和声音音质2.6 电子乐器数字接口MIDI1.MIDI(Musical Instruments Digital
17、 Interface)2. Musical synthesizers、musical instruments、计算机之间交换音乐信息的一种规范协议。3.MIDI是一套指令,指示MIDI设备做什么,如何做。4.MIDI不是声音信号,而是发送给Midi 设备的,产生声音或执行动作的指令。5.MIDI乐音的产生方法6.频率调制合成, FM7.波形表合成 wave table synthesis3.频率调制FM合成(frequency modulation): 把几种乐音的波形用数字表达,存于计算机中并经过数模转换器来生成乐音。专利售给Yamaha公司。乐音由一组参数控制。4.波形表合成 把乐器的真实
18、声音记录下来,生成各种音符在乐器上演奏音符,采样存于ROM中合成。图2-95.MIDI系统:MPC:MIDI 接口与声音模块组合在卡上。SoundMAX Wavetable synthesizer(MIDI音乐播放器Windows Media Player 播放 MIDI音乐制造软件Midisoft Studio 6MIDI文件n记录记录MIDI信息的规范格式文件称信息的规范格式文件称MIDI文件,其中文件,其中包含音符、定时和多达包含音符、定时和多达16个通道的乐器定义以及个通道的乐器定义以及键号、通道号、继续时间、音量和击键力度等各键号、通道号、继续时间、音量和击键力度等各个音符的有关信息
19、。定义和产生乐曲的个音符的有关信息。定义和产生乐曲的MIDI信息信息和数据组存放于和数据组存放于MIDI文件中,每个文件中,每个MIDI文件最多文件最多可存放可存放16个音乐通道的信息。个音乐通道的信息。n音序器是一种为音序器是一种为MIDI作曲而设计的软件或设备,作曲而设计的软件或设备,可用来记录、播放及编辑可用来记录、播放及编辑MIDI事件,大多数音序事件,大多数音序器可输入输出器可输入输出MIDI文件。当演奏文件。当演奏MIDI文件时,音文件时,音序器将序器将MIDI信息从文件中取出并送至合成器中。信息从文件中取出并送至合成器中。MIDI作品nMIDI作者可以购买现成的产品,也可以本人制
20、造。作者可以购买现成的产品,也可以本人制造。当然,开发本人的当然,开发本人的MIDI作品,除了必需拥有计算作品,除了必需拥有计算机方面的知识与设备之外,还需求具备专业音乐机方面的知识与设备之外,还需求具备专业音乐知识和公用工具。知识和公用工具。数字化声音和MIDI的比较n与与MIDI数据相比,数字化的声音是声音的实际表数据相比,数字化的声音是声音的实际表示。它代表了声音的瞬时幅度。由于它与设备无示。它代表了声音的瞬时幅度。由于它与设备无关,每次播放时它都发出一样的声音。从这一点关,每次播放时它都发出一样的声音。从这一点看,它的一致性好,但代价较高,因其数据文件看,它的一致性好,但代价较高,因其
21、数据文件要求较大的存储空间。要求较大的存储空间。nMIDI数据是与设备有关的,即数据是与设备有关的,即MIDI音乐文件所产音乐文件所产生的声音与用来播放的特定的生的声音与用来播放的特定的MIDI设备有关。设备有关。(3) 在不需求改动音调或降低音质的情况下,可在不需求改动音调或降低音质的情况下,可以经过改动其速度来改动以经过改动其速度来改动MIDI文件的长度。文件的长度。MIDI数据是完全可编辑的,我们可以用多种方数据是完全可编辑的,我们可以用多种方法来处置它的每一个细节,而在处置数字化声法来处置它的每一个细节,而在处置数字化声音时,这些方法却完全用不上。音时,这些方法却完全用不上。(4) 为
22、了创建数字化声音所要求的预备与编程义为了创建数字化声音所要求的预备与编程义务,不需求掌握许多音乐实践知识,务,不需求掌握许多音乐实践知识,MIDI那么那么要求比较多。要求比较多。(5) 在运用软件和系统支持方面数字化声音都有在运用软件和系统支持方面数字化声音都有更多的选择,不论对更多的选择,不论对Macintosh还是还是Windows平台均如此。平台均如此。MIDI数据优点(1) 文件紧凑,所占空间小,文件紧凑,所占空间小,MIDI文件的大小与回放文件的大小与回放质量完全无关。通常,质量完全无关。通常,MIDI文件比文件比CD质量的数字质量的数字化声音文件小化声音文件小200到到1000倍,
23、它不占用较多的内倍,它不占用较多的内存、外存空间和存、外存空间和CPU资源。资源。(2) 在某些情况下,假设所用的在某些情况下,假设所用的MIDI声源较好,声源较好,MIDI有可以发出比数字化声音更好的质量。有可以发出比数字化声音更好的质量。MIDI数据缺陷(1) 因因MIDI数据并不是声音,仅当数据并不是声音,仅当MIDI回放设备与回放设备与产生时所指定设备一样时,回放的结果才是准确产生时所指定设备一样时,回放的结果才是准确的。的。(2) MIDI不能很容易地用来回放言语对话。不能很容易地用来回放言语对话。数字化声音和MIDI之间的选择(1) 选择选择MIDI 由于没有足由于没有足够够的的RAM、硬、硬盘盘空空间间或或CPU处处置才置才干;干; 具有高具有高质质量的声源;量的声源; 对对回放的硬件有完全的控制;回放的硬件有完全的控制; 没有言没有言语对话语对话的需求。的需求。(2) 选择选择数字化声音数字化声音 对对回放硬件没有完全的控制;回放硬件没有完全的控制; 有足有足够够的的计计算算资资源源处处置数字文件;置数字文件; 有言有言语对话语对话的需求。的需求。