第5章音频技术－金锄头文库

资源描述

《第5章音频技术》由会员分享，可在线阅读，更多相关《第5章音频技术（95页珍藏版）》请在金锄头文库上搜索。

1、第 5 章音频技术音频也是多媒体应用的重要组成部分。音频也是多媒体应用的重要组成部分。现实世界的声音来源是相当复杂的，声音不仅与时间和现实世界的声音来源是相当复杂的，声音不仅与时间和空间有关，还与强度、方向等很多因素有关。在计算机中空间有关，还与强度、方向等很多因素有关。在计算机中创建音频时，所能模拟的声音还必须要符合人类的听觉特创建音频时，所能模拟的声音还必须要符合人类的听觉特征和听力范围。征和听力范围。数字音频主要分为声波、语音和音乐三类。数字音频主要分为声波、语音和音乐三类。要模拟出符合现实世界的数字声音，我们首先得了解要模拟出符合现实世界的数字声音，我们首先得了解声音的基本特

2、性声音的基本特性: :包括声音的物理特性和人们在听觉方面的心理特性包括声音的物理特性和人们在听觉方面的心理特性. .以以便创建出一定格式的数字声音编码，满足人们对模拟声音在便创建出一定格式的数字声音编码，满足人们对模拟声音在采集、处理、质量等各方面的需求。采集、处理、质量等各方面的需求。 5.1 声音声音5.1.1 5.1.1 声音的物理特征声音的物理特征声音是声音是纵波纵波。决定声波的物理特性有振幅、频率和相位。决定声波的物理特性有振幅、频率和相位。一个声源每秒钟可产生成百上千个波，我们把每秒钟波峰所发生的数目称之一个声源每秒钟可产生成百上千个波，我们把每秒钟波峰所发生的数目称之为信号的

3、频率，单位用赫兹为信号的频率，单位用赫兹(Hz)(Hz)或千赫兹或千赫兹(kHz)(kHz)表示。信号的幅度是从信号的基线表示。信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号，声音的强度用分贝音频信号，声音的强度用分贝(dB)(dB)表示，分贝的幅度就是音量。表示，分贝的幅度就是音量。 1.1.声音的强度声音的强度在在1kHz1kHz频率的正弦波中，能被人耳察觉的最弱声压大约是频率的正弦波中，能被人耳察觉的最弱声压大约是2.832.831010- -4 4dyndyn

4、（达因）达因）/cm/cm2 2，这个最弱音已经作为国际标准的参照声。这个最弱音已经作为国际标准的参照声。描述声音强度的量值是采用分贝表示描述声音强度的量值是采用分贝表示: :分贝分贝是指两个相同的物理量（例是指两个相同的物理量（例A1A1和和A0A0）之比，取以之比，取以1010为底的对数并乘为底的对数并乘以以1010（或（或2020）。）。N = 10lg(A1/A0) N = 10lg(A1/A0) 分贝符号为分贝符号为“dB”dB”。N N是被量度量的是被量度量的“级级”。，这也被称为。，这也被称为声压级。声压级。A1A1是被量度量。是被量度量。A0A0是基准量是基准量如果如果2.8

5、310-4dyn/cm2被看作被看作0dB那么在特别安静的环境中，单独检测：动物的呼吸声大约那么在特别安静的环境中，单独检测：动物的呼吸声大约20 dB，人们正常的谈话声约，人们正常的谈话声约60dB，汽车的喇叭声约，汽车的喇叭声约100dB，飞机起飞的声音约，飞机起飞的声音约120 dB120dB以上的强度可使人产生痛苦的感觉。以上的强度可使人产生痛苦的感觉。一般人的听力范围是一般人的听力范围是 20Hz20Hz20kHz20kHz。这个频率区域称为可闻这个频率区域称为可闻声段，大致可分为低频、中频和高频声段，大致可分为低频、中频和高频低频的频率约在低频的频率约在250250500 Hz5

6、00 Hz（如鼓声）如鼓声）中频的频率约在中频的频率约在100010002000 Hz2000 Hz，高频的频率约在高频的频率约在300030004000 Hz4000 Hz（如哨子声）。如哨子声）。2.2.频率频率是指物体每秒钟振动的次数。是指物体每秒钟振动的次数。我们听到的声音都是物体振动后会产生声波我们听到的声音都是物体振动后会产生声波不同的振动频率将会产生不同的声波。不同的振动频率将会产生不同的声波。低于低于20Hz20Hz和高于和高于20kHz20kHz的频率段分别称为次声和超声。的频率段分别称为次声和超声。瞬时T3.3.相位相位是波形的变化方向，如果是多个波形组合，起始是波形的变

7、化方向，如果是多个波形组合，起始相位可以相同或不同。相位可以相同或不同。在某一个瞬时在某一个瞬时T T，不同波形的相位都可以是不同的。不同波形的相位都可以是不同的。右图所示的，就是一段多波形混合而成的声音实际播放时所显示的波右图所示的，就是一段多波形混合而成的声音实际播放时所显示的波形。形。规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波声波。因声波是在时间和幅度上都连续变化的量，我们称之为模拟量模拟量。5.1.2 5.1.2 声音的听觉心理特性声音的听觉心理特性对于复杂的人耳听觉系统特性的研究，目前仅限于在心理声学和对于复杂的人耳听觉系统特性的研究，目前仅限于

8、在心理声学和语言声学内。语言声学内。听觉心理的主观感受主要有：听觉心理的主观感受主要有：响度、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位。响度、音度、音色：响度、音度、音色：可以在主观上用来描述任何复杂的声音而对于多种音源场合：而对于多种音源场合：人的耳掩蔽效应等特性尤为重要。 1 1）音音调调：代代表表了了声声音音的的高高低低。音音调调与与频频率率有有关关，频频率率越越高高，音音调调越越高高，反之亦然。反之亦然。当提高磁带录音机的转速时，其旋转加快，声音信号的频率提高，其喇叭放出来声音的音调提高了。同样，在使用音频处理软件对声音的频率进行调整时，也可明显感到音调随之而产生的变化

9、。各种不同的声源具有自己特定的音调，如果改变了某种声源的音调，则声音会发生质的转变，使人们无法辨别声源本来的面目。 2 2）音色：即特色的声音。）音色：即特色的声音。声音分纯纯音音和复复音音两种类型。所谓纯音，是指振幅和周期均为常数的声音；复音则是具有不同频率和不同振幅的混合声音。大自然中的声音绝大部分是复音。在复音中，最低频率的声音是“基基音音”，它是声音的基调。其他频率的声音称为“谐音”，也叫泛泛音音。基音和谐音是构成声音音色的重要因素。各种声源都具有自己独特的音色，例如各种乐器的声音、每个人的声音、各种生物的声音等，人们就是依据音色来辨别声源种类的。3 3）音强：声音的强度，也被称为声音

10、的响度，常说的）音强：声音的强度，也被称为声音的响度，常说的“音量音量”也是指音强。也是指音强。音强与声波的振幅成正比，振幅越大，强度越大。唱盘、CD激光盘以及其他形式声音载体中的声音强度是一定的，通过播放设备的音量控制，可改变聆听时的响度。等响曲线等响曲线响度响度表示人们所感觉到的声音能量的强弱，主要取决于声波振幅的大表示人们所感觉到的声音能量的强弱，主要取决于声波振幅的大小，物理上声压级的值一般不等于响度级的值。小，物理上声压级的值一般不等于响度级的值。声音的感知响度声音的感知响度11sonesone相当于相当于4040分贝的音调在分贝的音调在1kHz1kHz下的响度。下的响度。响度与人

11、耳的可闻程度有关，当超出人耳的可听频率范围时，声音的响响度与人耳的可闻程度有关，当超出人耳的可听频率范围时，声音的响度再大，人耳也无法察觉。但在人耳的可听频域范围内，当声音弱或强度再大，人耳也无法察觉。但在人耳的可听频域范围内，当声音弱或强到一定程度，人耳都无法听到。到一定程度，人耳都无法听到。实验表明，声音的可闻阈和痛感阈是随着频率而变化的。如图所示，闻阈和痛实验表明，声音的可闻阈和痛感阈是随着频率而变化的。如图所示，闻阈和痛阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。阈随频率变化的等响度曲线之间的区域就是人耳的听觉范围。声压级可闻阈的分贝值频率Hz就是说，小于就是说，小于0dB

12、0dB闻阈和大于闻阈和大于140dB140dB痛阈时为不可听声。痛阈时为不可听声。这些等响度曲线表明了听觉在有些频率下较为灵敏。这些等响度曲线表明了听觉在有些频率下较为灵敏。所谓所谓“等响等响”就是对于就是对于1kHz1kHz以外的可听声，在同一级等响度曲线上有无数个等效以外的可听声，在同一级等响度曲线上有无数个等效的声压的声压频率值，频率值，例如，例如，200Hz200Hz的的30dB30dB的声音和的声音和1kHz1kHz的的10dB10dB的声音在人耳听起来具有的声音在人耳听起来具有相同的响度。相同的响度。高频段的响度变化与声压级增量基本一致，低频段声压级的微小变化会导高频段的响度变

13、化与声压级增量基本一致，低频段声压级的微小变化会导致响度的较大变化。致响度的较大变化。在较低的声压级上，等响上曲线各频率声音的声压级相差很大，在较低的声压级上，等响上曲线各频率声音的声压级相差很大，较高的声压级上，等响曲线较为平坦，说明各频率的声压级基本相同。较高的声压级上，等响曲线较为平坦，说明各频率的声压级基本相同。这说明：在响度级较小时，高、低频声音灵敏度降低较明显，而低频这说明：在响度级较小时，高、低频声音灵敏度降低较明显，而低频段比高频段灵敏度降低更加剧烈，一般应特别重视加强低频音量。段比高频段灵敏度降低更加剧烈，一般应特别重视加强低频音量。听听觉觉的的掩蔽效应掩蔽效应是一个是一

14、个较为较为复复杂杂的心理和生理的心理和生理现现象，包括人耳的象，包括人耳的频域频域掩蔽掩蔽效效应应和和时域掩蔽时域掩蔽效效应应。而且人耳。而且人耳对对声音源方向的辨声音源方向的辨别别能力，也与能力，也与频频率的高低有关。率的高低有关。由于由于对对于于2KHZ2KHZ以上的高以上的高频频声音信号，人耳很声音信号，人耳很难难判断其方向性，因而在判断其方向性，因而在数字数字处处理理时时，就可以不必重复存，就可以不必重复存贮贮立体声广播的高立体声广播的高频频部分。部分。屏蔽屏蔽是指是指一个弱声音被另一个强声音所遮盖一个弱声音被另一个强声音所遮盖。当强、弱声音同时存在时，就将发生声音屏蔽现象。例如，说

15、话声会被火车声当强、弱声音同时存在时，就将发生声音屏蔽现象。例如，说话声会被火车声所遮盖。当两个声音在时间和频率上很接近的时候，屏蔽效应就会较很强。当所遮盖。当两个声音在时间和频率上很接近的时候，屏蔽效应就会较很强。当强声音的频率与弱声音相同或更高时，屏蔽效应最有效。强声音的频率与弱声音相同或更高时，屏蔽效应最有效。屏蔽屏蔽如果同时存在的是两个纯音如果同时存在的是两个纯音实验表明存在两种有效的屏蔽，一种是中等强度的纯音最有效的屏蔽出现在其频率附实验表明存在两种有效的屏蔽，一种是中等强度的纯音最有效的屏蔽出现在其频率附近，另一种是低频的纯音可以有效地掩蔽高频的纯音。近，另一种是低频的纯音可以有

16、效地掩蔽高频的纯音。如果同时存在的是噪音和纯音如果同时存在的是噪音和纯音情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的，具有无限宽的频谱。情况较复杂。因为屏蔽纯音的噪音实际上是由多种纯音组成的，具有无限宽的频谱。临界频带临界频带当某个纯音被当某个纯音被以它为中心频率且具有一定带宽的连续噪声以它为中心频率且具有一定带宽的连续噪声所屏蔽所屏蔽时，如果该纯音刚好能被听到时的时，如果该纯音刚好能被听到时的功率等于这一频带内噪声的功功率等于这一频带内噪声的功率率，那么这个带宽就称为临界频带宽度。，那么这个带宽就称为临界频带宽度。但在有声音屏蔽的情况下，一个临界频带之内的声音感知程度与但在有

17、声音屏蔽的情况下，一个临界频带之内的声音感知程度与表中跨越多个临界频带的声音感知程度是不相同的。表中跨越多个临界频带的声音感知程度是不相同的。可以说明人类的听觉对声音的感知特性。可以说明人类的听觉对声音的感知特性。表表5-15-1列出的是在列出的是在20Hz20Hz16kHz16kHz范围内，通常可分出的范围内，通常可分出的2424个子临界个子临界频带。频带。人耳对同一个临界频段内频率的听觉和感知是较接近的。人耳对同一个临界频段内频率的听觉和感知是较接近的。5.1.3 5.1.3 声音的数字原理声音的数字原理模拟声音的信号是个连续量，由许多具有不同振幅和频率的正弦波组成。模拟声音的信号是个

18、连续量，由许多具有不同振幅和频率的正弦波组成。实际声音信号的计算机获取过程就是声音的数字化的处理过程。实际声音信号的计算机获取过程就是声音的数字化的处理过程。声音的模声音的模/ /数转换（数转换（ADCADC），首先需对声波采样，用数字方式记录声音。图中首先需对声波采样，用数字方式记录声音。图中横轴表示时间，纵轴表示振幅，按时间对声波分割从而提取波形的样本。实横轴表示时间，纵轴表示振幅，按时间对声波分割从而提取波形的样本。实现这个过程的装置就被称为模现这个过程的装置就被称为模/ /数转换器。数转换器。声音的数声音的数/ /模转换（模转换（DACDAC）即由数字声音变成模拟的波形。即由数字声音

19、变成模拟的波形。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。音频系统是将声波波形转换成的连续的二进制数据来还原声音的。实现这个过程的装置被称为数实现这个过程的装置被称为数/ /模转换器。模转换器。 3.1.2 3.1.2 模拟音频的数字化过程模拟音频的数字化过程数字化的声音易于用计算机软件处理，现在几乎所有的专业化声音录制、编辑器都是数字方式。对模拟音频数字化过程涉及到音音频频的采的采样样、量化和、量化和编码编码。采样和量化的过程可由采样和量化的过程可由A/DA/D转换器转换器实现实现。A/D转换器以固定的频率去采样，即每个周期测量和量化信号一次。经采样和量化后声音信号经编码

20、后就成为数字音频信号，可以将其以文件形式保存在计算机的存储介质中，这样的文件一般称为数字声波文件。信息论的奠基者香农（Shannon）指出：在一定条件下，用离散的在一定条件下，用离散的序列可以完全代表一个连续函数序列可以完全代表一个连续函数，这是采样定理的基本内容。为实现A/D转换，需要把模拟音频信号波形进行分割把模拟音频信号波形进行分割，这种方法这种方法称为采样称为采样(Sampling)。采样的过程是每隔一个时间间隔在模拟声音的采样的过程是每隔一个时间间隔在模拟声音的波形上取一个幅度值波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号。该时间间隔称为采样周期，其倒数为采样频率。采

21、样频率采样频率是指计算机每秒钟采集多少个声音样本。1. 1. 采样采样采样频率与声音频率之间有一定的关系，根据奈奎斯特（Nyquist）理论，只有采样频率高于声音信号最高频率的两倍时，只有采样频率高于声音信号最高频率的两倍时，才能把数字信号表示的声音还原成为原来的声音才能把数字信号表示的声音还原成为原来的声音。采样只解决了音频波形信号在时间坐标时间坐标(即横轴即横轴)上把一个波形切成若干个等分的数字化问题，但是还需要用某种数字化的方法来反映某一瞬间声波幅度的电压值大小。该值的大小影响音量的高低。我们把对声波波形幅度的数字化表示称之为对声波波形幅度的数字化表示称之为“量化量化”。量化的过程

22、量化的过程是先将采样后的信号按整个声波的幅度划分成有限个区段的集合，把落入某个区段内的样值归为一类，并赋于相同的量化值。如何分割采样信号的幅度呢?我们还是采取二进制的方式，以位以位(bit)或或16位位(bit)的方式来划分纵轴的方式来划分纵轴。也就是说在一个以8位为记录模式的音效中，其纵轴将会被划分为个量化等级，用以记录其幅度大小。2.量化量化以下图所示的原始模拟波形为例进行采样和量化。假设采样频率为1000次/秒，即每1/1000秒A/D转换器采样一次，其幅度被划分成0到9共10个量化等级，并将其采样的幅度值取最接近09之间的一个数来表示，如下图所示。图中每个正方形表示一次采样。 D/A

23、转换器转换器从上图得到的数值中重构原来信号时，得到下图中蓝色(直线段)线段所示的波形。从图中可以看出，蓝色线与原波形(红色线)相比，其波形的细节部分丢失了很多。这意味着重构后的信号波形有较大的失真。失真失真在采样过程中是不可避免的，如何减少失真呢如何减少失真呢？可以直观地看出，我们可以把上图中的波形划分成更为细小的区间，即采用更高采用更高的采样频率。同时，增加量化精度的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。在下图（左）中，采样率和量化等级均提高了一倍，分别为2000次/秒和20个量化等级。在下图（右）中，采样率和量化等级再提高了一倍，分别达到4000次/秒和4

24、0个量化等级。从图中可以看出，当用D/A转换器重构原来信号时（图中的轮廓线），信号的失真明显减少，信号质量得到了提高。模拟信号量经过采样和量化以后，形成一系列的离散信号脉冲数字信号。这种脉冲数字信号可以一定的方式进行编码，形成计算机内部运行的数据。所谓编码，就是按照一定的格式编码，就是按照一定的格式把经过采样和量化得到的离散数据记录下来，并在有用的数据把经过采样和量化得到的离散数据记录下来，并在有用的数据中加入一些用于纠错、同步和控制的数据中加入一些用于纠错、同步和控制的数据。在数据回放时，可以根据所记录的纠错数据判别读出的声音数据是否有错，如在一定范围内有错，可加以纠正。编码的形式比较多，

25、常用的编码方式是PCM脉冲调制。脉冲编码调制（脉冲编码调制（PCM）是把模拟信号变换为数字信号的一种调是把模拟信号变换为数字信号的一种调制方式，即把连续输入的模拟信号变换为在时域和振幅上都离制方式，即把连续输入的模拟信号变换为在时域和振幅上都离散的量，然后将其转化为代码形式传输或存储散的量，然后将其转化为代码形式传输或存储。3. 编码编码5.1.4 5.1.4 数字声音质量的主要因素数字声音质量的主要因素影响数字化声音质量的因素主要有三个，即影响数字化声音质量的因素主要有三个，即采样频率采样频率，采样精度采样精度和和通道个数通道个数。 1.1.声音的采样精度声音的采样精度采样精度采样精度，

26、即采样位数或采样分辨率，指表示声波采样点幅度值的二进制数的，即采样位数或采样分辨率，指表示声波采样点幅度值的二进制数的位数。位数。换句话说，采样位数可表示采样点的等级数，若用换句话说，采样位数可表示采样点的等级数，若用8bit二进制描述采样二进制描述采样点的幅值，则可以将幅值等量分割为点的幅值，则可以将幅值等量分割为256个区，若用个区，若用16bit二进制分割，则分二进制分割，则分为为65536个区。个区。可见，采样位数越多，可分出的幅度级别越多，则分辨率越高，失真度越小，可见，采样位数越多，可分出的幅度级别越多，则分辨率越高，失真度越小，录制和回放的声音就越真实。但是位数越多，声音质量越

27、高，所占的空间就录制和回放的声音就越真实。但是位数越多，声音质量越高，所占的空间就越大。越大。常用的采样精度分别是8位、16位和32位。国际标准的语音采用8位二进制位编码。根据抽样理论可知，一个数字信源的信噪比大约等于采样精度乘以根据抽样理论可知，一个数字信源的信噪比大约等于采样精度乘以6 6分贝。分贝。8 8位的数字系统其信噪比只有位的数字系统其信噪比只有4848分贝，分贝，1616位的数字系统的信噪比可达位的数字系统的信噪比可达9696分贝，分贝，信噪比低会出现背景噪声以及失真。因此采样位数越多，保真度越好。信噪比低会出现背景噪声以及失真。因此采样位数越多，保真度越好。 2.2.声音的

28、采样速率声音的采样速率采样速率采样速率，即采样频率，指每秒钟采样的次数，单位为，即采样频率，指每秒钟采样的次数，单位为HzHz（赫兹）。赫兹）。奈奎斯特采样定理指出：奈奎斯特采样定理指出：采样频率高于信号最高频率的两倍，就可以从采样中完全恢复原始信号的波形。对于以对于以11kHz11kHz的频率的采样系统，只能恢复的最高音频是的频率的采样系统，只能恢复的最高音频是5.5kHz5.5kHz。如果要把如果要把20Hz20KHz20Hz20KHz范围的模拟音频信号变换为二进制数字信号，那范围的模拟音频信号变换为二进制数字信号，那么脉冲采样频率至少应为么脉冲采样频率至少应为40KHz40KHz，

29、其周期为其周期为TpTp=1/fp=1/40KHz=25s=1/fp=1/40KHz=25s。流行的采样频率主要为流行的采样频率主要为22.05KHz22.05KHz、44.1KHz44.1KHz、48KHz48KHz采样速率越高，采样周期越短，单位时间内得到的数据越多，对声音的表示越采样速率越高，采样周期越短，单位时间内得到的数据越多，对声音的表示越精确，音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度，但高采精确，音质越真实。所以采样频率决定音质清晰、悦耳、噪音的程度，但高采样率的数据占有很大空间。样率的数据占有很大空间。 3.3.声音的通道个数声音的通道个数声音的采样数据还与声

30、道数有关。单声道只有一个数据流，立体声声音的采样数据还与声道数有关。单声道只有一个数据流，立体声的数据流至少在两个以上。由于立体声声音具有多声道、多方向的的数据流至少在两个以上。由于立体声声音具有多声道、多方向的特征，因此，声音的播放在时间和空间性能方面都能显示更好的效特征，因此，声音的播放在时间和空间性能方面都能显示更好的效果，但相应数据量将成倍增加。果，但相应数据量将成倍增加。 5.1.5 5.1.5 采样数据量采样数据量要从模拟声音中获得高质量的数字音频，必须提高采样的分辨率要从模拟声音中获得高质量的数字音频，必须提高采样的分辨率和频率，以采集更多的信号样本。而能够进一步进行处理的首要

31、和频率，以采集更多的信号样本。而能够进一步进行处理的首要问题，那就是大量采样数据文件的存储。问题，那就是大量采样数据文件的存储。采样数据的存储容量计算公式如下：采样数据的存储容量计算公式如下：存储容量存储容量( (字节字节)=)=采样频率采样频率采样精度采样精度/8/8声道数声道数时间时间表表5-25-2列出了列出了1 1分钟的双声道声音，采用不同采样频率和精度所需的存储分钟的双声道声音，采用不同采样频率和精度所需的存储容量。例如，采用容量。例如，采用44.1kHz44.1kHz采样频率和采样频率和1616位采样精度时，数字化后需要的位采样精度时，数字化后需要的存贮容量为：存贮容量为：4

32、4.116/8260=10.584B 44.116/8260=10.584B 采样频采样频率率kHzkHz采样精采样精度度bit存储容量存储容量MB数据速率数据速率kb/s常用编常用编码方式码方式质量质量44.11610.33688.2PCM激光唱片级质量激光唱片级质量22.05165.16844.1ADPCM调频广播级质量调频广播级质量常用于伴音常用于伴音82.58422.05ADPCM11.025162.58422.05ADPCM调频广播级质量调频广播级质量常用于伴音或解常用于伴音或解说说81.29211.025ADPCM表表5 5- -2 2 几几种种数数字字化化声声音音的的信信息息为

33、了减少数据量，采样且量化后的数据常要进行压缩。数字音频的编码必须为了减少数据量，采样且量化后的数据常要进行压缩。数字音频的编码必须具有压缩声音信息的能力，具有压缩声音信息的能力，压缩方法自适应脉冲编码调制（压缩方法自适应脉冲编码调制（ADPCMADPCM）法法ADPCMADPCM压缩编码方案的特点是：压缩编码方案的特点是：信噪比高，数据压缩倍率可达信噪比高，数据压缩倍率可达2-52-5倍，而不会明倍，而不会明显失真。显失真。语音是声音的一种，与人类的语言学有关，又与发声器官的发声范围语音是声音的一种，与人类的语言学有关，又与发声器官的发声范围有关，因此，对于语音的本质分析相当重要。有关，因此，

34、对于语音的本质分析相当重要。在语言数字处理中，是以语音的基本特性为基础，主要针对的语音的在语言数字处理中，是以语音的基本特性为基础，主要针对的语音的成分进行相应的处理，包括语音采样、识别、模拟、合成等技术。成分进行相应的处理，包括语音采样、识别、模拟、合成等技术。 5.2 5.2 语音语音5.2.1 5.2.1 语音的基本特性语音的基本特性语音就是人们说话的声音。语音就是人们说话的声音。在数字处理中，语音是音素、音位到句子音段、轻重音到语调等语音手段的在数字处理中，语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。语音以语言系统有声单位的形式出现，具有语言学区别功能。统称。语音以语言系

35、统有声单位的形式出现，具有语言学区别功能。人的声带就是一个发出声音的声源，声源振动将引起空气振动而产生声波。由人的声带就是一个发出声音的声源，声源振动将引起空气振动而产生声波。由于声波是具有振幅、方向、频率等多种物理属性的，因此，语音声包含了声源于声波是具有振幅、方向、频率等多种物理属性的，因此，语音声包含了声源和传播过程的自然信息。和传播过程的自然信息。虽然声波的振幅、波长和频率是因人而异的，但是也存在一定的自然规虽然声波的振幅、波长和频率是因人而异的，但是也存在一定的自然规律。律。一般男性的发音周期在一般男性的发音周期在10ms10ms左右，发音频率就在左右，发音频率就在100Hz100

36、Hz左右。女性的发左右。女性的发音周期较男性短，一般为音周期较男性短，一般为6ms6ms左右，发音频率在左右，发音频率在166Hz166Hz左右。人类很难发左右。人类很难发出频率极高或极低的语音，所以，从语音中我们可以分辨说话人、声带出频率极高或极低的语音，所以，从语音中我们可以分辨说话人、声带变化以及环境干扰声的各项性质。变化以及环境干扰声的各项性质。语音不仅仅是有声，它还包含了语音系统按一定方式确认的声语音不仅仅是有声，它还包含了语音系统按一定方式确认的声音类别，也包含了语音系统赋予的一定功能。音类别，也包含了语音系统赋予的一定功能。也就是说，语音的内容是按一定方式组织的，例如有词、句

37、、调、语气也就是说，语音的内容是按一定方式组织的，例如有词、句、调、语气等，其含义又是建立在一定的文化基础上的。因此，是否能理解语音的等，其含义又是建立在一定的文化基础上的。因此，是否能理解语音的实际内涵，这与接收者对语音的认知能力有关。实际内涵，这与接收者对语音的认知能力有关。 5.2.2 5.2.2 语音处理的任务和目标语音处理的任务和目标计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合计算机对语音进行处理的任务主要包括对语音的采样、识别、模拟和合成。成。数字语音数字语音处理的最终目标应该满足计算机发展的需要。而未来的处理的最终目标应该满足计算机发展的需要。而未来的智能化计

38、算机应具有能看，能听，能说，具有分析、判断、推理智能化计算机应具有能看，能听，能说，具有分析、判断、推理和思考的能力，那么语音就是人与机器之间进行交流最自然的方和思考的能力，那么语音就是人与机器之间进行交流最自然的方式。式。5.2.3 5.2.3 语音识别语音识别语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。语音自动识别的最终目标是要将连贯的语音变换成文字符号系列。而在自然的音语中，每个音素的声学特性与作为语句元素时完全而在自然的音语中，每个音素的声学特性与作为语句元素时完全不同，再加上由于自然发音时，各语音单位是连贯的，具有协同不同，再加上由于自然发音时，各语音单位是连贯的，具

39、有协同调音效应，同时还具有语调、重音和抑扬顿挫等韵律方面的影响，调音效应，同时还具有语调、重音和抑扬顿挫等韵律方面的影响，这使得实现语音到文字符号的识别非常困难。这使得实现语音到文字符号的识别非常困难。语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，语音识别以语音为研究对象，是语音信号处理的一个重要研究方向，是模式识别的一个分支，其目的就是要让机器具有人的听觉功能，在是模式识别的一个分支，其目的就是要让机器具有人的听觉功能，在人机语音通讯中人机语音通讯中“听懂听懂”人类口述的语言。根据不同的需求，语音识人类口述的语言。根据不同的需求，语音识别的识别内容可分为狭义的语音识别和说话人

40、语音识别别的识别内容可分为狭义的语音识别和说话人语音识别。一个完整的语音识别系统可大致分为三部分：一个完整的语音识别系统可大致分为三部分：（1 1）语音特征提取）语音特征提取：其目的是从语音波形中提取出随时间变化的语：其目的是从语音波形中提取出随时间变化的语音特征序列。音特征序列。（2 2）声学模型与模式匹配（识别算法）声学模型与模式匹配（识别算法）：声学模型通常将获取：声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型（模式）进行匹配与比较，得到最佳的识别结果。（模式）进行匹配与比较，得到最佳的识别

41、结果。（3 3）语言模型与语言处理）语言模型与语言处理：语言模型包括由识别语音命令构成的语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义语法网络或由统计方法构成的语言模型，语言处理可以进行语法、语义分析。对小词表语音识别系统，往往不需要语言处理部分。分析。对小词表语音识别系统，往往不需要语言处理部分。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同音时可以根据语言学模型、语法结构、语义学进行判断纠正，特别是一些同

42、音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系不同词之间的相互连接关系，减少了识别系统的搜索空间，这有利于提高系统的识别。统的识别。声学模型是识别系统的底层模型，并且是语音识别系统

43、中最关键的一声学模型是识别系统的底层模型，并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据学模型单元大小（字发音模型、半音节模型或音素模型）对语音训练数据量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特量大小、系统识别率，以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇

44、量的大小决定识别单元的大小。点、识别系统词汇量的大小决定识别单元的大小。2 2语音识别的基本原理语音识别的基本原理预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等，并涉及到语音识别基元的选取和端点检测问题：影响等，并涉及到语音识别基元的选取和端点检测问题：特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰特征提取部分用于提取语音中反映本质特征的声学参数，如平均能量、平均跨零率、共振峰等；等；训练在识别之前进行，通过让讲话者多次重复语音，从原始语音

45、样本中去除冗余信息，保留训练在识别之前进行，通过让讲话者多次重复语音，从原始语音样本中去除冗余信息，保留关键数据，再按照一定规则对数据加以聚类，形成模式库；关键数据，再按照一定规则对数据加以聚类，形成模式库；模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专模式匹配部分是整个语音识别系统的核心，它是根据一定的准则（如某种距离测度）以及专家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度，判家知识（如构词规则、语法规则、语义规则等），计算输入特征与库存模式之间的相似度，判断出输入语音的语意信息。断出输入语音的语意信息。 3 3处理的方法

46、：处理的方法：(1) (1) 连续语音流的预处理连续语音流的预处理波形硬件采样率的确定、分帧大小与帧移策略的确定；波形硬件采样率的确定、分帧大小与帧移策略的确定；剔除噪声的带通滤波、高频预加重处理、各种变换策略；剔除噪声的带通滤波、高频预加重处理、各种变换策略；波形的自动切分波形的自动切分(依赖于识别基元的选择方案依赖于识别基元的选择方案)。(2) (2) 特征参数提取特征参数提取识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。识别语音的过程，实际上是对语音特征参数模式的比较和匹配的过程。语音特征参数的选取对系统识别结果起着重要的作用。因此，必须寻找一语音特征参数的选取对系统识

47、别结果起着重要的作用。因此，必须寻找一个既能充分表达语音特征又能彼此区别的特征参数，这是语音识别中的一个既能充分表达语音特征又能彼此区别的特征参数，这是语音识别中的一个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频个最重要基本问题。语音识别系统常用的特征参数有线性预测系数、倒频谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。谱系数、平均过零率、能量、短时频谱、共振峰频率及带宽等。 (3(3）参数模板存储。在建立识别系统时，首先进行特征参数提取，参数模板存储。在建立识别系统时，首先进行特征参数提取，然后对系统进行训练和聚类。通过训练，系统建立并存储一个该然后对系统进行训练

48、和聚类。通过训练，系统建立并存储一个该系统需识别字（或音节）的参数模板库。系统需识别字（或音节）的参数模板库。（4）识别判决。识别时，待识语音信号经过与训练时相同的特征）识别判决。识别时，待识语音信号经过与训练时相同的特征参数提取后，与模式模板存储器中的模式进行匹配计算和比较，参数提取后，与模式模板存储器中的模式进行匹配计算和比较，并根据一定的规则进行识别判决，最后输出识别结果。并根据一定的规则进行识别判决，最后输出识别结果。4. 语音识别系统的类型语音识别系统的类型 1按可识别的词汇量多少按可识别的词汇量多少 2按照语音的输入方式按照语音的输入方式 3按发音者为特定按发音者为特定/非特定人

49、非特定人4按发音者的声纹按发音者的声纹 5. 语音识别的应用语音识别的应用 n1 1在信息处理领域的应用在信息处理领域的应用n（1 1）给计算机发送指令）给计算机发送指令。n（2 2）听写系统）听写系统。n（3 3）信息查询。）信息查询。n（4 4）网上交谈。）网上交谈。n2 2教育与商务应用教育与商务应用n（1 1）语音教学软件。）语音教学软件。n（2 2）电话查询。）电话查询。n（3 3）电子商务。）电子商务。 n3消费电子产品应用消费电子产品应用孤立词的模式孤立词的模式是一种认人的识别方式，就是因人而异进行语音是一种认人的识别方式，就是因人而异进行语音识别。实验结果表示，一般识别率

50、都在识别。实验结果表示，一般识别率都在95%95%以上。孤立词的模式识别以上。孤立词的模式识别系统的原理如图系统的原理如图5-65-6所示，所示，实际上，人们更需要计算机能不因人而变，且能识别由大量词汇组成的连续语句。实际上，人们更需要计算机能不因人而变，且能识别由大量词汇组成的连续语句。这就要求计算机语音识别系统以音素为识别单元，具有标准的语句切分规则、音这就要求计算机语音识别系统以音素为识别单元，具有标准的语句切分规则、音调规则、拼音规则、单词库、语法及语义等规则。即连续识别系统应具有如图调规则、拼音规则、单词库、语法及语义等规则。即连续识别系统应具有如图5-75-7结构功能，当连续语音流

51、输入后，首先要根据语音流中能量的峰谷、清浊、共振结构功能，当连续语音流输入后，首先要根据语音流中能量的峰谷、清浊、共振峰变化模式等多项特征进行词、音节和音素等识别单位的切分。峰变化模式等多项特征进行词、音节和音素等识别单位的切分。切分切分规则规则拼音拼音规则规则单词单词库库语法及语法及语义规语义规则则音素音素库库音变音变规则规则音段音段切分切分音素音素识别识别音节音节识别识别单词单词识别识别语句语句识别识别连连续续语语音音流流输输入入识识别别结结果果输输出出接着要进行接着要进行模式匹配式的音素识别模式匹配式的音素识别，从音素库中选出几个候选音素。考虑到语音，从音素库中选出几个候选音素。考虑到

52、语音流中还包含有音变特性，为了提高音素的正确识别率，必须事先分析和归纳出各流中还包含有音变特性，为了提高音素的正确识别率，必须事先分析和归纳出各种音变规律。种音变规律。然后进入音节识别阶段，计算机将利用拼音规则库对音素识别的结果来组合音节。然后进入音节识别阶段，计算机将利用拼音规则库对音素识别的结果来组合音节。 5.2.3 5.2.3 语音合成语音合成语音合成可以通过再生预存的语音信号和模拟发声两种实现途径。语音合成可以通过再生预存的语音信号和模拟发声两种实现途径。再生预存的语音信号方式再生预存的语音信号方式，就是采用了数字存储技术，预先存入的语音信号，就是采用了数字存储技术，预先存入的语

53、音信号，然后将预先存入的单音或词组拼接成语音。如果预先存入语音单元足够多，然后将预先存入的单音或词组拼接成语音。如果预先存入语音单元足够多，合成时就可以挑选出比较合适的语音单元，然后拼接合成产生比较符合自然合成时就可以挑选出比较合适的语音单元，然后拼接合成产生比较符合自然的语句。的语句。模拟发声方式模拟发声方式采用数字信号处理的方法。用周期脉冲序列作为声源，代表声采用数字信号处理的方法。用周期脉冲序列作为声源，代表声带振动或噪声序列，去激励一个表征声道谐振特性的时变数字滤波器。带振动或噪声序列，去激励一个表征声道谐振特性的时变数字滤波器。通过调整滤波器的参数控制不同的发音，通过调整激励源脉冲

54、序列的周期或通过调整滤波器的参数控制不同的发音，通过调整激励源脉冲序列的周期或强度去改变合成语音的音调、重音等。强度去改变合成语音的音调、重音等。只要正确控制激励源和滤波器参数。就能够合成出各种语句来。只要正确控制激励源和滤波器参数。就能够合成出各种语句来。合成语音的目标应该是可懂、清晰、自然、具有表现力。为了合成出高质量的语言，合成语音的目标应该是可懂、清晰、自然、具有表现力。为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解。内容有很好的理解。 MID

55、IMIDI音乐通常被称为电子音乐或合成音乐，它也是声音的一种，但是音乐通常被称为电子音乐或合成音乐，它也是声音的一种，但是这种声音与流行的乐器有关，例如，钢琴、提琴、长号、鼓等乐器。这种声音与流行的乐器有关，例如，钢琴、提琴、长号、鼓等乐器。虽然虽然MIDIMIDI音乐可以通过连接计算机的话筒采集而输入计算机，但是这音乐可以通过连接计算机的话筒采集而输入计算机，但是这种种MIDIMIDI音乐的获取只能作为声波来处理，不能对其中的音符进行特殊音乐的获取只能作为声波来处理，不能对其中的音符进行特殊的处理。的处理。 5.3 MIDI5.3 MIDI音乐音乐5.3.1 MIDI5.3.1 MIDI音乐

56、原理音乐原理 MIDIMIDI（Music Instrument Digital InterfaceMusic Instrument Digital Interface）即音乐设备的数字化界面。）即音乐设备的数字化界面。实质上，它是人们可以利用多媒体计算机和电子乐器去创作、欣赏和研究音实质上，它是人们可以利用多媒体计算机和电子乐器去创作、欣赏和研究音乐的标准协议。乐的标准协议。数字音乐究竟是怎么形成的呢？事实上，我们可以把很多乐器排列、基本发数字音乐究竟是怎么形成的呢？事实上，我们可以把很多乐器排列、基本发声规律、和音乐的各种色彩等全部列出，并用相应的数字来编号，从而形成声规律、和音乐的各种色

57、彩等全部列出，并用相应的数字来编号，从而形成一系列可以参照使用的代码。一系列可以参照使用的代码。可以说，数字音乐是一种音乐语言，这种语言是由事先定义好的音色、音调、可以说，数字音乐是一种音乐语言，这种语言是由事先定义好的音色、音调、音符等编号组成的。音符等编号组成的。MIDIMIDI音乐就是这样一种数字音乐，其乐谱信息称之为音乐就是这样一种数字音乐，其乐谱信息称之为MIDIMIDI消息，包括电子乐消息，包括电子乐器键盘的弹奏的键名、力度、时值长短等。器键盘的弹奏的键名、力度、时值长短等。例如，例如，我们定义我们定义Acoustic PianoAcoustic Piano编号为编号为0101

58、、C3C3音编号为音编号为1010、8 8分音符编号分音符编号为为8080，那么一个原声钢琴那么一个原声钢琴8 8分音符的分音符的C3C3音，就可以表示为音，就可以表示为“01 10 80”01 10 80”一一串数字。串数字。由此可见，可以用不同的音色编码、音调编码和音符编码分别表由此可见，可以用不同的音色编码、音调编码和音符编码分别表示不同的乐器声、高低音和音符数。示不同的乐器声、高低音和音符数。计算机上处理计算机上处理MIDIMIDI音乐的基本过程音乐的基本过程计算机中的计算机中的MIDIMIDI文件通常来自于音乐创作软件或合成音乐设备。许多播文件通常来自于音乐创作软件或合成音乐设备

59、。许多播放器都能播放放器都能播放MIDIMIDI音乐，播放时如图音乐，播放时如图5-85-8所示，需要从相应的所示，需要从相应的MIDIMIDI文件或文件或设备中读出设备中读出MIDIMIDI指令，接着由指令，接着由MIDIMIDI文件系统解释指令，然后通过文件系统解释指令，然后通过MIDIMIDI播播放器输出和转换信号，再经过声音合成器生成对应的声音波形，最后经放器输出和转换信号，再经过声音合成器生成对应的声音波形，最后经放大后由扬声器输出。放大后由扬声器输出。图5-8计算机中MIDI音乐的处理多媒体计算机中的多媒体计算机中的MIDIMIDI与音效与音效多媒体多媒体PCPC机要求音频卡上

60、包含：机要求音频卡上包含：MIDIMIDI合成器、合成器、MIDIMIDI输入输入/ /输出端口和音效芯片。输出端口和音效芯片。MIDIMIDI合成器能演奏的多种乐器及复合音，合成器能演奏的多种乐器及复合音，MIDIMIDI输入输入/ /输出端口可用来连接合成音乐设备，输出端口可用来连接合成音乐设备，音效是指在硬件上实现了回声、混响、和声等效果。音效是指在硬件上实现了回声、混响、和声等效果。 5.3.2 MIDI5.3.2 MIDI的组成的组成 MIDIMIDI由三个部分组成，它们分别是：由三个部分组成，它们分别是：通信协议通信协议Communication ProtocolCommunica

61、tion Protocol连接器连接器ConnectorConnector传播格式（称为标准传播格式（称为标准MIDIMIDI文件）。文件）。通信协议通信协议 Communication ProtocolCommunication Protocol MIDIMIDI通信协议是二进制形式的音乐描述语言。每个描述乐器演播动作的字都赋予一个通信协议是二进制形式的音乐描述语言。每个描述乐器演播动作的字都赋予一个特定的二进制代码。当要奏响一个特定的二进制代码。当要奏响一个MIDIMIDI音符时，首先要发出音符时，首先要发出“音符开音符开”消息，然后赋消息，然后赋予该音符一个予该音符一个“速度速度”，用

62、以决定该音符的响度。通信协议中还包括乐器演奏选择、，用以决定该音符的响度。通信协议中还包括乐器演奏选择、混合和平移声音和电子乐器控制等混合和平移声音和电子乐器控制等MIDIMIDI消息。消息。连接器连接器 ConnectorConnector MIDI 1.0MIDI 1.0规范中，使用的规范中，使用的MIDIMIDI接头是一个接头是一个5 5针针DINDIN接头。实际上，也可以通过其他连接接头。实际上，也可以通过其他连接器和电缆来传送器和电缆来传送MIDIMIDI消息。消息。标准标准MIDIMIDI文件文件标准标准MIDIMIDI文件可以仅仅是一个事件的列表，描述了一个音频卡或其他播放

63、设备要产生某文件可以仅仅是一个事件的列表，描述了一个音频卡或其他播放设备要产生某种声音的特定步骤。而且这些事件是可以编辑的。种声音的特定步骤。而且这些事件是可以编辑的。 5.3.3 MIDI5.3.3 MIDI音乐接口标准音乐接口标准最早的最早的MIDIMIDI标准就是标准就是RolandRoland的的GSGS（General StandardGeneral Standard）标准。为了有利于音标准。为了有利于音乐家广泛地使用不同的合成器设备和促进乐家广泛地使用不同的合成器设备和促进MIDIMIDI文件的交流，国际文件的交流，国际MIDIMIDI制造商制造商协会（协会（MMAMMA）在在1

64、9911991年制定了通用年制定了通用MIDIMIDI标准。该标准以日本标准。该标准以日本RolandRoland公司的通公司的通用合成器用合成器GSGS标准为基础而制订的。而后又出现了标准为基础而制订的。而后又出现了YAMAHAYAMAHA公司推出的公司推出的MIDIMIDI标准标准XGXG。 GSGS标准标准 GSGS（General StandardGeneral Standard）是）是RolandRoland公司创立的一种公司创立的一种MIDIMIDI标准，此标准定义了我标准，此标准定义了我们最常用的们最常用的128128种乐器，音效和控制器的排列。种乐器，音效和控制器的排列。该标

65、准具有以下五种主要特点该标准具有以下五种主要特点1.1.1616个声部。个声部。2.2.最大复音数为最大复音数为2424或更多。或更多。3.3.GSGS格式的乐器音色排列。（有各种不同风格的音乐所使用的乐器音色和打击乐音色）格式的乐器音色排列。（有各种不同风格的音乐所使用的乐器音色和打击乐音色） 4.4.鼓音色可以通过音色改变信息进行选择。鼓音色可以通过音色改变信息进行选择。5.5.包含两种可以调节的效果，有混响和合唱。包含两种可以调节的效果，有混响和合唱。 GMGM标准标准（通用（通用MIDIMIDI系统标准系统标准 Level 1Level 1） GMGM（General MIDI Mod

66、eGeneral MIDI Mode）标准标准是国际是国际MIDIMIDI生产者协会（生产者协会（MMAMMA）制定的，该标准以制定的，该标准以日本日本RolandRoland公司的通用合成器公司的通用合成器GSGS标准为基础。标准为基础。GMGM标准标准为为MIDIMIDI乐器之间的互相兼容乐器之间的互相兼容定义了一些最基本的规则定义了一些最基本的规则。 GMGM声音集声音集 GMGM声音集也就是预定义的乐器表。声音集也就是预定义的乐器表。GMGM标准定义了最常用的标准定义了最常用的128128种乐器，用不同的种乐器，用不同的MIDIMIDI程序号为声音进行了命名，把产生这些声音的方法留给产

67、品开发商去解决。程序号为声音进行了命名，把产生这些声音的方法留给产品开发商去解决。 XGXG标准标准 XG-MIDIXG-MIDI（Extended General MIDIExtended General MIDI）是扩展的通用是扩展的通用MIDIMIDI。由。由YAMAHAYAMAHA公司在公司在19941994年推年推出的新的音源控制规格。出的新的音源控制规格。XGXG继承了继承了GMGM定义的各项基本功能，同时又增加了音色库定义的各项基本功能，同时又增加了音色库（音色数量）。在控制方面作了大量的改进，用多种控制器来控制和调节音色、速（音色数量）。在控制方面作了大量的改进，用多种控制器来

68、控制和调节音色、速度等特性。度等特性。XGXG标准的定义表称为标准的定义表称为“MIDI MIDI Mapper”(MIDIMapper”(MIDI映射表映射表) )，所有的，所有的MIDIMIDI设备都会有相应的设备都会有相应的MIDIMIDI映射表，在计算机中也要有相应的映射表，在计算机中也要有相应的MIDIMIDI映射表。其中有一张表里排列着映射表。其中有一张表里排列着MIDIMIDI设设备的音色，在这张音色表中，重要的是这些乐器音色所对应的排列编号，备的音色，在这张音色表中，重要的是这些乐器音色所对应的排列编号，MIDIMIDI设备设备与计算机只认音色的排列编号，而不分析音色的排列次序

69、。目前的与计算机只认音色的排列编号，而不分析音色的排列次序。目前的MIDIMIDI设备一般都设备一般都有多个音色库，但音色库最多不会超过有多个音色库，但音色库最多不会超过128128个。每个音色库有个。每个音色库有128128个乐器音色。个乐器音色。 5.3.4 MIDI5.3.4 MIDI音乐的基本设备音乐的基本设备 MIDIMIDI音乐的基本设备包括音乐的基本设备包括音源音源、音序器音序器、输入设备输入设备。音源音源音源音源是一个音色资源库，其内部包含了很多不同音色的样本波形，例如钢是一个音色资源库，其内部包含了很多不同音色的样本波形，例如钢琴的音色样本、吉它的音色样本等等。琴的音色样

70、本、吉它的音色样本等等。音源只是一个资源库，本身并不知道在什么时候该用什么音色发怎样的声音。音源只是一个资源库，本身并不知道在什么时候该用什么音色发怎样的声音。如何调用资源的任务由如何调用资源的任务由MIDIMIDI音序器去完成。音序器去完成。音源分为音源分为软音源软音源和和硬音源硬音源。软音源软音源实质上是一个软件，软音源必须依靠电脑芯片和内存的工作来发声，实质上是一个软件，软音源必须依靠电脑芯片和内存的工作来发声，常见的有常见的有Yamaha S-YXG100,Roland VSC88Yamaha S-YXG100,Roland VSC88等，它们必须在电脑上安装后才能等，它们必须在电脑

71、上安装后才能使用。使用。硬音源硬音源是一个实际存在的设备，如图是一个实际存在的设备，如图5-95-9所示是所示是Roland Roland 推出的综合音源推出的综合音源Roland FANTOM XRRoland FANTOM XR。将硬音源和音序器连接以后就可以使用了。将硬音源和音序器连接以后就可以使用了。音序器音序器音序器音序器是制作音乐的处理器。用它来编辑各种音乐数据，实现同步播放等是制作音乐的处理器。用它来编辑各种音乐数据，实现同步播放等等。它把组成音乐所需的音色，节奏，音符等按照一定的序列组织起来，等。它把组成音乐所需的音色，节奏，音符等按照一定的序列组织起来，好让音源发声。实

72、际上，音序器以数字的形式记录了音乐的一般要素，拍好让音源发声。实际上，音序器以数字的形式记录了音乐的一般要素，拍子，音高，节奏，音符时值等，子，音高，节奏，音符时值等，MIDIMIDI文件的本质内容就是音序内容。文件的本质内容就是音序内容。音序器也有音序器也有软软/ /硬音序器硬音序器之分。之分。软件音序器软件音序器也是一个电脑程序，很多也是一个电脑程序，很多MIDIMIDI制作软件实际上就是音序器软制作软件实际上就是音序器软件，如件，如CakewalkCakewalk、EncoreEncore、CubaseCubase VST VST等。等。硬件音序器硬件音序器和硬件音源一样，一般体积都

73、很小，与音源连接以后就可以和硬件音源一样，一般体积都很小，与音源连接以后就可以控制音源发声了。硬件音序器只能靠两只手在面板上按键，显示屏也较控制音源发声了。硬件音序器只能靠两只手在面板上按键，显示屏也较小，修改音符参数十分复杂。小，修改音符参数十分复杂。输入设备输入设备就是就是MIDIMIDI乐器，通过它告诉音序器需要排列哪些内容。乐器，通过它告诉音序器需要排列哪些内容。为了符合人们原有的音乐习惯，人们制造了各种基于传统乐器形为了符合人们原有的音乐习惯，人们制造了各种基于传统乐器形式上的式上的MIDIMIDI乐器，如乐器，如MIDIMIDI键盘，键盘，MIDIMIDI吹管，吹管，MIDIMI

74、DI吉它，吉它，MIDIMIDI小提小提琴等等。琴等等。虽然也可以建立虚拟的键盘，钢琴，电子琴等，但是在计算机键虽然也可以建立虚拟的键盘，钢琴，电子琴等，但是在计算机键盘上弹奏音符总有许多不便之处。盘上弹奏音符总有许多不便之处。输入设备输入设备5.3.5 MIDI5.3.5 MIDI音乐合成器音乐合成器 MIDIMIDI合成器可以将合成器可以将MIDIMIDI指令转化为实际的声音。利用合成器可以逼真指令转化为实际的声音。利用合成器可以逼真地再现出专业乐队的实时演奏效果。地再现出专业乐队的实时演奏效果。音乐合成器的类型音乐合成器的类型 MIDIMIDI合成器能利用一种乐器的数字采样频率来产生

75、声调。多媒体计合成器能利用一种乐器的数字采样频率来产生声调。多媒体计算机是通过内部合成器或通过外接到计算机算机是通过内部合成器或通过外接到计算机MIDIMIDI端口的外部合成器端口的外部合成器来播放来播放MIDIMIDI文件的。文件的。 MIDIMIDI合成器按照波形合成方法可以分为：合成器按照波形合成方法可以分为：1 1、通过频率调制、通过频率调制FMFM合成合成FMFM方式是通过硬件产生正弦信号，再经过处理产生音乐。方式是通过硬件产生正弦信号，再经过处理产生音乐。2 2、通过波形表合成。、通过波形表合成。首先要将各种实际乐器的声音采样存储在首先要将各种实际乐器的声音采样存储在ROMROM芯

76、片中，当需要合成某种乐器芯片中，当需要合成某种乐器的乐音时，通过查表方式来调用这种实际乐器的声音采样。的乐音时，通过查表方式来调用这种实际乐器的声音采样。MIDIMIDI硬件合成器硬件合成器现代的合成器是集音源，音序器，现代的合成器是集音源，音序器，MIDIMIDI键盘于一身的设备。键盘于一身的设备。拥有大量真实的采样音色可供演奏使用拥有大量真实的采样音色可供演奏使用拥有自己的音序器可以录制编辑音乐，拥有自己的音序器可以录制编辑音乐，拥有拥有MIDIMIDI接口可以与其他设备交换信息。接口可以与其他设备交换信息。用户不仅可以用图表音乐和屏幕乐器来合成乐曲，同时还可以用多种用户不仅可以用图表

77、音乐和屏幕乐器来合成乐曲，同时还可以用多种MIDIMIDI混混合工具来合成音乐。合工具来合成音乐。如图如图5-105-10所示的是所示的是EvolutionEvolution生产的生产的49 49 键标准力度键盘，适合于键标准力度键盘，适合于Windows Windows 98/NT/ME/2000/XP98/NT/ME/2000/XP操作系统，该键盘带有弯音轮，可分配的推杆和调制轮，操作系统，该键盘带有弯音轮，可分配的推杆和调制轮，提供提供 USB USB 接口和标准的接口和标准的MIDIMIDI接口。接口。图图5-10MIDI硬件合成器硬件合成器MIDIMIDI软件合成器软件合成器软

78、件合成器包括软音源、软音序器、和虚拟的软件合成器包括软音源、软音序器、和虚拟的MIDIMIDI设备。设备。例如，例如，TimidityTimidity就是一款就是一款SF2SF2（SoundFontSoundFont 2.0 2.0版本）软件合成器，它巧版本）软件合成器，它巧妙地利用了妙地利用了DirectXDirectX，可以在可以在CPUCPU资源占用很低的情况下可以非常流畅地资源占用很低的情况下可以非常流畅地播放一般的播放一般的MIDIMIDI乐曲。它不仅小巧、使用方便，而且自带多种效果器，乐曲。它不仅小巧、使用方便，而且自带多种效果器，音质也非常好。音质也非常好。 5.4 5.4 音

79、频文件的格式音频文件的格式在计算机中存在很多音频格式，不同格式所提供的音质相差较大，有些格在计算机中存在很多音频格式，不同格式所提供的音质相差较大，有些格式还具有丰富的附加功能。可以满足不同用户对音频质量的要求。要能够式还具有丰富的附加功能。可以满足不同用户对音频质量的要求。要能够正确地选择出适合自己的音频格式文件，首先要了解不同音频格式文件的正确地选择出适合自己的音频格式文件，首先要了解不同音频格式文件的特点。特点。下面介绍一些主流的音频文件的格式。下面介绍一些主流的音频文件的格式。 1. 1. 波形格式波形格式 WAVWAV文件又称波形文件，来源于对声音模拟波形的采样，并以不同的量化文件

80、又称波形文件，来源于对声音模拟波形的采样，并以不同的量化位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形位数把这些采样点的值轮换成二进制数，然后存入磁盘，这就产生了波形文件。文件。WAVWAV文件用于保存文件用于保存WindowsWindows平台的音频信息资源，被平台的音频信息资源，被WindowsWindows平台及平台及其应用程序所广泛支持。其应用程序所广泛支持。 n WAV声音文件是使用声音文件是使用RIFF（Resource Interchange File Format资源交换文件）的格式描述的，它由文件头和波形音频文件资源交换文件）的格式描述的，它由文件头和波形音

81、频文件数据块组成。文件头包括标志符、语音特征值、声道特征以及数据块组成。文件头包括标志符、语音特征值、声道特征以及PCM格格式类型标志等。式类型标志等。WAV数据块是由数据子块标记、数据子块长度和波数据块是由数据子块标记、数据子块长度和波形音频数据形音频数据3个数据子块组成。个数据子块组成。n Wave格式支持多种压缩算法，支持多种音频位数、采样频率和格式支持多种压缩算法，支持多种音频位数、采样频率和声道，是声道，是PC机上最为流行的声音文件格式，但其文件尺寸较大，多用机上最为流行的声音文件格式，但其文件尺寸较大，多用于存储简短的声音片断。于存储简短的声音片断。 2.VOC2.VOC文件文件

82、VOCVOC文件是文件是CreativeCreative公司所使用的标准音频文件格式，多用于保存公司所使用的标准音频文件格式，多用于保存 Creative Sound Blaster(创新声霸创新声霸)系列声卡所采集的声音数据，被系列声卡所采集的声音数据，被Windows平台和平台和DOS平平台所支持。台所支持。与与WAVWAV格式格式类类似，似，VOCVOC文件由文件文件由文件头块头块和音和音频频数据数据块组块组成。文件成。文件头头包含一个包含一个标识标识、版本号和一个指向数据版本号和一个指向数据块块起始地址的指起始地址的指针针，这这个指个指针针帮助数据帮助数据块块定位以便定位以便顺顺利利

83、找到第一个数据找到第一个数据块块。数据。数据块块分成各种分成各种类类型的子型的子块块，如声音数据、静音、，如声音数据、静音、标记标记、ASCIIASCII码码文件、重复、重复的文件、重复、重复的结结束及束及终终止止标记标记等。等。 MIDIMIDI文件所包含的信息完全符合文件所包含的信息完全符合GSGS的标准，所以，不仅在电脑上可以处理的标准，所以，不仅在电脑上可以处理和重现和重现MIDIMIDI音乐，也可以在不同的乐器间传输并且互相控制。音乐，也可以在不同的乐器间传输并且互相控制。MIDIMIDI文件储存着文件储存着MIDIMIDI资料和命令，包括音色、音符、时间码、速度、调号、资料和命令，

84、包括音色、音符、时间码、速度、调号、拍号、键号等乐谱指令，能保存多达拍号、键号等乐谱指令，能保存多达1616个通道的音乐信息。按照指令中时个通道的音乐信息。按照指令中时间码的顺序，音序器能够精确地按时间合成音乐，再现文件内部的乐谱指间码的顺序，音序器能够精确地按时间合成音乐，再现文件内部的乐谱指令所包含的音乐旋律。令所包含的音乐旋律。 3. MIDI3. MIDI格式格式一个一个MIDIMIDI文件基本上分成头块和轨道块两个部分，但其中可以有多个轨道文件基本上分成头块和轨道块两个部分，但其中可以有多个轨道块。块。在在MIDI MIDI 文件中，除了基本的文件中，除了基本的MIDIMIDI事件

85、数据，还可以有其他数据。如：事件数据，还可以有其他数据。如：SysexSysex 事件、事件、Meta Meta 事件、事件、delta-timesdelta-times。 MIDI MIDI 事件事件所谓所谓MIDIMIDI事件，就是指当用户按下鼠标按钮、键盘或一个琴键的动作，而这个事件，就是指当用户按下鼠标按钮、键盘或一个琴键的动作，而这个动作将激活它所对应消息数据的传递，这些消息包括声音、通道和模式消息数动作将激活它所对应消息数据的传递，这些消息包括声音、通道和模式消息数据。据。 SysexSysex 事件事件SysexSysex 事件中对系统高级消息进行了较详细的描述，相对于事件中对系

86、统高级消息进行了较详细的描述，相对于 MIDI channel MIDI channel 消息。消息。 Meta Meta 事件事件Meta Events Meta Events 是用来表示象是用来表示象 track track 名称、歌词、提示点等，它并不作为名称、歌词、提示点等，它并不作为 MIDI MIDI 消息被发送，但它是消息被发送，但它是MIDIMIDI文件的组成部分。文件的组成部分。Meta Events Meta Events 的基本形的基本形式：式：FF FF 。 delta-timedelta-time事件事件一个一个delta-timedelta-time是一个是一个MI

87、DIMIDI事件被执行后的节奏数，事件被执行后的节奏数，delta-time delta-time 之后就之后就是是MIDIMIDI事件。一个事件。一个MIDI MIDI 事件先于一个事件先于一个delta-timedelta-time。例如：。例如：MIDI MIDI 系统实系统实时消息时消息“停止停止”用用 F7 01 FC F7 01 FC ，当，当“继续继续”用用 F7 01 FBF7 01 FB。假设想停止一个外部设备假设想停止一个外部设备鼓，发送一个鼓，发送一个“停止停止”，接着，接着4848个个 delta-delta-time time 单元后单元后“继续继续”。完整的。完整的

88、 delta-tem delta-tem 事件序列如下：事件序列如下： 00 F7 01 FC 30 F7 01 FB00 F7 01 FC 30 F7 01 FB其中其中“30”30”就是定义在就是定义在MIDI MIDI 文件中（一个）单位文件中（一个）单位的的 delta-timedelta-time数。数。标准的标准的MIDIMIDI格式的文件扩展名是格式的文件扩展名是midmid，包括格式包括格式0 0和格式和格式1 1。midmid格式可以用格式可以用任何任何MIDIMIDI软件进行创建、编辑和处理，但不能保存如强弱、其它符号、歌软件进行创建、编辑和处理，但不能保存如强弱、其它符

89、号、歌词等信息。词等信息。为了控制软件和硬件设备，可以在文件中加入许多其他的信息，并随其为了控制软件和硬件设备，可以在文件中加入许多其他的信息，并随其它信息一起保存下来。这种文件格式就是非标准的它信息一起保存下来。这种文件格式就是非标准的MIDIMIDI文件，由软件开文件，由软件开发商自己制定的。在这些非标准的发商自己制定的。在这些非标准的MIDIMIDI文件里可以记录一些文件里可以记录一些“.mid”.mid”文文件无法记录的内容。件无法记录的内容。例如：可以记录强弱、其它符号、歌词的例如：可以记录强弱、其它符号、歌词的tritri格式，可以记录歌词、表格式，可以记录歌词、表情等内容的情

90、等内容的. .wrkwrk （CakewalkCakewalk软件）格式、软件）格式、Band-In-a-boxBand-In-a-box的的“. .sgusgu”格格式。自定格式的文件可以把效果器代码和参数、音场（指器材所再生的式。自定格式的文件可以把效果器代码和参数、音场（指器材所再生的乐队所排列的形状）和位向（播放方向）、混响度等等信息通过系统码乐队所排列的形状）和位向（播放方向）、混响度等等信息通过系统码的方式保存在文件中。但当将自定格式的文件转存为标准的方式保存在文件中。但当将自定格式的文件转存为标准MIDIMIDI格式，将格式，将会忽略这些信息。会忽略这些信息。有许多播放器，如图

91、有许多播放器，如图5-115-11所示的所示的WinGrooveWinGroove、Roland Virtual Sound Roland Virtual Sound CanvasCanvas和和YAMAHA S-YXG PlayerYAMAHA S-YXG Player等软音源播放器，它们都支持标准的等软音源播放器，它们都支持标准的MIDIMIDI文件，并且在其中安装了软波表，从而可获得较好的效果。文件，并且在其中安装了软波表，从而可获得较好的效果。5.4.35.4.3压压缩缩格式格式压缩音频文件是将音频文件按一定的方式压缩而成的文件，它可降低原有压缩音频文件是将音频文件按一定的方式压缩而成

92、的文件，它可降低原有文件的存储空间，更加便于存储和传递。文件的存储空间，更加便于存储和传递。mp3mp3 MP3MP3 即即MPEG1 Layer 3 MPEG1 Layer 3 （Moving Picture Experts Group, Audio Layer Moving Picture Experts Group, Audio Layer IIIIII），是），是FraunhoferFraunhofer-IIS-IIS研究所的研究成果。研究所的研究成果。由于使用了由于使用了 MPEG1 Audio Layer 3 MPEG1 Audio Layer 3 技术，可将音频文件以技术，可将

93、音频文件以1:101:10至至 1:12 1:12 的的压缩率进行压缩。这种技术主要是利用了知觉音频编码技术，削减了音乐压缩率进行压缩。这种技术主要是利用了知觉音频编码技术，削减了音乐中人耳所听不到的成分，尽可能保持原有的音质。中人耳所听不到的成分，尽可能保持原有的音质。 MP3MP3文件的特点是文件存储空间和音质损坏都较小。每分钟文件的特点是文件存储空间和音质损坏都较小。每分钟MP3MP3格式的音乐文格式的音乐文件大约占有件大约占有1MB1MB左右，便于存储和网上传播。左右，便于存储和网上传播。标准的标准的MP3MP3压缩比是压缩比是1010：1 1，也可以不同的比率进行压缩。压缩得越多，声

94、音，也可以不同的比率进行压缩。压缩得越多，声音质量下降也将越多。质量下降也将越多。表表5-3MPEG1Audio音频文件压缩比率和播放媒体最低位率音频文件压缩比率和播放媒体最低位率Layer大约压缩比率大约压缩比率播放媒体最低位率播放媒体最低位率11:4348Kbit/s21:61:8256Kbit/s192Kbit/s31:101:12128Kbit/s112Kbit/sMP3MP3（Layer 3Layer 3）编码是编码是MPEG1 MPEG1 AudioAudio音频压缩标准之一。音频压缩标准之一。mp3PRO mp3PRO 随着网络上收听声音和收看视频的需求不断增加，网络流媒体随着

95、网络上收听声音和收看视频的需求不断增加，网络流媒体RealReal和和Windows MediaWindows Media格式传播的媒体质量不断提高，特别是格式传播的媒体质量不断提高，特别是MicrosoftMicrosoft推出的推出的WMAWMA格式可使相同内容的格式可使相同内容的MP3MP3文件缩小至原来的一半大小，极大地冲击着文件缩小至原来的一半大小，极大地冲击着MP3MP3格式在流行应用中的地位。格式在流行应用中的地位。图图5-12 Thomson mp3PRO5-12 Thomson mp3PRO播放器播放器mp3PROmp3PRO的特点是降低了压缩比，并可以在的特点是降低了压缩

96、比，并可以在64KB/s64KB/s速率下最大限度地保速率下最大限度地保持压缩前的音质。音乐文件大小只有原持压缩前的音质。音乐文件大小只有原MP3MP3文件的文件的1 12 2。同时，。同时，MP3ProMP3Pro实现了高低版本的完全兼容，所以它的文件类型也是实现了高低版本的完全兼容，所以它的文件类型也是mp3mp3。高版本的高版本的MP3ProMP3Pro播放器也可以播放低版本的播放器也可以播放低版本的MP3MP3文件，低版本的播放器也可以播文件，低版本的播放器也可以播放高版本的放高版本的MP3ProMP3Pro文件，但只能播放出文件，但只能播放出mp3mp3的音质。的音质。 5.4.4

97、Real Media5.4.4 Real Media格式格式 Real MediaReal Media是网络流媒体文件格式。其中包含是网络流媒体文件格式。其中包含RARA、RMARMA这两个音频文件类这两个音频文件类型是由型是由Real NetworksReal Networks公司推出的，特点是可以在低达公司推出的，特点是可以在低达28.8kbps28.8kbps的带宽下的带宽下提供足够好的音质。提供足够好的音质。较成功的较成功的Real MediaReal Media播放器是播放器是Real One PlayerReal One Player，其界面如图所示。可以获其界面如图所示。可以获

98、得许多服务，包括录制音频、播放得许多服务，包括录制音频、播放CDCD或音频文件、管理文件、刻录或音频文件、管理文件、刻录CDCD，并具并具有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。有在网上搜索和播放流媒体、收听电台、收看节目频道等功能。在网络传输过程中，流媒体是被分割处理的。首先要将原来的音频分割成在网络传输过程中，流媒体是被分割处理的。首先要将原来的音频分割成多个带有顺序标记的小数据包，经过网络的实时传递后，在接收处将重新多个带有顺序标记的小数据包，经过网络的实时传递后，在接收处将重新按顺序组织这些数据包以提供播放。按顺序组织这些数据包以提供播放。 Windows Media

99、Windows Media MicrosoftMicrosoft推出的推出的Windows MediaWindows Media，也是一种网络流媒体技术。也是一种网络流媒体技术。Windows MediaWindows Media包含了包含了Windows Media Audio & Video Windows Media Audio & Video 编码和解码器、可选编码和解码器、可选集成数字权限管理系统和文件容器。集成数字权限管理系统和文件容器。其特点是高质量、高安全性、最全面的数字媒体格式。可用于其特点是高质量、高安全性、最全面的数字媒体格式。可用于 PCPC、机顶盒机顶盒和便携式设备上

100、的流式处理和下载并播放等应用程序。和便携式设备上的流式处理和下载并播放等应用程序。 Windows MediaWindows Media使用高级的系统格式文件容器，支持高达使用高级的系统格式文件容器，支持高达17001700万万TBTB的文件大小。的文件大小。在一个文件中可存储音频、多比特率视频、元数据（如文件的标题和作者）在一个文件中可存储音频、多比特率视频、元数据（如文件的标题和作者）以及索引和脚本命令。以及索引和脚本命令。为了确保内容与兼容的播放机相关联，提供了多种不同的文件扩展名，如表为了确保内容与兼容的播放机相关联，提供了多种不同的文件扩展名，如表5-45-4所示。所示。 WMAWM

101、A用于包括利用用于包括利用 Windows Media Audio Windows Media Audio 编解码器压缩的音频的文件，编解码器压缩的音频的文件，WMVWMV用于同时包括利用用于同时包括利用 Windows Media Audio Windows Media Audio 和和 Windows Media Video Windows Media Video 编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该编解码器压缩的音频和视频的文件。利用其他编解码器压缩的内容应该存储在文件中，应使用存储在文件中，应使用ASFASF扩展名。扩展名。表表5-4WindowsMedia

102、支持的文件扩展名支持的文件扩展名扩扩展名展名说明说明.wmv基于基于 Windows Media Windows Media 的文件，同时包含视频和音频的文件，同时包含视频和音频 .wma基于基于 Windows Media Windows Media 的文件，只包含音频的文件，只包含音频 .wvx元文件，指向元文件，指向 Windows Media Video (.WMV) Windows Media Video (.WMV) 文件文件 .wax元文件，指向元文件，指向 Windows Media Audio (.WMA) Windows Media Audio (.WMA) 文件文件 .a

103、sfASF结结构构的的文文件件，包包含含利利用用其其它它编编解解码码器器压压缩缩的的音音频频和和/ /或视频内容或视频内容 .asx元文件，指向元文件，指向 ASF ASF 结构的文件结构的文件 (.ASF)(.ASF).wmsWindowsMedia外外观观文文件件，与与Windows Windows Media Media Player Player 7 7或高版本兼容或高版本兼容 .wmz压压缩缩的的Windows Windows MediaMedia文文件件，与与Windows Windows Media Media Player Player 7 7 或更高版本兼容或更高版本兼容 .

104、wmdWindows Media下下载载软软件件包包，与与 Windows Windows Media Media Player 7 Player 7 或更高版本兼容或更高版本兼容常见音频格式的小结常见音频格式的小结WAV WAV wavwav Microsoft Microsoft 可通过增加驱动程序而支持各种各样的编码技术。不适于传播和用作聆听。支持的编码技术大部分只能在Windows平台下使用。音频原始素材保存。mp3(MPEG 音频) mp3 （包括mp2 mp1 mpa等） Fraunhofer-IIS 在低至128kbps的比特率下提供接近CD音质的音频质量。广泛的支持。出

105、现得比较早，因此音质不是很好。一般聆听和高保真聆听。mp3PRO mp3 Fraunhofer-IIS CodingTechnologies Thomson Multimedia在低至64kbps的比特率下提供接近CD音质的音频质量。专利费用较高，支持的软件和硬件不多。一般聆听和高保真聆听。 RealMedia ra, rma RealNetworks在极低的比特率环境下提供可听的音频质量。不适于除网络传播之外的用途。音质不是很好。网络音频流传输。Windows Media wma, Windows Media wma, asfasf Microsoft Microsoft 功能齐全，使用方

106、便。同时支持无失真、有失真、语音压缩方式。失真压缩方式下音质不高。必须在Windows平台下才能使用。音频档案级别保存，一般聆听，网络音频流传输。 MIDI MID MIDI RMI XMI MIDI AssociationMIDI MID MIDI RMI XMI MIDI Association 音频数据为乐器的演奏控制，通常不带有音频采样。没有波表硬件或软件配合时播放效果不佳。与电子乐器的数据交互，乐曲创作等。 OggOgg VorbisVorbis OGG OGG XiphXiph Foundation Foundation 在低至64kbps的比特率下提供接近CD音质的音频质

107、量。开放源代码，不需要支付使用许可费用。跨平台。发展较慢。推广力度不足。一般聆听和高保真聆听。VQF VQF vqfvqf tvqtvq NTT Human Interface Laboratories NTT Human Interface Laboratories 在低至96kbps的比特率下提供接近CD音质的音频质量。相关软件太少。一般聆听。 AiffAiff aiffaiff Apple Apple 可通过增加驱动程序而支持各种各样的编码技术一般限于苹果电脑平台使用。苹果电脑平台下音频原始素材保存。 Au Au auau Sun Sun Unix和Java平台下的标准文件格

108、式。支持的压缩技术太少且音频数据格式受文件格式本身局限。 Unix和Java平台下音频原始素材保存。5.5 5.5 音频文件的创作音频文件的创作音频文件的获取可通过音频文件的获取可通过3 3种途径：种途径：1 1、通过音频软件可以录音获取声音或语音。、通过音频软件可以录音获取声音或语音。2 2、通过网络或外接设备获取，例如网上下载、通过网络或外接设备获取，例如网上下载、电视接入、电视接入、CDCD设备或设备或CDCD光盘抓轨。光盘抓轨。3 3、通过现有的电子音频素材库。、通过现有的电子音频素材库。诸多的音频处理软件各自具有独道之处。诸多的音频处理软件各自具有独道之处。如如cakewalk

109、cakewalk软件是专门用于制作软件是专门用于制作MIDIMIDI音乐音乐的；擅长处理波形的软件有的；擅长处理波形的软件有Sound Sound Recorder Recorder 、Wave EditWave Edit、Cool EditCool Edit、DexsterDexster等。适合在网上播放、记录和保等。适合在网上播放、记录和保存到存到 MP3 MP3 文件的软件有文件的软件有AV VCS Gold AV VCS Gold ，在网上能够戏剧性地改变用户声音的软件在网上能够戏剧性地改变用户声音的软件代表有代表有AV Voice Changer Diamond AV Voice C

110、hanger Diamond EditionEdition。下面仅作个别介绍。下面仅作个别介绍。 5.5.1 Cool Edit 5.5.1 Cool Edit Cool Edit Pro 2.0Cool Edit Pro 2.0的功能特点的功能特点 Cool Edit Pro 2.0Cool Edit Pro 2.0软件提供软件提供32-bit32-bit高精高精度音频处理，支持度音频处理，支持 SMPTE/MTC MasterSMPTE/MTC Master、视频、视频、CDCD、MIDIMIDI、等设备。支持等设备。支持US-428US-428硬硬件控制器。能方便地抓取件控制器。能方便地

111、抓取CDCD音轨，也能抽音轨，也能抽取并编辑视频文件中的音频。取并编辑视频文件中的音频。 Cool Edit Pro 2.0Cool Edit Pro 2.0为每一轨提供了实时为每一轨提供了实时效果器、实时均衡处理器。提供超过效果器、实时均衡处理器。提供超过 40 40 种音频效果器。种音频效果器。该软件支持单轨或多轨编辑模式，编辑该软件支持单轨或多轨编辑模式，编辑时可互相切换。同时具有强大的音频编时可互相切换。同时具有强大的音频编辑功能，支持可选的插件、崩溃恢复、辑功能，支持可选的插件、崩溃恢复、自动静音检测和删除、自动节拍查找、自动静音检测和删除、自动节拍查找、录制等。可以创建音调、歌曲

112、、声音、录制等。可以创建音调、歌曲、声音、弦乐、颤音、噪音。并在单轨和多轨编弦乐、颤音、噪音。并在单轨和多轨编辑模式下，分别提供了不同的编辑功能。辑模式下，分别提供了不同的编辑功能。软件还提供了音频分析器和相位分析器。软件还提供了音频分析器和相位分析器。 Cool EditCool Edit的界面的界面播放控制播放控制缩放控制缩放控制当前时间当前时间音节属性音节属性所选部分和视图中音频属性所选部分和视图中音频属性文件管理窗口文件管理窗口调音窗口调音窗口工具栏工具栏图图5-14 Cool Edit5-14 Cool Edit的默认界面的默认界面 Cool EditCool Edit主菜单主菜单

113、多轨模式的主菜单有多轨模式的主菜单有7 7个子菜单，分别是个子菜单，分别是文件、编辑、视图、插入、效果、选项和文件、编辑、视图、插入、效果、选项和帮助。单轨模式的主菜单有帮助。单轨模式的主菜单有1010个子菜单，个子菜单，分别是文件、编辑、视图、效果、产生、分别是文件、编辑、视图、效果、产生、分析、爱好、选项、窗口和帮助。分析、爱好、选项、窗口和帮助。 Cool EditCool Edit的工具栏的工具栏 Cool EditCool Edit有许多工具条，如图有许多工具条，如图5-155-15所示。所示。根据需要可在根据需要可在View/ToolbarView/Toolbar中选择。中选择。

114、图图5-15CoolEdit的工具的工具多轨模式下包括多轨文件工具、多轨编多轨模式下包括多轨文件工具、多轨编辑工具、多轨视图工具、多轨选项工具辑工具、多轨视图工具、多轨选项工具和显示和显示/ /隐含工具隐含工具. . 单轨模式下，包括文件、编辑、视图、单轨模式下，包括文件、编辑、视图、选项、分析、产生、振幅、延迟、选项、分析、产生、振幅、延迟、DirectXDirectX、过滤、降低噪声、特殊、时间过滤、降低噪声、特殊、时间/ /音调和窗口等工具。音调和窗口等工具。 Cool EditCool Edit的音轨界面的音轨界面多轨模式下的音轨界面如图多轨模式下的音轨界面如图5-165-16所示

115、，每个音轨所示，每个音轨都可以进行声量、均衡和声道控制，其中都可以进行声量、均衡和声道控制，其中“R R、S S、M”M”控制按钮。可分别控制控制按钮。可分别控制“M”M”（MUTEMUTE）静音、静音、“S”S”（SOLOSOLO）独奏、独奏、“R”R”（ARMARM）录音激活。录音激活。图图5-16 5-16 多轨模式下的音轨多轨模式下的音轨 Cool EditCool Edit的编辑过程的编辑过程数字音频编辑的一般经历以下数字音频编辑的一般经历以下5 5个步骤：个步骤： 1.1.创建新文件，录制声音或从创建新文件，录制声音或从CDCD、视频文视频文件中导入音频。或打开现有音频的文件。

116、件中导入音频。或打开现有音频的文件。 2.2.设置音频文件必要的参数。设置音频文件必要的参数。 3.3.对需要处理的各个音频文件进行单轨编对需要处理的各个音频文件进行单轨编辑和效果处理。辑和效果处理。 4.4.在多轨模式下，对多个音轨进行剪切、在多轨模式下，对多个音轨进行剪切、粘贴、合并、重叠声音等编辑。粘贴、合并、重叠声音等编辑。 5.5.保存或输入所编辑的音频文件。保存或输入所编辑的音频文件。 5.5.2 5.5.2 音乐制作音乐制作cakewalk cakewalk CakewalkCakewalk是一个音序处理软件，具有比是一个音序处理软件，具有比较完善的较完善的MIDIMIDI作曲和

117、编辑、音频处理和作曲和编辑、音频处理和格式转换功能。本节通过介绍格式转换功能。本节通过介绍Cakewalk Cakewalk pro audio 9.03pro audio 9.03中文版的基本功能和使中文版的基本功能和使用方法。用方法。 CakewalkCakewalk的功能特点的功能特点 CakewalkCakewalk软件提供了一个快速、高效地创软件提供了一个快速、高效地创作音乐和声音的集成环境，可用来录制、作音乐和声音的集成环境，可用来录制、编辑和播放编辑和播放MIDIMIDI乐曲。乐曲。软件为每个音序文件提供多达软件为每个音序文件提供多达256256个同步个同步音轨，每个音轨可创建不

118、同乐器所演奏的音轨，每个音轨可创建不同乐器所演奏的乐曲。同时，乐曲。同时，CakewalkCakewalk支持支持MIDIMIDI设备、乐设备、乐器、音频和视频编辑界面，利用器、音频和视频编辑界面，利用CakewalkCakewalk软件，不仅能获得优美的音序效果，同时软件，不仅能获得优美的音序效果，同时还可输出相对应的具有歌词、表情示意在还可输出相对应的具有歌词、表情示意在内的五线乐谱。内的五线乐谱。 CakewalkCakewalk提供了强大的处理功能。能对提供了强大的处理功能。能对音轨进行除去小误事件、平移、量化、音轨进行除去小误事件、平移、量化、模板量化、插入替换等等多种处理。对模板量

119、化、插入替换等等多种处理。对其他音频文件可进行合并、常规编辑和其他音频文件可进行合并、常规编辑和特效处理。特效处理。可在音轨上插入音色库可在音轨上插入音色库/ /音色改变、拍号音色改变、拍号/ /调号改变、速度改变、时间调号改变、速度改变、时间/ /小节、标小节、标记、声波文件、视频文件、系列控制器记、声波文件、视频文件、系列控制器变化、和系列速度变化。任意地移动音变化、和系列速度变化。任意地移动音轨或音节。还具有对音轨独特的处理功轨或音节。还具有对音轨独特的处理功能，如静音、存档、独奏、激活录音特能，如静音、存档、独奏、激活录音特性等处理。性等处理。在播放方面，在播放方面，Cakewal

120、kCakewalk提供了便捷的播提供了便捷的播放控制工具与自定义乐曲播放列表。同放控制工具与自定义乐曲播放列表。同时，时，CakewalkCakewalk还允许实时更新音色缓存还允许实时更新音色缓存和选择不同的速度比率。和选择不同的速度比率。在录音方面，在录音方面，CakewalkCakewalk提供了采用混提供了采用混合式、替换式或自动替换式三种录音合式、替换式或自动替换式三种录音模式，录音时允许进行单步录音、循模式，录音时允许进行单步录音、循环及自动往返，录音后可指定所录音环及自动往返，录音后可指定所录音得片断应存储的目标位置、或丢弃循得片断应存储的目标位置、或丢弃循环录音废片。环录音废

121、片。 Cakewalk pro audio 9.03Cakewalk pro audio 9.03的界面的界面图图5-17 Cakewalk5-17 Cakewalk软件工作环境软件工作环境如图如图5-175-17所示，所示，CakewalkCakewalk软件界面包软件界面包括主菜单、工具栏、编辑窗口和状态括主菜单、工具栏、编辑窗口和状态栏。主菜单提供了文件、编辑、查看、栏。主菜单提供了文件、编辑、查看、插入、实时、移至、音轨、工具、选插入、实时、移至、音轨、工具、选项、窗口和帮助等项、窗口和帮助等1111个子菜单。软件个子菜单。软件可提供可提供1313个工具栏，包括：标准、循个工具栏，

122、包括：标准、循环、标记、节拍器、位置、录音、独环、标记、节拍器、位置、录音、独奏、选择、系统、速度、走带控制器、奏、选择、系统、速度、走带控制器、走带控制器（大号）和视图。其中与走带控制器（大号）和视图。其中与编辑和播放控制较为直接的是如下描编辑和播放控制较为直接的是如下描述的述的“视图视图”、“速度速度”、“走带控走带控制器制器”、“位置位置”等四种工具栏。等四种工具栏。 “视图视图”工具栏提供钢琴卷帘、时间列工具栏提供钢琴卷帘、时间列表、五线谱、音频、歌词、和录音室设表、五线谱、音频、歌词、和录音室设备控件。还有调音控制台、视频、大号备控件。还有调音控制台、视频、大号时间显示、编辑、速度、

123、拍号时间显示、编辑、速度、拍号/ /调号、和调号、和系统专用信息等窗口。系统专用信息等窗口。 “速度速度”工具栏提供速度输入、速度比率工具栏提供速度输入、速度比率选择按钮，如图选择按钮，如图5-185-18所示。所示。图图5-18 Cakewalk5-18 Cakewalk的的“速度速度”工具栏工具栏 “走带控制器走带控制器”工具栏提供音乐的倒带、工具栏提供音乐的倒带、停止、播放和去往结尾等操作按钮。停止、播放和去往结尾等操作按钮。“选择选择”工具栏可设置播放开始和结束的工具栏可设置播放开始和结束的位置，以便标记所要播放音乐片段位置。位置，以便标记所要播放音乐片段位置。如图如图5-195-1

124、9所示。所示。图图5-19 Cakewalk5-19 Cakewalk的走带控制器和选择控制器的走带控制器和选择控制器 “位置位置”工具栏可用来随时调整需要播放工具栏可用来随时调整需要播放的位置，并动态显示当前播放的位置。的位置，并动态显示当前播放的位置。“循环循环”工具栏提供了循环开关、循环开始工具栏提供了循环开关、循环开始和结束设置、设置循环为选择的部分、循和结束设置、设置循环为选择的部分、循环及自动往返等功能。如图环及自动往返等功能。如图5-205-20所示。所示。图图5-20 Cakewalk5-20 Cakewalk的位置控制器和循环控制器的位置控制器和循环控制器 Cakewal

125、kCakewalk的编辑窗口的编辑窗口如图如图5-215-21所示的是一个音序文件的音轨所示的是一个音序文件的音轨窗口，有多个音轨，每个音轨分为音轨窗口，有多个音轨，每个音轨分为音轨的文件属性和轨迹属性两大部分。从文的文件属性和轨迹属性两大部分。从文件属性部分可见有件属性部分可见有6 6个音轨，名称分别为个音轨，名称分别为PianoPiano、bassbass、SaxSax、Pad 2Pad 2、DrumsDrums、ShakerShaker。在轨迹属性部分，显示了具有在轨迹属性部分，显示了具有不同的颜色和随着时间而变化的波形。不同的颜色和随着时间而变化的波形。图图5-21 Cakewal

126、k5-21 Cakewalk的音轨的音轨窗口窗口文文件件属属性性音音轨轨属属性性MIDIMIDI作曲作曲通过通过CakewalkCakewalk创作创作MIDIMIDI音乐有多种方法。音乐有多种方法。下面以五线谱为例，介绍作曲的基本方下面以五线谱为例，介绍作曲的基本方法。法。图图5-22 Cakewalk5-22 Cakewalk五线谱视图五线谱视图五线谱的写谱工具五线谱的写谱工具打开五线谱视图，上面提供了一系列的写打开五线谱视图，上面提供了一系列的写谱工具，如图谱工具，如图5-225-22所示：所示： (1) (1) 是基本音符工具，是基本音符工具，作为写谱笔使用前的选择项目

127、；作为写谱笔使用前的选择项目； (2) (2) 分分别别是歌是歌词词、和弦、表、和弦、表情情记记号、号、渐渐强强渐渐弱、踏板附加写作工具；弱、踏板附加写作工具； (3) (3) 是是选择选择工具，用来工具，用来选择选择所需要的一所需要的一条音条音轨轨事件，或与事件，或与ShiftShift键键配合配合选择选择多多轨轨事事件。如果按住件。如果按住ALTALT键键，同，同时时用鼠用鼠标标的拖拉操的拖拉操作，可以作，可以选择选择出音出音轨轨中的片段；中的片段； (4) (4) 写写谱谱笔，可以直接在五笔，可以直接在五线谱线谱上点上点击击，写出事先，写出事先选择选择的音符；的音符； (5) (5) 橡

128、皮擦，可以直接在五橡皮擦，可以直接在五线谱线谱上点上点击击，擦除所点，擦除所点击击的音符；的音符； (6) (6) 是音是音乐预览乐预览按按钮钮，它可以通，它可以通过过鼠鼠标标在五在五线谱线谱上拖曳得到音上拖曳得到音乐乐的直接播放；的直接播放； (7) (7) 是时值琐定按钮，用来设置音符选是时值琐定按钮，用来设置音符选择的最小单位。用鼠标右键单击该按钮，择的最小单位。用鼠标右键单击该按钮，就可打开就可打开“网格定位网格定位”对话框。选择所对话框。选择所需要的音符时值。需要的音符时值。在在图图5-225-22所示的所示的CakewalkCakewalk五线谱视图窗五线谱视图窗口中，选择工具栏

129、上所需的工具，就可口中，选择工具栏上所需的工具，就可在下面的工作区直接写谱。在下面的工作区直接写谱。写谱的一般步骤写谱的一般步骤 (1) (1) 使用使用“显显示分辨率示分辨率” ，点，点击击下拉下拉按按钮钮，在下拉列表中，在下拉列表中选择选择要要显显示的音符。示的音符。 (2)(2)在在中中选择选择想要写想要写出的基本音符。出的基本音符。 (3) (3) 选择选择“写写谱谱笔笔”按按钮钮，然后移，然后移动动鼠鼠标标，在五，在五线谱线谱上直接点上直接点击击就可以写出就可以写出乐谱乐谱。 (4) (4) 选择选择附加写作工具附加写作工具中中所需的工具，在五所需的工具，在五线谱线谱上下部位

130、分上下部位分别别写上歌写上歌词词、和弦、表情、和弦、表情记记号、号、渐渐强强渐渐弱、踏板等内容。弱、踏板等内容。 (5) (5) 如果需要，可以使用橡皮擦来擦除如果需要，可以使用橡皮擦来擦除错错写的音符或写的音符或标记标记，以便重写。，以便重写。本章小本章小结结数字音频主要分为声波、语音和音乐三数字音频主要分为声波、语音和音乐三类。声音是纵波，形如正弦形，声音与类。声音是纵波，形如正弦形，声音与强度、时空性、方向性取决于声波的振强度、时空性、方向性取决于声波的振幅、频率和相位等物理特性。复杂的声幅、频率和相位等物理特性。复杂的声波就是由多个具有不同特性的纵波组成波就是由多个具有不同特性的纵波

131、组成的。语音是音素、音位到句子音段、轻的。语音是音素、音位到句子音段、轻重音到语调等语音手段的统称。重音到语调等语音手段的统称。MIDIMIDI是是数字化音乐设备的标准协议，数字化音乐设备的标准协议，MIDIMIDI音乐音乐也被称为合成音乐或电脑。也被称为合成音乐或电脑。人耳听觉心理的主观感受主要有响度、人耳听觉心理的主观感受主要有响度、音高、音色、音量、密度、谐和、噪声、音高、音色、音量、密度、谐和、噪声、掩蔽效应、高频定位等特性。我们所创掩蔽效应、高频定位等特性。我们所创建数字音频必须要符合人类的听觉特征建数字音频必须要符合人类的听觉特征和听力范围。和听力范围。模拟声音经过采样、量化和

132、编码后才能模拟声音经过采样、量化和编码后才能在计算机中进行处理。而通过脉冲编码在计算机中进行处理。而通过脉冲编码调制技术，可以同样的采样频率转换为调制技术，可以同样的采样频率转换为电压值去还原声音。电压值去还原声音。计算机对语音的处理主要包括对语音的计算机对语音的处理主要包括对语音的采样、识别、模拟和合成。目前，语音采样、识别、模拟和合成。目前，语音的自动识别基本上采用孤立词的模式匹的自动识别基本上采用孤立词的模式匹配识别和有限词汇的连续识别。配识别和有限词汇的连续识别。 MIDIMIDI标准文件包括通信协议、连接器和标准文件包括通信协议、连接器和传播格式。传播格式。MIDIMIDI的基本设备包括音源、的基本设备包括音源、音序器、输入设备。目前的音序器、输入设备。目前的MIDIMIDI设备和设备和计算机合成音乐基本上都建立在计算机合成音乐基本上都建立在GMGM标准标准的基础上。的基础上。

展开阅读全文

第5章音频技术

最新文档