《多媒体技术应用音频处理技术》由会员分享,可在线阅读,更多相关《多媒体技术应用音频处理技术(78页珍藏版)》请在金锄头文库上搜索。
1、多媒体技术应用多媒体技术应用Email:Email:2013-2014-21多媒体技术应用音频处理技术第二章第二章 音频处理技术音频处理技术n n2.12.12.12.1 音频基本原理音频基本原理音频基本原理音频基本原理2.1.12.1.12.1.12.1.1 人类听觉特性人类听觉特性人类听觉特性人类听觉特性2.1.22.1.22.1.22.1.2 数字音频数字音频数字音频数字音频 2.1.3 2.1.3 声音声音声音声音 2.1.4 2.1.4 语音语音语音语音n n2.22.22.22.2常用音频压缩标准常用音频压缩标准常用音频压缩标准常用音频压缩标准2.2.12.2.12.2.12.2.
2、1音频压缩基础音频压缩基础音频压缩基础音频压缩基础2.2.22.2.22.2.22.2.2常用音频压缩标准常用音频压缩标准常用音频压缩标准常用音频压缩标准2.2.32.2.32.2.32.2.3音频文件格式音频文件格式音频文件格式音频文件格式n n2.32.32.32.3音频处理软件音频处理软件音频处理软件音频处理软件AuditionAudition2.3.12.3.12.3.12.3.1功能介绍功能介绍功能介绍功能介绍2.3.22.3.22.3.22.3.2编辑环境编辑环境编辑环境编辑环境2.3.32.3.32.3.32.3.3基本操作基本操作基本操作基本操作2多媒体技术应用音频处理技术第二
3、章第二章 音频处理技术音频处理技术n n2.12.1 音频基本原理音频基本原理2.1.12.1.1 人类听觉特性人类听觉特性2.1.22.1.2 数字音频数字音频2.1.3 声音声音2.1.4 语音语音3多媒体技术应用音频处理技术近十年来,随着计算机技术的高速发展,以及能同近十年来,随着计算机技术的高速发展,以及能同近十年来,随着计算机技术的高速发展,以及能同近十年来,随着计算机技术的高速发展,以及能同时满足数字信号的高压缩率和数字信号的高保真时满足数字信号的高压缩率和数字信号的高保真时满足数字信号的高压缩率和数字信号的高保真时满足数字信号的高压缩率和数字信号的高保真透明重放质量的压缩算法及标
4、准得到大量开发与透明重放质量的压缩算法及标准得到大量开发与透明重放质量的压缩算法及标准得到大量开发与透明重放质量的压缩算法及标准得到大量开发与使用,数字音频已经广泛应用于因特网、多媒体使用,数字音频已经广泛应用于因特网、多媒体使用,数字音频已经广泛应用于因特网、多媒体使用,数字音频已经广泛应用于因特网、多媒体及无线通信系统,及无线通信系统,及无线通信系统,及无线通信系统,CDCDCDCD品质的数字音频品质的数字音频品质的数字音频品质的数字音频已经从根本已经从根本已经从根本已经从根本上替代了模拟音频。因此,人们对音频信号数字上替代了模拟音频。因此,人们对音频信号数字上替代了模拟音频。因此,人们对
5、音频信号数字上替代了模拟音频。因此,人们对音频信号数字化处理提出了越来越高的要求,相应软硬件实现化处理提出了越来越高的要求,相应软硬件实现化处理提出了越来越高的要求,相应软硬件实现化处理提出了越来越高的要求,相应软硬件实现手段的效率也在不断提高。手段的效率也在不断提高。手段的效率也在不断提高。手段的效率也在不断提高。4多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性音频信号的感知过程与人耳的听觉系统密不可分。音频信号的感知过程与人耳的听觉系统密不可分。音频信号的感知过程与人耳的听觉系统密不可分。音频信号的感知过程与人耳的听觉系统密不可分。对于对于对于对于人类听力感知人类
6、听力感知人类听力感知人类听力感知的研究,其范围从人耳的生理的研究,其范围从人耳的生理的研究,其范围从人耳的生理的研究,其范围从人耳的生理设计到大脑对听觉信息的解释。当前,大部分感设计到大脑对听觉信息的解释。当前,大部分感设计到大脑对听觉信息的解释。当前,大部分感设计到大脑对听觉信息的解释。当前,大部分感知音频的编码算法都是基于心理声学模型的。知音频的编码算法都是基于心理声学模型的。知音频的编码算法都是基于心理声学模型的。知音频的编码算法都是基于心理声学模型的。5多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性1 1 1 1听阈与听域听阈与听域听阈与听域听阈与听域2 2
7、2 2音调音调音调音调3 3 3 3响度和响度级响度和响度级响度和响度级响度和响度级4 4 4 4绝对听觉门限绝对听觉门限绝对听觉门限绝对听觉门限5 5 5 5临界频带临界频带临界频带临界频带6 6 6 6同时掩蔽同时掩蔽同时掩蔽同时掩蔽7 7 7 7异时掩蔽异时掩蔽异时掩蔽异时掩蔽8 8 8 8感知熵感知熵感知熵感知熵6多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性1 1 1 1听阈与听域听阈与听域听阈与听域听阈与听域听阈(听阈(听阈(听阈(Auditory ThresholdAuditory ThresholdAuditory ThresholdAuditory
8、Threshold)就是指人能听到的)就是指人能听到的)就是指人能听到的)就是指人能听到的最最最最低声压级低声压级低声压级低声压级(Sound Power LevelSound Power LevelSound Power LevelSound Power Level,SPLSPLSPLSPL)。)。)。)。听域(听域(听域(听域(Audible AreaAudible AreaAudible AreaAudible Area)是指)是指)是指)是指人能感知的声音的范围人能感知的声音的范围人能感知的声音的范围人能感知的声音的范围,正常人耳能够感知的频率范围大致是正常人耳能够感知的频率范围大致是
9、正常人耳能够感知的频率范围大致是正常人耳能够感知的频率范围大致是20Hz20Hz20Hz20Hz20kHz20kHz20kHz20kHz;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是;正常人能感知声音的声压级范围是0 0 0 0128dB128dB128dB128dB。7多媒体技术应用音频处理技术图图2-1 2-1 听阈听阈- -频率曲线频率曲线 8多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性2 2 2 2音调音调音调音调音调(音调(音调(音调(PitchPitchPitchPitch)在物理学中是指)在物理学中是指
10、)在物理学中是指)在物理学中是指声音的高低声音的高低声音的高低声音的高低,实际上,实际上,实际上,实际上就是指人耳对不同频率声音的一种主观感受。就是指人耳对不同频率声音的一种主观感受。就是指人耳对不同频率声音的一种主观感受。就是指人耳对不同频率声音的一种主观感受。音音音音调主要由声音的频率决定调主要由声音的频率决定调主要由声音的频率决定调主要由声音的频率决定,同时也与声音强度有,同时也与声音强度有,同时也与声音强度有,同时也与声音强度有关。频率高的声音,人感觉其音调也较高,反之,关。频率高的声音,人感觉其音调也较高,反之,关。频率高的声音,人感觉其音调也较高,反之,关。频率高的声音,人感觉其音
11、调也较高,反之,人感知音调低的声音其频率也低。人感知音调低的声音其频率也低。人感知音调低的声音其频率也低。人感知音调低的声音其频率也低。对音调可以进行定量的判断,其度量单位为对音调可以进行定量的判断,其度量单位为对音调可以进行定量的判断,其度量单位为对音调可以进行定量的判断,其度量单位为美美美美(MelMelMelMel),),),),定义一个声压级为定义一个声压级为定义一个声压级为定义一个声压级为40dB40dB40dB40dB,频率为,频率为,频率为,频率为1kHz1kHz1kHz1kHz的的的的纯音的音调为纯音的音调为纯音的音调为纯音的音调为1000Mel1000Mel1000Mel10
12、00Mel。9多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性3 3 3 3响度和响度级响度和响度级响度和响度级响度和响度级响度(响度(响度(响度(LoudnessLoudnessLoudnessLoudness)是)是)是)是人耳感受声音强弱人耳感受声音强弱人耳感受声音强弱人耳感受声音强弱的主观感觉的主观感觉的主观感觉的主观感觉程度,这种感觉与音强、频率和波形都有关系,程度,这种感觉与音强、频率和波形都有关系,程度,这种感觉与音强、频率和波形都有关系,程度,这种感觉与音强、频率和波形都有关系,其度量单位为宋(其度量单位为宋(其度量单位为宋(其度量单位为宋(SoneSo
13、neSoneSone),定义一个声压级为),定义一个声压级为),定义一个声压级为),定义一个声压级为40dB40dB40dB40dB,频率为,频率为,频率为,频率为1kHz1kHz1kHz1kHz的纯音的响度为的纯音的响度为的纯音的响度为的纯音的响度为1Sone1Sone1Sone1Sone。响度级(响度级(响度级(响度级(Loudness LevelLoudness LevelLoudness LevelLoudness Level)是)是)是)是指某响度与基准响度指某响度与基准响度指某响度与基准响度指某响度与基准响度相比的等级相比的等级相比的等级相比的等级,其度量单位为方(,其度量单位为方
14、(,其度量单位为方(,其度量单位为方(PhonPhonPhonPhon),定义),定义),定义),定义1kHz1kHz1kHz1kHz纯音的响度级为纯音的响度级为纯音的响度级为纯音的响度级为1Phon1Phon1Phon1Phon。10多媒体技术应用音频处理技术图图2-2 2-2 人耳可听最小响度曲线人耳可听最小响度曲线 11多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性4 4 4 4绝对听觉门限绝对听觉门限绝对听觉门限绝对听觉门限绝对听觉门限(绝对听觉门限(绝对听觉门限(绝对听觉门限(Absolute Threshold of HearingAbsolute Thr
15、eshold of HearingAbsolute Threshold of HearingAbsolute Threshold of Hearing,ATHATHATHATH)指一个人在没有噪声的环境下,能够产生听)指一个人在没有噪声的环境下,能够产生听)指一个人在没有噪声的环境下,能够产生听)指一个人在没有噪声的环境下,能够产生听觉,感知到一个纯音信号(某频率点)的最小能觉,感知到一个纯音信号(某频率点)的最小能觉,感知到一个纯音信号(某频率点)的最小能觉,感知到一个纯音信号(某频率点)的最小能量幅度。量幅度。量幅度。量幅度。 绝对听觉门限用声压级表示,静音为绝对听觉门限用声压级表示,静音
16、为绝对听觉门限用声压级表示,静音为绝对听觉门限用声压级表示,静音为0dB0dB0dB0dB,痛阈为,痛阈为,痛阈为,痛阈为140dB140dB140dB140dB。 12多媒体技术应用音频处理技术图图2-3 2-3 绝对听觉门限曲线绝对听觉门限曲线 13多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性5 5 5 5临界频带临界频带临界频带临界频带指一个纯音可以被以它为中心频率,并且具有一定指一个纯音可以被以它为中心频率,并且具有一定指一个纯音可以被以它为中心频率,并且具有一定指一个纯音可以被以它为中心频率,并且具有一定频带宽度的连续噪声所掩蔽,在这一频带内噪声频带宽度的
17、连续噪声所掩蔽,在这一频带内噪声频带宽度的连续噪声所掩蔽,在这一频带内噪声频带宽度的连续噪声所掩蔽,在这一频带内噪声功率等于该纯音的功率。使该纯音处于刚能被听功率等于该纯音的功率。使该纯音处于刚能被听功率等于该纯音的功率。使该纯音处于刚能被听功率等于该纯音的功率。使该纯音处于刚能被听到的临界状态,即称这一带宽为临界频带宽度。到的临界状态,即称这一带宽为临界频带宽度。到的临界状态,即称这一带宽为临界频带宽度。到的临界状态,即称这一带宽为临界频带宽度。临界频带的单位为巴克(临界频带的单位为巴克(临界频带的单位为巴克(临界频带的单位为巴克(BarkBarkBarkBark)。)。)。)。14多媒体技
18、术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性6 6 6 6同时掩蔽同时掩蔽同时掩蔽同时掩蔽掩蔽效应是指当两个响度不等的声音作用于掩蔽效应是指当两个响度不等的声音作用于人耳时,响度较高的频率成分的存在会影人耳时,响度较高的频率成分的存在会影响到对响度较低的频率成分的感知。响到对响度较低的频率成分的感知。 当两个或更多的音频信号到达人内耳时,掩当两个或更多的音频信号到达人内耳时,掩蔽声与被掩蔽声同时作用发生掩蔽效应,蔽声与被掩蔽声同时作用发生掩蔽效应,就称同时掩蔽。就称同时掩蔽。15多媒体技术应用音频处理技术2.1.12.1.1 人类听觉特性人类听觉特性7 7 7 7异时掩蔽异
19、时掩蔽异时掩蔽异时掩蔽指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的指掩蔽效应发生在掩蔽声与被掩蔽声不同时出现的情况下。情况下。情况下。情况下。若掩蔽声音出现之前的一段时间内发生掩蔽效应,若掩蔽声音出现之前的一段时间内发生掩蔽效应,若掩蔽声音出现之前的一段时间内发生掩蔽效应,若掩蔽声音出现之前的一段时间内发生掩蔽效应,则称为超前掩蔽,否则称为滞后掩蔽。则称为超前掩蔽,否则称为滞后掩蔽。则称为超前掩蔽,否则称为滞后掩蔽。则称为超前掩蔽,否则称为滞后掩蔽。 16多媒体技术应用音频处理技术2.1.12.1.1 人类
20、听觉特性人类听觉特性8 8 8 8感知熵感知熵感知熵感知熵感知熵(感知熵(感知熵(感知熵(Perceptual EntropyPerceptual EntropyPerceptual EntropyPerceptual Entropy)指利用心理声学的)指利用心理声学的)指利用心理声学的)指利用心理声学的掩蔽现象和信号能量化原理来测量音频信号中感掩蔽现象和信号能量化原理来测量音频信号中感掩蔽现象和信号能量化原理来测量音频信号中感掩蔽现象和信号能量化原理来测量音频信号中感知相关的信息。一般以位(知相关的信息。一般以位(知相关的信息。一般以位(知相关的信息。一般以位(bitbitbitbit)作为
21、单位,实际)作为单位,实际)作为单位,实际)作为单位,实际上表示了音频信号压缩的理论极限。上表示了音频信号压缩的理论极限。上表示了音频信号压缩的理论极限。上表示了音频信号压缩的理论极限。17多媒体技术应用音频处理技术2.1.22.1.22.1.22.1.2 数字音频数字音频数字音频数字音频音频信号是音频信号是音频信号是音频信号是时间和幅度都连续变化的一维模拟信号时间和幅度都连续变化的一维模拟信号时间和幅度都连续变化的一维模拟信号时间和幅度都连续变化的一维模拟信号,要想在计算机中对它进行处理,就要将它变成时要想在计算机中对它进行处理,就要将它变成时要想在计算机中对它进行处理,就要将它变成时要想在
22、计算机中对它进行处理,就要将它变成时间和幅度都是离散的数字信号,所以间和幅度都是离散的数字信号,所以间和幅度都是离散的数字信号,所以间和幅度都是离散的数字信号,所以数字音频是数字音频是数字音频是数字音频是指音频信号经过离散化处理后再用一系列的数字指音频信号经过离散化处理后再用一系列的数字指音频信号经过离散化处理后再用一系列的数字指音频信号经过离散化处理后再用一系列的数字来表示的信号来表示的信号来表示的信号来表示的信号,其特点是保真度好,动态范围大。,其特点是保真度好,动态范围大。,其特点是保真度好,动态范围大。,其特点是保真度好,动态范围大。数字音频可分为数字音频可分为数字音频可分为数字音频可
23、分为波形声音波形声音波形声音波形声音、语音语音语音语音和和和和音乐音乐音乐音乐。波形声音。波形声音。波形声音。波形声音实际上包含了所有的声音形式,因此数字音频有实际上包含了所有的声音形式,因此数字音频有实际上包含了所有的声音形式,因此数字音频有实际上包含了所有的声音形式,因此数字音频有时也泛称为声音。时也泛称为声音。时也泛称为声音。时也泛称为声音。18多媒体技术应用音频处理技术n n2.1.22.1.2 数字音频数字音频用计算机来处理音频信号必须将模拟音频信号转换用计算机来处理音频信号必须将模拟音频信号转换用计算机来处理音频信号必须将模拟音频信号转换用计算机来处理音频信号必须将模拟音频信号转换
24、成有限个数字表示的离散序列,过程为:成有限个数字表示的离散序列,过程为:成有限个数字表示的离散序列,过程为:成有限个数字表示的离散序列,过程为:选择采选择采选择采选择采样频率,即进行采样样频率,即进行采样样频率,即进行采样样频率,即进行采样;选择分辨率,即进行量化选择分辨率,即进行量化选择分辨率,即进行量化选择分辨率,即进行量化;最后编码形成声音文件。声音的采样与量化如图最后编码形成声音文件。声音的采样与量化如图最后编码形成声音文件。声音的采样与量化如图最后编码形成声音文件。声音的采样与量化如图所示。所示。所示。所示。19多媒体技术应用音频处理技术2.1.22.1.2 数字音频数字音频1.采样
25、采样采样(采样(采样(采样(SamplingSamplingSamplingSampling)指把模拟信号在时域上以)指把模拟信号在时域上以)指把模拟信号在时域上以)指把模拟信号在时域上以固定的时间间隔固定的时间间隔固定的时间间隔固定的时间间隔对波形的值进行抽取,再用若干位二进制数表示。对波形的值进行抽取,再用若干位二进制数表示。对波形的值进行抽取,再用若干位二进制数表示。对波形的值进行抽取,再用若干位二进制数表示。对声音波形对声音波形对声音波形对声音波形采样的频率直接影响声音的质量采样的频率直接影响声音的质量采样的频率直接影响声音的质量采样的频率直接影响声音的质量,采样频率越高,采样频率越高
26、,采样频率越高,采样频率越高,声音保真度越好,但所要求的数据存储量也越大。声音保真度越好,但所要求的数据存储量也越大。声音保真度越好,但所要求的数据存储量也越大。声音保真度越好,但所要求的数据存储量也越大。根据采样定理,当根据采样定理,当根据采样定理,当根据采样定理,当采样频率大于信号最高频率的两倍时采样频率大于信号最高频率的两倍时采样频率大于信号最高频率的两倍时采样频率大于信号最高频率的两倍时,在,在,在,在采样过程中就不会丢失信息,并且可以用采样后的信号重采样过程中就不会丢失信息,并且可以用采样后的信号重采样过程中就不会丢失信息,并且可以用采样后的信号重采样过程中就不会丢失信息,并且可以用
27、采样后的信号重构原始信号,从而不失真地还原出原始的声音信号。构原始信号,从而不失真地还原出原始的声音信号。构原始信号,从而不失真地还原出原始的声音信号。构原始信号,从而不失真地还原出原始的声音信号。对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:对于音频,最常用的采样频率有三种:44.1kHz44.1kHz44.1kHz44.1kHz、22.05 kHz22.05 kHz22.05 kHz22.05 kHz和和和和11.025 kHz11.025 kHz11.025 kHz11.025 kHz,其中,其中,其中,其中44.1kHz44.1k
28、Hz44.1kHz44.1kHz采样频率是最常用的。采样频率是最常用的。采样频率是最常用的。采样频率是最常用的。声道数是声音通道的个数,指一次采样的声道数是声音通道的个数,指一次采样的声道数是声音通道的个数,指一次采样的声道数是声音通道的个数,指一次采样的声音波形个数声音波形个数声音波形个数声音波形个数。 20多媒体技术应用音频处理技术2.1.22.1.2 数字音频数字音频2.量化量化量化(量化(量化(量化(QuantityQuantityQuantityQuantity)的目的是将采样后的信号波形的)的目的是将采样后的信号波形的)的目的是将采样后的信号波形的)的目的是将采样后的信号波形的幅度
29、值(样本)进行离散化处理,样本从模拟量幅度值(样本)进行离散化处理,样本从模拟量幅度值(样本)进行离散化处理,样本从模拟量幅度值(样本)进行离散化处理,样本从模拟量转化成了数字量。转化成了数字量。转化成了数字量。转化成了数字量。量化位数越多,所得到的量化值越接近原始波形的量化位数越多,所得到的量化值越接近原始波形的量化位数越多,所得到的量化值越接近原始波形的量化位数越多,所得到的量化值越接近原始波形的采样值。采样值。采样值。采样值。量化方式有三种:量化方式有三种:量化方式有三种:量化方式有三种:零记忆量化零记忆量化零记忆量化零记忆量化、分组量化分组量化分组量化分组量化和和和和序列量序列量序列量
30、序列量化化化化。21多媒体技术应用音频处理技术2.1.3 声音声音声学是研究声音的学科,包括声波的产生、传播和声学是研究声音的学科,包括声波的产生、传播和声学是研究声音的学科,包括声波的产生、传播和声学是研究声音的学科,包括声波的产生、传播和接收。物体振动在弹性体里的传播称为接收。物体振动在弹性体里的传播称为接收。物体振动在弹性体里的传播称为接收。物体振动在弹性体里的传播称为波波波波,而在,而在,而在,而在空气中传播的波就称为空气中传播的波就称为空气中传播的波就称为空气中传播的波就称为声波声波声波声波,能被人的听觉器官,能被人的听觉器官,能被人的听觉器官,能被人的听觉器官所感觉到的声波叫所感觉
31、到的声波叫所感觉到的声波叫所感觉到的声波叫声音声音声音声音,其频率一般在,其频率一般在,其频率一般在,其频率一般在20Hz20Hz20Hz20Hz20kHz20kHz20kHz20kHz之间。之间。之间。之间。22多媒体技术应用音频处理技术2.1.3 声音声音声音的三要素是声音的三要素是声音的三要素是声音的三要素是音调音调音调音调、音色音色音色音色和和和和音强音强音强音强。 音调是指声音的高低,音调与频率有关。音调是指声音的高低,音调与频率有关。音调是指声音的高低,音调与频率有关。音调是指声音的高低,音调与频率有关。音色是指具有特色的声音。音色是指具有特色的声音。音色是指具有特色的声音。音色是
32、指具有特色的声音。 音强是指声音的强度,也称为声音的响度,音强与音强是指声音的强度,也称为声音的响度,音强与音强是指声音的强度,也称为声音的响度,音强与音强是指声音的强度,也称为声音的响度,音强与声波的振幅成正比声波的振幅成正比声波的振幅成正比声波的振幅成正比 。23多媒体技术应用音频处理技术2.1.3 声音声音声音的质量简称音质。声音的质量简称音质。声音的质量简称音质。声音的质量简称音质。1 1 1 1)与采样频率有关与采样频率有关与采样频率有关与采样频率有关。对于数字音频信号,。对于数字音频信号,。对于数字音频信号,。对于数字音频信号,音质的好音质的好音质的好音质的好坏与数据采样频率和数据
33、位数有关坏与数据采样频率和数据位数有关坏与数据采样频率和数据位数有关坏与数据采样频率和数据位数有关。采样频率越。采样频率越。采样频率越。采样频率越低,位数越少,音质越差。低,位数越少,音质越差。低,位数越少,音质越差。低,位数越少,音质越差。2 2 2 2)与音频处理设备有关与音频处理设备有关与音频处理设备有关与音频处理设备有关。音响放大器和扬声器的质。音响放大器和扬声器的质。音响放大器和扬声器的质。音响放大器和扬声器的质量能够直接影响重放的质量。量能够直接影响重放的质量。量能够直接影响重放的质量。量能够直接影响重放的质量。3 3 3 3)与信号噪声比有关与信号噪声比有关与信号噪声比有关与信号
34、噪声比有关。在录音时,音频信号幅度与。在录音时,音频信号幅度与。在录音时,音频信号幅度与。在录音时,音频信号幅度与噪声幅度的比值越大越好,否则声音被噪声干扰,噪声幅度的比值越大越好,否则声音被噪声干扰,噪声幅度的比值越大越好,否则声音被噪声干扰,噪声幅度的比值越大越好,否则声音被噪声干扰,会影响音质。会影响音质。会影响音质。会影响音质。24多媒体技术应用音频处理技术2.1.3 语音语音语音是一种特殊的媒体,语音是人类所特有的,但语音是一种特殊的媒体,语音是人类所特有的,但语音是一种特殊的媒体,语音是人类所特有的,但语音是一种特殊的媒体,语音是人类所特有的,但也是也是也是也是一种波形一种波形一种
35、波形一种波形,在计算机中表示方式与波形声音,在计算机中表示方式与波形声音,在计算机中表示方式与波形声音,在计算机中表示方式与波形声音的文件格式相同。的文件格式相同。的文件格式相同。的文件格式相同。语音处理的研究已经有一百多年的历史,其研究范语音处理的研究已经有一百多年的历史,其研究范语音处理的研究已经有一百多年的历史,其研究范语音处理的研究已经有一百多年的历史,其研究范围主要涉及:围主要涉及:围主要涉及:围主要涉及:语音合成语音合成语音合成语音合成、语音编码语音编码语音编码语音编码、语音识别语音识别语音识别语音识别的的的的基本算法和应用。基本算法和应用。基本算法和应用。基本算法和应用。计算机处
36、理语音过程如图所示。计算机处理语音过程如图所示。计算机处理语音过程如图所示。计算机处理语音过程如图所示。25多媒体技术应用音频处理技术图图2-8 2-8 计算机处理语音过程计算机处理语音过程 26多媒体技术应用音频处理技术第二章第二章 音频处理技术音频处理技术n n2.22.2常用音频压缩标准常用音频压缩标准2.2.12.2.1音频压缩基础音频压缩基础2.2.22.2.2常用音频压缩标准常用音频压缩标准2.2.32.2.3音频文件格式音频文件格式27多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础1 1 1 1数据压缩条件数据压缩条件数据压缩条件数据压缩条件2 2 2 2
37、数据冗余数据冗余数据冗余数据冗余3 3 3 3数据压缩算法分类数据压缩算法分类数据压缩算法分类数据压缩算法分类28多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础1 1 1 1数据压缩条件数据压缩条件数据压缩条件数据压缩条件信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:信号之所以能被压缩和编码,其原因主要是:1 1 1 1)数据冗余度)数据冗余度)数据冗余度)数据冗余度2 2 2 2)人类不敏感因素)人类不敏感因素)人类不敏感因素)人类不敏感因素3 3 3 3)信息传输与存储)信息传输与存储)信息传
38、输与存储)信息传输与存储 29多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础2 2 2 2数据冗余数据冗余数据冗余数据冗余冗余是指信息所具有的各种性质中多余的无用空间,冗余是指信息所具有的各种性质中多余的无用空间,冗余是指信息所具有的各种性质中多余的无用空间,冗余是指信息所具有的各种性质中多余的无用空间,其多余的程度称为冗余度。其多余的程度称为冗余度。其多余的程度称为冗余度。其多余的程度称为冗余度。 信息量、数据量和冗余量之间的关系如下:信息量、数据量和冗余量之间的关系如下:信息量、数据量和冗余量之间的关系如下:信息量、数据量和冗余量之间的关系如下:式中,式中,式中,式
39、中,I I I I表示信息量,表示信息量,表示信息量,表示信息量,D D D D表示数据量,表示数据量,表示数据量,表示数据量,dudududu表示冗余量,表示冗余量,表示冗余量,表示冗余量,冗余量应在数据存储和传输之前去掉。冗余量应在数据存储和传输之前去掉。冗余量应在数据存储和传输之前去掉。冗余量应在数据存储和传输之前去掉。30多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础2 2 2 2数据冗余数据冗余数据冗余数据冗余空间冗余空间冗余空间冗余空间冗余时间冗余时间冗余时间冗余时间冗余统计冗余统计冗余统计冗余统计冗余结构冗余结构冗余结构冗余结构冗余信息熵冗余信息熵冗余信息
40、熵冗余信息熵冗余知识冗余等。知识冗余等。知识冗余等。知识冗余等。31多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础2 2 2 2数据冗余数据冗余数据冗余数据冗余空间冗余:空间冗余:空间冗余:空间冗余:一幅图像表面上各采样点的颜色之间往往存在着空一幅图像表面上各采样点的颜色之间往往存在着空一幅图像表面上各采样点的颜色之间往往存在着空一幅图像表面上各采样点的颜色之间往往存在着空间连贯性。间连贯性。间连贯性。间连贯性。图像数据中经常存在的一种冗余,如规则物体和规图像数据中经常存在的一种冗余,如规则物体和规图像数据中经常存在的一种冗余,如规则物体和规图像数据中经常存在的一种冗余
41、,如规则物体和规则背景(像素相关性强)。则背景(像素相关性强)。则背景(像素相关性强)。则背景(像素相关性强)。32多媒体技术应用音频处理技术2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余数据冗余数据冗余时间冗余:时间冗余:时间冗余:时间冗余:视频和音频中存在的、在时间尺度上相关的一种冗视频和音频中存在的、在时间尺度上相关的一种冗视频和音频中存在的、在时间尺度上相关的一种冗视频和音频中存在的、在时间尺度上相关的一种冗余,如相邻帧之间像素的相关性;语音的连续和余,如相邻帧之间像素的相关性;语音的连续和余,如相邻帧之间像素的相关性;语音的连续和余,如相邻帧之间像素的相关性;语音的连续和渐
42、变过程。渐变过程。渐变过程。渐变过程。空间冗余和时间冗余,存在大量的统计特征重复,空间冗余和时间冗余,存在大量的统计特征重复,空间冗余和时间冗余,存在大量的统计特征重复,空间冗余和时间冗余,存在大量的统计特征重复,因此称为统计冗余。因此称为统计冗余。因此称为统计冗余。因此称为统计冗余。33多媒体技术应用音频处理技术2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余数据冗余数据冗余结构冗余:结构冗余:结构冗余:结构冗余:有些图像存在着非常强的纹理结有些图像存在着非常强的纹理结有些图像存在着非常强的纹理结有些图像存在着非常强的纹理结构,我们称它们在结构上存在构,我们称它们在结构上存在构,我们
43、称它们在结构上存在构,我们称它们在结构上存在冗余。冗余。冗余。冗余。例如,布纹图像和草席图像。例如,布纹图像和草席图像。例如,布纹图像和草席图像。例如,布纹图像和草席图像。34多媒体技术应用音频处理技术2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余数据冗余数据冗余信息熵冗余:信息熵冗余:信息熵冗余:信息熵冗余:也称为编码冗余,是指数据所携带的信息量少于数也称为编码冗余,是指数据所携带的信息量少于数也称为编码冗余,是指数据所携带的信息量少于数也称为编码冗余,是指数据所携带的信息量少于数据本身而反映出来的数据冗余。据本身而反映出来的数据冗余。据本身而反映出来的数据冗余。据本身而反映出来的
44、数据冗余。例如例如例如例如: : : :自然界的很多状态不可能正好用自然界的很多状态不可能正好用自然界的很多状态不可能正好用自然界的很多状态不可能正好用2 2 2 2的整数次幂的整数次幂的整数次幂的整数次幂来表示来表示来表示来表示, , , ,这样就会造成编码冗余。这样就会造成编码冗余。这样就会造成编码冗余。这样就会造成编码冗余。35多媒体技术应用音频处理技术2.2.1音频压缩基础音频压缩基础2 2数据冗余数据冗余数据冗余数据冗余知识冗余:知识冗余:知识冗余:知识冗余:举例:成语、人脸的图像有固定的结构。举例:成语、人脸的图像有固定的结构。举例:成语、人脸的图像有固定的结构。举例:成语、人脸的
45、图像有固定的结构。这类规律性的结构可由先验知识和背景知识得到,这类规律性的结构可由先验知识和背景知识得到,这类规律性的结构可由先验知识和背景知识得到,这类规律性的结构可由先验知识和背景知识得到,我们称此类冗余为知识冗余。我们称此类冗余为知识冗余。我们称此类冗余为知识冗余。我们称此类冗余为知识冗余。36多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础3 3 3 3数据压缩算法分类数据压缩算法分类数据压缩算法分类数据压缩算法分类图图2-10 2-10 数据压缩数据压缩算法分类算法分类 37多媒体技术应用音频处理技术2.2.12.2.1音频压缩基础音频压缩基础3 3 3 3数据
46、压缩算法分类数据压缩算法分类数据压缩算法分类数据压缩算法分类无损压缩无损压缩无损压缩无损压缩(冗余压缩、熵编码)法:无损压缩法去(冗余压缩、熵编码)法:无损压缩法去(冗余压缩、熵编码)法:无损压缩法去(冗余压缩、熵编码)法:无损压缩法去掉或减少了数据中的冗余量,但这些冗余量是可掉或减少了数据中的冗余量,但这些冗余量是可掉或减少了数据中的冗余量,但这些冗余量是可掉或减少了数据中的冗余量,但这些冗余量是可以重新恢复的,因此,无损压缩是可逆的过程。以重新恢复的,因此,无损压缩是可逆的过程。以重新恢复的,因此,无损压缩是可逆的过程。以重新恢复的,因此,无损压缩是可逆的过程。例如:压缩软件例如:压缩软件
47、例如:压缩软件例如:压缩软件WinRARWinRARWinRARWinRAR应用。应用。应用。应用。注意:无损压缩特点是压缩比小。注意:无损压缩特点是压缩比小。注意:无损压缩特点是压缩比小。注意:无损压缩特点是压缩比小。无损压缩法不会产生失真,在多媒体技术中一般用无损压缩法不会产生失真,在多媒体技术中一般用无损压缩法不会产生失真,在多媒体技术中一般用无损压缩法不会产生失真,在多媒体技术中一般用于文本数据的压缩。常见的例子是磁盘压缩。于文本数据的压缩。常见的例子是磁盘压缩。于文本数据的压缩。常见的例子是磁盘压缩。于文本数据的压缩。常见的例子是磁盘压缩。38多媒体技术应用音频处理技术2.2.12.
48、2.1音频压缩基础音频压缩基础3 3 3 3数据压缩算法分类数据压缩算法分类数据压缩算法分类数据压缩算法分类有损压缩有损压缩有损压缩有损压缩(熵压缩)法:有损压缩减少了信息量,(熵压缩)法:有损压缩减少了信息量,(熵压缩)法:有损压缩减少了信息量,(熵压缩)法:有损压缩减少了信息量,而这些损失信息量是不能再恢复的,因此,有损而这些损失信息量是不能再恢复的,因此,有损而这些损失信息量是不能再恢复的,因此,有损而这些损失信息量是不能再恢复的,因此,有损压缩法是不可逆的。压缩法是不可逆的。压缩法是不可逆的。压缩法是不可逆的。例如:视例如:视例如:视例如:视/ / / /听觉等冗余,由于人的感觉对某些
49、失真不听觉等冗余,由于人的感觉对某些失真不听觉等冗余,由于人的感觉对某些失真不听觉等冗余,由于人的感觉对某些失真不易觉察的生理特征,决定了在某些场合可以减少易觉察的生理特征,决定了在某些场合可以减少易觉察的生理特征,决定了在某些场合可以减少易觉察的生理特征,决定了在某些场合可以减少信息量。信息量。信息量。信息量。注意:有损压缩特点是压缩比大,但不可逆。注意:有损压缩特点是压缩比大,但不可逆。注意:有损压缩特点是压缩比大,但不可逆。注意:有损压缩特点是压缩比大,但不可逆。39多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准1 1 1 1G.711 64Kb/sG.7
50、11 64Kb/sG.711 64Kb/sG.711 64Kb/s脉冲编码调制(脉冲编码调制(脉冲编码调制(脉冲编码调制(PCMPCMPCMPCM)2 2 2 2G.721G.721G.721G.721自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(ADPCMADPCMADPCMADPCM)3 3 3 3G.722 7kHzG.722 7kHzG.722 7kHzG.722 7kHz声音编码器声音编码器声音编码器声音编码器4 4 4 4G.723 G.723 G.723 G.723 双速率语音编码器双速率语音编码器双速率语音编码器双速率语音编码器
51、5 5 5 5G.728 16Kb/sG.728 16Kb/sG.728 16Kb/sG.728 16Kb/s低延迟码激励线性预测编码(低延迟码激励线性预测编码(低延迟码激励线性预测编码(低延迟码激励线性预测编码(LD-CELPLD-CELPLD-CELPLD-CELP)6 6 6 6G.729 G.729 G.729 G.729 语音编码器语音编码器语音编码器语音编码器7 7 7 7MPEG-1MPEG-1MPEG-1MPEG-1音频编码音频编码音频编码音频编码8 8 8 8ACACACAC音频编码音频编码音频编码音频编码9 9 9 9空间音频编码空间音频编码空间音频编码空间音频编码1010
52、1010移动音频编码移动音频编码移动音频编码移动音频编码40多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准1 1 1 1G.711 64Kb/sG.711 64Kb/sG.711 64Kb/sG.711 64Kb/s脉冲编码调制(脉冲编码调制(脉冲编码调制(脉冲编码调制(PCMPCMPCMPCM)脉冲编码调制(脉冲编码调制(脉冲编码调制(脉冲编码调制(Pulse Code ModulationPulse Code ModulationPulse Code ModulationPulse Code Modulation,PCMPCMPCMPCM)是)是)是)是IT
53、UITUITUITU制定出来的一套语音压缩标准,主要用于电话。制定出来的一套语音压缩标准,主要用于电话。制定出来的一套语音压缩标准,主要用于电话。制定出来的一套语音压缩标准,主要用于电话。 1972197219721972年,年,年,年,CCITTCCITTCCITTCCITT对一个对一个对一个对一个64Kb/s64Kb/s64Kb/s64Kb/s压扩型压扩型压扩型压扩型PCMPCMPCMPCM编码器做了编码器做了编码器做了编码器做了标准化,称为标准化,称为标准化,称为标准化,称为G.711G.711G.711G.711。这个标准主要有两种压缩算。这个标准主要有两种压缩算。这个标准主要有两种压
54、缩算。这个标准主要有两种压缩算法,在北美和日本,使用法,在北美和日本,使用法,在北美和日本,使用法,在北美和日本,使用律律律律PCMPCMPCMPCM;而世界其他国;而世界其他国;而世界其他国;而世界其他国家使用家使用家使用家使用A A A A律律律律PCMPCMPCMPCM。 G.711G.711G.711G.711在在在在64Kb/s64Kb/s64Kb/s64Kb/s速率话音质量能够达到网络等级,目速率话音质量能够达到网络等级,目速率话音质量能够达到网络等级,目速率话音质量能够达到网络等级,目前已广泛应用于各种数字通信系统中,如电缆、前已广泛应用于各种数字通信系统中,如电缆、前已广泛应用
55、于各种数字通信系统中,如电缆、前已广泛应用于各种数字通信系统中,如电缆、微波、卫星、光缆等。微波、卫星、光缆等。微波、卫星、光缆等。微波、卫星、光缆等。 41多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准2 2 2 2G.721G.721G.721G.721自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(ADPCMADPCMADPCMADPCM)自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(自适应差分脉冲编码调制(Adaptive Differential Adaptive Differe
56、ntial Adaptive Differential Adaptive Differential Pulse Code ModulationPulse Code ModulationPulse Code ModulationPulse Code Modulation,ADPCMADPCMADPCMADPCM)在)在)在)在PCMPCMPCMPCM的基础上的基础上的基础上的基础上进行改进,进一步利用了语音信号样点间的相关进行改进,进一步利用了语音信号样点间的相关进行改进,进一步利用了语音信号样点间的相关进行改进,进一步利用了语音信号样点间的相关性,并针对语音信号的非平稳特点,使用了自适性,并针
57、对语音信号的非平稳特点,使用了自适性,并针对语音信号的非平稳特点,使用了自适性,并针对语音信号的非平稳特点,使用了自适应预测和自适应量化应预测和自适应量化应预测和自适应量化应预测和自适应量化 1984198419841984年,年,年,年,CCITTCCITTCCITTCCITT首先对首先对首先对首先对32Kb/s ADPCM32Kb/s ADPCM32Kb/s ADPCM32Kb/s ADPCM做了标准化,称做了标准化,称做了标准化,称做了标准化,称为为为为G.721G.721G.721G.721。 G.721G.721G.721G.721于于于于1986198619861986年根据两年间
58、运行中出现的一些问题,年根据两年间运行中出现的一些问题,年根据两年间运行中出现的一些问题,年根据两年间运行中出现的一些问题,做了进一步修正,又重新标准化。做了进一步修正,又重新标准化。做了进一步修正,又重新标准化。做了进一步修正,又重新标准化。 42多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准3 3G.722 7kHzG.722 7kHz声音编码器声音编码器1988198819881988年,正式通过关于年,正式通过关于年,正式通过关于年,正式通过关于“用用用用64Kb/s64Kb/s64Kb/s64Kb/s或低于此编码速或低于此编码速或低于此编码速或低于此编
59、码速率的率的率的率的7kHz7kHz7kHz7kHz音频信号编码器音频信号编码器音频信号编码器音频信号编码器”的标准,称为的标准,称为的标准,称为的标准,称为G.722G.722G.722G.722。 G.722G.722G.722G.722的主要目标是保持的主要目标是保持的主要目标是保持的主要目标是保持64Kb/s64Kb/s64Kb/s64Kb/s的数据率,而音频信的数据率,而音频信的数据率,而音频信的数据率,而音频信号的质量要明显高于号的质量要明显高于号的质量要明显高于号的质量要明显高于G.711G.711G.711G.711的质量。的质量。的质量。的质量。43多媒体技术应用音频处理技术
60、.2.2.2.2常用音频压缩标准常用音频压缩标准4 4G.723 G.723 双速率语音编码器双速率语音编码器G.723G.723G.723G.723是在是在是在是在1996199619961996年制定的一种多媒体语音编解码标准。年制定的一种多媒体语音编解码标准。年制定的一种多媒体语音编解码标准。年制定的一种多媒体语音编解码标准。 G.723G.723G.723G.723标准传输码率有标准传输码率有标准传输码率有标准传输码率有5.3Kb/s5.3Kb/s5.3Kb/s5.3Kb/s和和和和6.3Kb/s6.3Kb/s6.3Kb/s6.3Kb/s两种,在编两种,在编两种,在编两种,在编程过程中
61、可随时切换。程过程中可随时切换。程过程中可随时切换。程过程中可随时切换。44多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准5 5 5 5G.728 16Kb/sG.728 16Kb/sG.728 16Kb/sG.728 16Kb/s低延迟码激励线性预测编码(低延迟码激励线性预测编码(低延迟码激励线性预测编码(低延迟码激励线性预测编码(LD-LD-LD-LD-CELPCELPCELPCELP)G.728G.728G.728G.728的工作进程是从的工作进程是从的工作进程是从的工作进程是从1988198819881988年开始的,试图建立通用年开始的,试图建立通用年
62、开始的,试图建立通用年开始的,试图建立通用的的的的16Kb/s16Kb/s16Kb/s16Kb/s长话质量的语音编码标准。长话质量的语音编码标准。长话质量的语音编码标准。长话质量的语音编码标准。 G.728G.728G.728G.728开始是按照浮点开始是按照浮点开始是按照浮点开始是按照浮点CELPCELPCELPCELP编码算法规定的编码算法规定的编码算法规定的编码算法规定的 。1994199419941994年完成了按照严格定点规定的算法。年完成了按照严格定点规定的算法。年完成了按照严格定点规定的算法。年完成了按照严格定点规定的算法。45多媒体技术应用音频处理技术2.2.22.2.2常用音
63、频压缩标准常用音频压缩标准6 6G G.729 .729 语音编码器语音编码器在在在在1996199619961996年年年年3 3 3 3月,月,月,月,ITU-TITU-TITU-TITU-T的第的第的第的第15151515研究小组提出研究小组提出研究小组提出研究小组提出8Kb/s8Kb/s8Kb/s8Kb/s的语的语的语的语音编码协议,称为音编码协议,称为音编码协议,称为音编码协议,称为G.729G.729G.729G.729。 G.729G.729G.729G.729标准使用的算法是共轭结构的代数码本激励线标准使用的算法是共轭结构的代数码本激励线标准使用的算法是共轭结构的代数码本激励线
64、标准使用的算法是共轭结构的代数码本激励线性预测(性预测(性预测(性预测(CS-ACELPCS-ACELPCS-ACELPCS-ACELP),它基于),它基于),它基于),它基于CELPCELPCELPCELP编码模型。编码模型。编码模型。编码模型。46多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准7 7MPEG-1MPEG-1音频编码音频编码MPEG-1MPEG-1MPEG-1MPEG-1音频编码作为音频编码作为音频编码作为音频编码作为MPEGMPEGMPEGMPEG标准的一部分,对应于标准的一部分,对应于标准的一部分,对应于标准的一部分,对应于ISO/IEC
65、11172-3ISO/IEC 11172-3ISO/IEC 11172-3ISO/IEC 11172-3,规定了高质量音频编码方法、,规定了高质量音频编码方法、,规定了高质量音频编码方法、,规定了高质量音频编码方法、存储表示和解码方法。存储表示和解码方法。存储表示和解码方法。存储表示和解码方法。47多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准8 8 8 8ACACACAC音频编码音频编码音频编码音频编码杜比实验室在杜比实验室在杜比实验室在杜比实验室在1987198719871987年第一次将数字编码技术引入到年第一次将数字编码技术引入到年第一次将数字编码技术引
66、入到年第一次将数字编码技术引入到HDTVHDTVHDTVHDTV的开发中,即的开发中,即的开发中,即的开发中,即AC-1AC-1AC-1AC-1标准标准标准标准 。1990199019901990年杜比实验室又推出了立体声编码标准年杜比实验室又推出了立体声编码标准年杜比实验室又推出了立体声编码标准年杜比实验室又推出了立体声编码标准AC-2 AC-2 AC-2 AC-2 。1994199419941994年杜比公司与日本先锋公司联合推出了最新一年杜比公司与日本先锋公司联合推出了最新一年杜比公司与日本先锋公司联合推出了最新一年杜比公司与日本先锋公司联合推出了最新一代的杜比数码代的杜比数码代的杜比数
67、码代的杜比数码环绕声环绕声环绕声环绕声系统系统系统系统Dolby Surround Audio Dolby Surround Audio Dolby Surround Audio Dolby Surround Audio Coding-3Coding-3Coding-3Coding-3,简称为,简称为,简称为,简称为AC-3AC-3AC-3AC-3。 48多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准9 9 9 9空间音频编码空间音频编码空间音频编码空间音频编码随着人类听觉研究在空间心理声学、认知心理学等学科的不随着人类听觉研究在空间心理声学、认知心理学等学科的
68、不随着人类听觉研究在空间心理声学、认知心理学等学科的不随着人类听觉研究在空间心理声学、认知心理学等学科的不断深入,出现了将人类空间方位感知参数引入音频压缩编断深入,出现了将人类空间方位感知参数引入音频压缩编断深入,出现了将人类空间方位感知参数引入音频压缩编断深入,出现了将人类空间方位感知参数引入音频压缩编码技术的研究码技术的研究码技术的研究码技术的研究空间音频编码(空间音频编码(空间音频编码(空间音频编码(Spatial Audio CodingSpatial Audio CodingSpatial Audio CodingSpatial Audio Coding,SACSACSACSAC)。
69、)。)。)。 通过将空间线索(通过将空间线索(通过将空间线索(通过将空间线索(Spatial CuesSpatial CuesSpatial CuesSpatial Cues)参数引入到音频压缩编码)参数引入到音频压缩编码)参数引入到音频压缩编码)参数引入到音频压缩编码算法中,即所谓的参数立体声(算法中,即所谓的参数立体声(算法中,即所谓的参数立体声(算法中,即所谓的参数立体声(Parametric StereoParametric StereoParametric StereoParametric Stereo,PSPSPSPS)技术,分析声道间冗余信息量,采用立体声参数提取)技术,分析声道
70、间冗余信息量,采用立体声参数提取)技术,分析声道间冗余信息量,采用立体声参数提取)技术,分析声道间冗余信息量,采用立体声参数提取的联合声道编码模式,取代传统的声道分离编码模式,可的联合声道编码模式,取代传统的声道分离编码模式,可的联合声道编码模式,取代传统的声道分离编码模式,可的联合声道编码模式,取代传统的声道分离编码模式,可以降低近以降低近以降低近以降低近50%50%50%50%的编码码率,使空间成为数字音频编码技术的编码码率,使空间成为数字音频编码技术的编码码率,使空间成为数字音频编码技术的编码码率,使空间成为数字音频编码技术的有效组成部分。的有效组成部分。的有效组成部分。的有效组成部分。
71、 49多媒体技术应用音频处理技术2.2.22.2.2常用音频压缩标准常用音频压缩标准1010移动音频编码移动音频编码在移动通信系统中采用混合压缩编码,可以根据需在移动通信系统中采用混合压缩编码,可以根据需在移动通信系统中采用混合压缩编码,可以根据需在移动通信系统中采用混合压缩编码,可以根据需要动态调整编码码率,在合成音频质量、系统空要动态调整编码码率,在合成音频质量、系统空要动态调整编码码率,在合成音频质量、系统空要动态调整编码码率,在合成音频质量、系统空间中取得平衡,最大限度地发挥系统的效能。间中取得平衡,最大限度地发挥系统的效能。间中取得平衡,最大限度地发挥系统的效能。间中取得平衡,最大限
72、度地发挥系统的效能。 3GPP 3GPP 3GPP 3GPP 将将将将AMR-WB+AMR-WB+AMR-WB+AMR-WB+和和和和EAAC+EAAC+EAAC+EAAC+两种编码标准用于第三代移两种编码标准用于第三代移两种编码标准用于第三代移两种编码标准用于第三代移动网络中的多媒体服务。动网络中的多媒体服务。动网络中的多媒体服务。动网络中的多媒体服务。50多媒体技术应用音频处理技术方方 法法算算 法法名名 称称数数 据据 率率标标 准准应应 用用质质 量量波形波形编码编码PCMPCM脉冲脉冲编码调编码调制制公共网公共网ISDNISDN配音配音4.04.04.54.5(A)(A)(A)(A)
73、64Kb/s64Kb/sG.711G.711APCMAPCM自适自适应应脉冲脉冲编码调编码调制制DPCMDPCM差分脉冲差分脉冲编码调编码调制制ADPCMADPCM自适自适应应差分脉冲差分脉冲编码调编码调制制32Kb/s32Kb/sG.721G.721SB-ADPCMSB-ADPCM子子带带自适自适应应差分脉冲差分脉冲编码调编码调制制64Kb/s64Kb/sG.722G.7225.3Kb/s5.3Kb/s6.3Kb/s6.3Kb/sG.723G.723参数参数编码编码LPCLPC线线性性预测编码预测编码2.4Kb/s2.4Kb/s保密保密话话声声2.52.53.53.5混合混合编码编码CELP
74、CCELPC码码激励激励LPCLPC4.6Kb/s4.6Kb/s移移动动通信通信3.73.74.04.0VSELPVSELP矢量和激励矢量和激励LPCLPC8Kb/s8Kb/s语语音通信音通信RPE-LTPRPE-LTP长时预测规则码长时预测规则码激励激励13.2Kb/s13.2Kb/sISDNISDNLD-CELPLD-CELP低延低延迟码迟码激励激励LPCLPC16Kb/s16Kb/sG.728G.728网网络络通信通信CS-ACELPCS-ACELP共共轭结轭结构代数构代数码码激励激励线线性性预测预测8Kb/s8Kb/sG.729G.729语语音通信音通信MPEGMPEG子子带带感知感知
75、编码编码128Kb/s128Kb/sMPEG-1MPEG-1、MPEG-2MPEG-2、MPEG-4MPEG-4CDCD5.05.0AC-3AC-3感知感知编码编码音响音响5.05.051多媒体技术应用音频处理技术2.2.32.2.3音频文件格式音频文件格式1 1 1 1波形格式波形格式波形格式波形格式 2 2 2 2MIDIMIDIMIDIMIDI格式格式格式格式 3 3 3 3MP3MP3MP3MP3压缩格式压缩格式压缩格式压缩格式 4 4 4 4几种流式音频格式几种流式音频格式几种流式音频格式几种流式音频格式52多媒体技术应用音频处理技术2.2.32.2.3音频文件格式音频文件格式1 1
76、 1 1波形格式波形格式波形格式波形格式WAVWAVWAVWAV是是是是Microsoft WindowsMicrosoft WindowsMicrosoft WindowsMicrosoft Windows本身提供的音频格式,用本身提供的音频格式,用本身提供的音频格式,用本身提供的音频格式,用.wav.wav.wav.wav作为扩展名,其文件格式称为作为扩展名,其文件格式称为作为扩展名,其文件格式称为作为扩展名,其文件格式称为波形文件格式波形文件格式波形文件格式波形文件格式(Wave Wave Wave Wave ),),),),在多媒体编程接口和数据规范在多媒体编程接口和数据规范在多媒体编
77、程接口和数据规范在多媒体编程接口和数据规范1.01.01.01.0(Multimedia Programming Interface and Multimedia Programming Interface and Multimedia Programming Interface and Multimedia Programming Interface and Data Specifications 1.0Data Specifications 1.0Data Specifications 1.0Data Specifications 1.0)文档中有详细的描)文档中有详细的描)文档中有详细的
78、描)文档中有详细的描述。述。述。述。53多媒体技术应用音频处理技术2.2.32.2.3音频文件格式音频文件格式2 2 2 2MIDIMIDIMIDIMIDI格式格式格式格式 电子乐器数字接口电子乐器数字接口电子乐器数字接口电子乐器数字接口(Musical Instrument Digital Musical Instrument Digital Musical Instrument Digital Musical Instrument Digital InterfaceInterfaceInterfaceInterface,MIDIMIDIMIDIMIDI)是用于在音乐合成器()是用于在音乐合
79、成器()是用于在音乐合成器()是用于在音乐合成器(Music Music Music Music SynthesizersSynthesizersSynthesizersSynthesizers)、乐器()、乐器()、乐器()、乐器(Musical InstrumentsMusical InstrumentsMusical InstrumentsMusical Instruments)和计算机之间交换音乐信息,播放和录制音乐的和计算机之间交换音乐信息,播放和录制音乐的和计算机之间交换音乐信息,播放和录制音乐的和计算机之间交换音乐信息,播放和录制音乐的一种标准协议。一种标准协议。一种标准协议。一
80、种标准协议。54多媒体技术应用音频处理技术2.2.32.2.3音频文件格式音频文件格式3 3 3 3MP3MP3MP3MP3压缩格式压缩格式压缩格式压缩格式 MP3MP3MP3MP3全称是全称是全称是全称是MPEG-1 Layer 3MPEG-1 Layer 3MPEG-1 Layer 3MPEG-1 Layer 3音频文件音频文件音频文件音频文件,是,是,是,是MPEG-1MPEG-1MPEG-1MPEG-1标准标准标准标准中的声音部分,也叫中的声音部分,也叫中的声音部分,也叫中的声音部分,也叫MPEGMPEGMPEGMPEG音频层。音频层。音频层。音频层。MPEGMPEGMPEGMPEG音
81、频层根据压缩质量和编码复杂程度划分为三音频层根据压缩质量和编码复杂程度划分为三音频层根据压缩质量和编码复杂程度划分为三音频层根据压缩质量和编码复杂程度划分为三层,即层,即层,即层,即Layer 1Layer 1Layer 1Layer 1、Layer 2Layer 2Layer 2Layer 2、Layer 3Layer 3Layer 3Layer 3,分别对应,分别对应,分别对应,分别对应MP1MP1MP1MP1、MP2MP2MP2MP2、MP3MP3MP3MP3这三种声音文件。这三种声音文件。这三种声音文件。这三种声音文件。55多媒体技术应用音频处理技术2.2.32.2.3音频文件格式音频
82、文件格式4 4 4 4几种流式音频格式几种流式音频格式几种流式音频格式几种流式音频格式现在使用最普遍的流格式类型是现在使用最普遍的流格式类型是现在使用最普遍的流格式类型是现在使用最普遍的流格式类型是RealNetworksRealNetworksRealNetworksRealNetworks公司公司公司公司发明的支持网络流媒体技术的实时音频格式,发明的支持网络流媒体技术的实时音频格式,发明的支持网络流媒体技术的实时音频格式,发明的支持网络流媒体技术的实时音频格式,RARARARA、RMARMARMARMA这两个文件类型就是这两个文件类型就是这两个文件类型就是这两个文件类型就是Real Med
83、iaReal MediaReal MediaReal Media的音频格式。的音频格式。的音频格式。的音频格式。56多媒体技术应用音频处理技术第二章第二章 音频处理技术音频处理技术n n2.32.3音频处理软件音频处理软件Audition2.3.12.3.1功能介绍功能介绍2.3.22.3.2编辑环境编辑环境2.3.32.3.3基本操作基本操作57多媒体技术应用音频处理技术AuditionAuditionAuditionAudition软件是软件是软件是软件是AdobeAdobeAdobeAdobe公司推出的一款完整的、应用公司推出的一款完整的、应用公司推出的一款完整的、应用公司推出的一款完整
84、的、应用于于于于WindowsWindowsWindowsWindows系统的系统的系统的系统的PCPCPCPC上的多音轨音频工作站。该软上的多音轨音频工作站。该软上的多音轨音频工作站。该软上的多音轨音频工作站。该软件前身称为件前身称为件前身称为件前身称为Cool EditCool EditCool EditCool Edit,AdobeAdobeAdobeAdobe公司在公司在公司在公司在2003200320032003年年年年5 5 5 5月从月从月从月从Syntrillium SoftwareSyntrillium SoftwareSyntrillium SoftwareSyntrill
85、ium Software公司成功购买后将其更名公司成功购买后将其更名公司成功购买后将其更名公司成功购买后将其更名为为为为AuditionAuditionAuditionAudition。58多媒体技术应用音频处理技术2.3.12.3.1功能介绍功能介绍Adobe Audition 3.0Adobe Audition 3.0Adobe Audition 3.0Adobe Audition 3.0是一款功能强大的、专业级的是一款功能强大的、专业级的是一款功能强大的、专业级的是一款功能强大的、专业级的音音音音乐编辑软件乐编辑软件乐编辑软件乐编辑软件,能高质量地完成高级混音、编辑、控,能高质量地完成高
86、级混音、编辑、控,能高质量地完成高级混音、编辑、控,能高质量地完成高级混音、编辑、控制、合成和特效处理,允许用户编辑个性化的音频制、合成和特效处理,允许用户编辑个性化的音频制、合成和特效处理,允许用户编辑个性化的音频制、合成和特效处理,允许用户编辑个性化的音频文件,创建循环,引进了文件,创建循环,引进了文件,创建循环,引进了文件,创建循环,引进了45454545个以上的个以上的个以上的个以上的DSPDSPDSPDSP特效以及特效以及特效以及特效以及高达高达高达高达128128128128个音轨。个音轨。个音轨。个音轨。Adobe AuditionAdobe AuditionAdobe Audi
87、tionAdobe Audition拥有集成的多音轨和编辑视图、实时拥有集成的多音轨和编辑视图、实时拥有集成的多音轨和编辑视图、实时拥有集成的多音轨和编辑视图、实时特效、环绕支持、分析工具、恢复特性和视频支持特效、环绕支持、分析工具、恢复特性和视频支持特效、环绕支持、分析工具、恢复特性和视频支持特效、环绕支持、分析工具、恢复特性和视频支持等功能,为音乐、视频、音频和声音设计专业人员等功能,为音乐、视频、音频和声音设计专业人员等功能,为音乐、视频、音频和声音设计专业人员等功能,为音乐、视频、音频和声音设计专业人员提供全面集成的提供全面集成的提供全面集成的提供全面集成的音频编辑音频编辑音频编辑音频
88、编辑和和和和混音混音混音混音解决方案。解决方案。解决方案。解决方案。Adobe AuditionAdobe AuditionAdobe AuditionAdobe Audition提供了直觉的、客户化的提供了直觉的、客户化的提供了直觉的、客户化的提供了直觉的、客户化的界面界面界面界面,允许,允许,允许,允许用户删减和调整窗口的大小,创建一个高效率的音用户删减和调整窗口的大小,创建一个高效率的音用户删减和调整窗口的大小,创建一个高效率的音用户删减和调整窗口的大小,创建一个高效率的音频工作范围。频工作范围。频工作范围。频工作范围。 59多媒体技术应用音频处理技术2.3.22.3.2编辑环境编辑环境
89、AuditionAuditionAuditionAudition提供了三种专业的工作视图界面,包括提供了三种专业的工作视图界面,包括提供了三种专业的工作视图界面,包括提供了三种专业的工作视图界面,包括: : : :编辑视图(编辑视图(编辑视图(编辑视图(Edit ViewEdit ViewEdit ViewEdit View)多轨视图(多轨视图(多轨视图(多轨视图(MultitrackMultitrackMultitrackMultitrack View View View View)CDCDCDCD视图(视图(视图(视图(CD ViewCD ViewCD ViewCD View)60多媒体技
90、术应用音频处理技术图图2-16 2-16 多轨视图界面多轨视图界面 61多媒体技术应用音频处理技术图图2-17 2-17 单轨视图界面单轨视图界面 62多媒体技术应用音频处理技术图图2-23 CD2-23 CD视图视图 63多媒体技术应用音频处理技术2.3.32.3.3基本操作基本操作1 1 1 1单轨视图单轨视图单轨视图单轨视图 (1 1 1 1)打开或创建一个音频文件)打开或创建一个音频文件)打开或创建一个音频文件)打开或创建一个音频文件 (2 2 2 2)编辑音频)编辑音频)编辑音频)编辑音频 (3 3 3 3)保存更改)保存更改)保存更改)保存更改64多媒体技术应用音频处理技术2.3.
91、32.3.3基本操作基本操作2 2 2 2多轨视图多轨视图多轨视图多轨视图 (1 1 1 1)打开或创建一个音频文件)打开或创建一个音频文件)打开或创建一个音频文件)打开或创建一个音频文件 (2 2 2 2)插入或录制音频文件)插入或录制音频文件)插入或录制音频文件)插入或录制音频文件 (3 3 3 3)施加效果)施加效果)施加效果)施加效果 (4 4 4 4)混合轨道)混合轨道)混合轨道)混合轨道 (5 5 5 5)输出)输出)输出)输出65多媒体技术应用音频处理技术n n推荐多媒体软件认证考试1.1.全国计算机信息高新技术考试全国计算机信息高新技术考试(CITT)(CITT)考试名称考试名
92、称: :劳动和社会保障部全国计算机信息高新技术考试(全称)劳动和社会保障部全国计算机信息高新技术考试(全称) 国家计算机高新技术考试(简称)国家计算机高新技术考试(简称)证书名称证书名称: :全国计算机信息高新技术考试合格证书(全称)全国计算机信息高新技术考试合格证书(全称) OSTAOSTA计算机认证(简称)计算机认证(简称) 发证部门发证部门: :人力资源和社会保障部职业技能鉴定中心人力资源和社会保障部职业技能鉴定中心网址:网址:模块化(模块化(1212个)分级考试(个)分级考试(5 5级)级): :相关模块:计算机辅助设计(相关模块:计算机辅助设计(AutoCAD,ProtelAutoC
93、AD,Protel),图形图像处理),图形图像处理(PhotoShop, 3DMax, CorelDRAW, IllustratorPhotoShop, 3DMax, CorelDRAW, Illustrator),多媒体软件制作),多媒体软件制作(Director,AuthorwareDirector,Authorware),视频编辑(),视频编辑(Premiere,After EffectsPremiere,After Effects)级别:高级操作师级,操作师级,高级操作员级,操作员级,初级操作级别:高级操作师级,操作师级,高级操作员级,操作员级,初级操作员级员级66多媒体技术应用音频处
94、理技术67多媒体技术应用音频处理技术n n推荐多媒体软件认证考试2.2.全国计算机应用技术证书考试全国计算机应用技术证书考试(NIT)(NIT)证书名称证书名称: :全国计算机应用技术考试证书全国计算机应用技术考试证书发证部门发证部门: :教育部考试中心教育部考试中心网址:网址: 相关专业相关专业: :电脑美术设计师电脑美术设计师 (电脑美术设计师(电脑美术设计师 ,三维数码,三维数码影像设计师影像设计师 )68多媒体技术应用音频处理技术69多媒体技术应用音频处理技术n n推荐多媒体软件认证考试3.3.全国计算机辅助技术认证全国计算机辅助技术认证(CAXC)(CAXC)证书名称证书名称: :全
95、国计算机辅助技术应用工程师证书全国计算机辅助技术应用工程师证书发证部门发证部门: :教育部教育管理信息中心,全国计算机辅助技术教育部教育管理信息中心,全国计算机辅助技术认证(认证(CAXCCAXC)管理办公室)管理办公室网址:网址: 考试科目考试科目: :机械设计类、机械制造类、建筑设计类、模具类、机械设计类、机械制造类、建筑设计类、模具类、设计分析等设计分析等 考试软件:考试软件:AutoCADAutoCAD,InventorInventor,Pro/E-CADPro/E-CAD,SolidWorksSolidWorks,UGNXCADUGNXCAD,CAXACAXA,UG NXUG NX,
96、AnsysAnsys,ADAMSADAMS等等70多媒体技术应用音频处理技术71多媒体技术应用音频处理技术n n推荐多媒体软件认证考试4. Adobe4. Adobe认证认证网址:网址:AdobeAdobe产品专家产品专家ACPEACPE:单科认证形式,通过其中的任意一门:单科认证形式,通过其中的任意一门就可颁发。就可颁发。AdobeAdobe设计师设计师ACCDACCD:创意设计师,网络设计师,影视后期设:创意设计师,网络设计师,影视后期设计师。模块。计师。模块。平面视觉设计师平面视觉设计师动漫职业技能认证动漫职业技能认证RIARIA开发技术认证开发技术认证72多媒体技术应用音频处理技术73
97、多媒体技术应用音频处理技术n n推荐多媒体软件认证考试5. Autodesk5. Autodesk认证认证网址:网址:三级:初级工程师、中初级工程师、高初级工程师三级:初级工程师、中初级工程师、高初级工程师科目:科目:AutoCAD, AutoCAD Mechanical, AutoCAD Civil3D, AutoCAD, AutoCAD Mechanical, AutoCAD Civil3D, Inventor,Revit Architecture, AliasStudio, 3ds Max Inventor,Revit Architecture, AliasStudio, 3ds Max
98、 和和Autodesk MayaAutodesk Maya。74多媒体技术应用音频处理技术75多媒体技术应用音频处理技术n n推荐多媒体软件认证考试6.ACAA认证 证书名称:证书名称:ACAAACAA中国数字艺术设计师中国数字艺术设计师 ACAA ACAA中国高级数字艺术设计师中国高级数字艺术设计师 发证部门:发证部门:ACAAACAA中国数字艺术教育联盟中国数字艺术教育联盟 网址:网址:专业方向:专业方向:1 1、ACAAACAA视觉传达视觉传达/ /平面设计专业方向;平面设计专业方向;2 2、ACAAACAA动态媒体动态媒体/ /网页设计专业方向;网页设计专业方向;3 3、ACAAACAA三维动画三维动画/ /影视后影视后期专业方向;期专业方向;4 4、ACAAACAA动漫设计动漫设计/ /商业插画专业方向;商业插画专业方向;5 5、ACAAACAA室内设计室内设计/ /商业展示方向。商业展示方向。级别:单项认证,综合认证级别:单项认证,综合认证76多媒体技术应用音频处理技术77多媒体技术应用音频处理技术此课件下载可自行编辑修改,供参考!此课件下载可自行编辑修改,供参考!感谢你的支持,我们会努力做得更好!感谢你的支持,我们会努力做得更好!