音频媒体的压缩编码.ppt

上传人:枫** 文档编号:570111419 上传时间:2024-08-02 格式:PPT 页数:90 大小:827.50KB
返回 下载 相关 举报
音频媒体的压缩编码.ppt_第1页
第1页 / 共90页
音频媒体的压缩编码.ppt_第2页
第2页 / 共90页
音频媒体的压缩编码.ppt_第3页
第3页 / 共90页
音频媒体的压缩编码.ppt_第4页
第4页 / 共90页
音频媒体的压缩编码.ppt_第5页
第5页 / 共90页
点击查看更多>>
资源描述

《音频媒体的压缩编码.ppt》由会员分享,可在线阅读,更多相关《音频媒体的压缩编码.ppt(90页珍藏版)》请在金锄头文库上搜索。

1、音频媒体的压缩编码标准与技术第四章本章内容音频信号的相关概念 音频信号的基本概念;数字化方法;压缩编音频信号的基本概念;数字化方法;压缩编码的可行性与分类;声音类别与数据率码的可行性与分类;声音类别与数据率音频信息压缩编码技术标准体系 G.7XXG.7XX系列和系列和MPEG-XMPEG-X系列系列G.7XX声音压缩编码技术 各标准的编码方法;编各标准的编码方法;编/ /解码器等解码器等MPEG-X声音压缩编码语音识别话音技术的研究热点话音压缩编码(Speech Coding)话音识别(Speech Recognition)文本话音转换(Text To Speech)4.1 音频信号声音的产生

2、源于物体的震动,这种震动引起物体声音的产生源于物体的震动,这种震动引起物体周围气压的变化并传播,最后形成了声音。周围气压的变化并传播,最后形成了声音。声音是一种波,由两个参数描述:声音是一种波,由两个参数描述:频率:声音的尖锐程度。频率:声音的尖锐程度。振幅:声音的大小,又称响度。振幅:声音的大小,又称响度。l l音频信号是指处在音频信号是指处在20Hz20Hz20kHz20kHz频率范围的声音。频率范围的声音。音频频率范围音频频率范围音频频率范围音频频率范围 低频声音低频声音低频声音低频声音(Infra-sound)(Infra-sound): 0Hz0Hz20Hz20Hz 人类听觉频率范围

3、的声音:人类听觉频率范围的声音:人类听觉频率范围的声音:人类听觉频率范围的声音: 20Hz20Hz20kHz20kHz 高频高频高频高频(Ultrasound)(Ultrasound): 20kHz20kHz1GHz1GHz 超声波超声波超声波超声波( (HypersoundHypersound) ): 1GHz1GHz10THz10THz音频信号声波图示,其中包含两个重要参数:频率和振幅声波图示,其中包含两个重要参数:频率和振幅音频信号根据音频信号占用频谱的不同,可以将音频信号分为3类:1.1.语音信号:又称话音信号,是人在正常情况下语音信号:又称话音信号,是人在正常情况下发出的一种声音,频

4、率范围大约为发出的一种声音,频率范围大约为300Hz300Hz3.4KHz3.4KHz。2.2.音乐信号:各种乐器发出的声音,频率范围大音乐信号:各种乐器发出的声音,频率范围大约为约为20Hz20Hz20kHz20kHz。3.3.噪音信号:人们不感兴趣的一类声音,通常研噪音信号:人们不感兴趣的一类声音,通常研究如何去掉它。究如何去掉它。4.1.1 音频信号的数字化音频信号通常是连续信号,要利用计算机来处理,首先需要对其数字化。模拟模拟模拟模拟语音语音语音语音采样采样采样采样量化量化量化量化编码编码编码编码samplessamples-0.25-0.25-0.5-0.5-0.75-0.750 0

5、0.250.250.50.50.750.75samplessamples01001110100111数字数字数字数字序列序列序列序列音频信号的数字化 对声音信号进行采样时,一般使用音频范围的对声音信号进行采样时,一般使用音频范围的ADCADC(模数转换器)进行。不同的模数转换器)进行。不同的ADCADC主要区别主要区别于以下两个重要参数:于以下两个重要参数:(1 1)采样频率:)采样频率: 采样频率是指每秒钟采集声音样本的个数。它采样频率是指每秒钟采集声音样本的个数。它的取值应该满足的取值应该满足NyquistNyquist Theory Theory,即采样频率即采样频率f fs s应应该大

6、于等于声音信号中最高频率该大于等于声音信号中最高频率f fmm的两倍。的两倍。 采样频率的单位是:采样频率的单位是:HzHz或或samples/ssamples/s。 如:数字电话的采样率为如:数字电话的采样率为8KHz8KHz。(2 2)采样精度:)采样精度: 采样精度用样本位数来表示。采样精度用样本位数来表示。 样本位数越多,则声音质量越高,因为每个样样本位数越多,则声音质量越高,因为每个样本的量化值与原样本值越接近。本的量化值与原样本值越接近。 采样精度的单位是:采样精度的单位是:bits/samplebits/sample。 采样频率越高,采样精度越大,则数字化声音效采样频率越高,采样

7、精度越大,则数字化声音效果越好,但是需要的存储量就越大。因此在实际应果越好,但是需要的存储量就越大。因此在实际应用中,需要折中考虑声音质量和存储量的问题。用中,需要折中考虑声音质量和存储量的问题。0 0-0.25-0.25-0.5-0.5-0.75-0.750.250.250.50.50.750.75samplessamplesSampling HeightSampling Height-1-1另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(另外一种表示精度的方法是信噪比(SNRSNR),),),),表示为:表示为:表示为:表示为:其中,其中,其

8、中,其中,V Vsignalsignal表示信号电压,表示信号电压,表示信号电压,表示信号电压, V Vnoisenoise表示噪声电压,表示噪声电压,表示噪声电压,表示噪声电压,SNRSNR的单位为分贝(的单位为分贝(的单位为分贝(的单位为分贝(dBdB)。)。)。)。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。信噪比越高,声音质量越好。声音硬件:MicrophoneMicrophoneADCADCStored /Stored /TransmittedTransmittedDACDACSoundAnalog SignalSpeakerSpeakerAnalo

9、g SignalDigital SignalReproduced Sound Input DevicesDigital ProcessorOutput Devices4.1.2 音频信号压缩编码的可行性与分类对于高质量和长时间的音频数据,由于数据量都特别大,为了有效地存储和传输,需要进行压缩编码。压缩的可能性存在于:(1 1)声音信号中包含大量的冗余信息,如样本相关性、)声音信号中包含大量的冗余信息,如样本相关性、时间周期相关性、基音相关性等。时间周期相关性、基音相关性等。(2 2)利用人的感知特性进行压缩。)利用人的感知特性进行压缩。(3 3)根据话音产生机理进行压缩。)根据话音产生机理进行

10、压缩。衡量语音编码性能的主要因素有:编码质量;编码质量;编码速率;编码速率;算法复杂度。算法复杂度。音频信号压缩技术音频信号压缩技术 音频信号压缩编码的主要依据是人耳的听觉特性,主要有两点: 1.人的听觉系统中存在一个听觉阈值电平,低于这个电平的声音信号人耳听不到 .2.人的听觉存在屏蔽效应。当几个强弱不同的声音同时存在时,强声使弱声难以听到,并且两者之间的关系与其相对频率的大小有关 . 声音编码算法就是通过这些特性来去掉更多的冗余数据,来达到压缩数据的目的。 无失真压缩音频压缩方法有失真压缩Huffman编码行程编码波形编码参数编码混合编码全频带编码PCMDPCMADPCM子带编码 自适应变

11、换编码ATC 心理学模型矢量量化线性预测LPC矢量和激励线性预测VSELP多脉冲线性预测MP-LPC码本激励线性预测CELP音频信号压缩编码的分类根据压缩编码思想的不同,把音频编码技术分为三类:根据压缩编码思想的不同,把音频编码技术分为三类:(1 1)波形编码()波形编码(Waveform CodingWaveform Coding)(2 2)源编码(源编码(Source CodingSource Coding), ,参数编码(3 3)混合编码(混合编码(Hybrid CodingHybrid Coding)波形编码: 没有利用语音信号自身的特点。波形编译码的想法没有利用语音信号自身的特点。波

12、形编译码的想法是,不利用生成话音信号的任何知识而企图产生一种重是,不利用生成话音信号的任何知识而企图产生一种重构信号,它的波形与原始话音波形尽可能地一致。一般构信号,它的波形与原始话音波形尽可能地一致。一般来说,这种编译码器的复杂程度比较低,数据速率在来说,这种编译码器的复杂程度比较低,数据速率在16 16 kb/skb/s以上,质量相当高。低于这个数据速率时,音质急以上,质量相当高。低于这个数据速率时,音质急剧下降。如:剧下降。如:1.CD1.CD质量音频数据量:质量音频数据量:2x44100x16 2x44100x16 b/sb/s2.2.电话质量音频数据量:电话质量音频数据量:8Kx8

13、8Kx8 b/sb/s PCM (DPCM PCM (DPCM 56Kb/s;ADPCM 32Kb/s).56Kb/s;ADPCM 32Kb/s).源编码(参数编码): 参数化,利用语音信号的特点进行数据压缩。音源编译码的想法是企图从话音波形信号中提取生成话音的参数,使用这些参数通过话音生成模型重构出话音。 例如:信道声码器的工作原理: 将语音信号基于语音分析原理分解成一系列频率分量,将这些分量在信道中传输。 接收方基于收到的数据进行语音重建:将收到的数据中的频率分量作为语音的基频,产生一系列脉冲作为浊音,用噪声发生器的输出作为清音。此方法可以将语音的传输速率降低至2.4Kb/s,甚至更低 。

14、l混合编码:混合编译码器使用音源编译码技术和波形编译码技术,数据率和音质介于它们之间。使用的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。 下图表示了目前这三种编译码器的话音质量和数据率的关系。 图 普通编译码器的音质与数据率 4.1.3 声音类别与数据率声音根据频带分为5类:(1)电话(Telephone)声音(2)调幅(Amplitude Modulation)广播声音(3)调频(Frequency Modulation)广播声音(4)数字音频光盘(CD-Audio)声音(5)数字录音带(Digital Audio Tape)声音这些不同的声音数据区别于采样频率、采样精度、通道

15、数、数据率和频率范围等参数。声音类别与数据率声音类别声音类别采样率采样率(kHz)(kHz)精度精度(bit/s)(bit/s)单声道单声道/ /立体声立体声数据速率数据速率(未经压缩)未经压缩)频率范围频率范围(HzHz)PhonePhone8 88 8singlesingle8kBps8kBps200-3400Hz200-3400HzAMAM11.02511.0258 8singlesingle11.0kBps11.0kBps50-7000Hz50-7000HzFMFM22.05022.0501616stereostereo88.2kBps88.2kBps20-15000Hz20-1500

16、0HzCDCD44.144.11616stereostereo176.4kBps176.4kBps20-20000Hz20-20000HzDATDAT48481616stereostereo192. 0kBps192. 0kBps20-20000Hz20-20000Hz宽带音响宽带音响宽带音响宽带音响: 20Hz: 20Hz20kHz20kHz声音类别与数据率我们所熟悉的数字音频文件格式如下表所示:我们所熟悉的数字音频文件格式如下表所示:文件扩展名文件扩展名说明说明.PCM.PCMPCM PCM 数据序列数据序列.VOC.VOC声卡使用的音频文件格式声卡使用的音频文件格式.WAV.WAV微软使

17、用的波形音频文件格式微软使用的波形音频文件格式.SND.SNDNeXTNeXT计算机使用的波形音频文件格式计算机使用的波形音频文件格式.AIF.AIF苹果计算机使用的波形音频文件格式苹果计算机使用的波形音频文件格式.MID.MIDMIDI MIDI 文件格式文件格式.RMI.RMI微软使用的微软使用的MIDI MIDI 文件格式文件格式未压缩的声音文件的存储量可用下式计算:未压缩的声音文件的存储量可用下式计算:存储量(存储量(B B)= =(采样频率采样频率HZHZ采样位数采样位数bitbit声道数声道数时间秒)时间秒)/8/8 4.1.4 声音质量的度量声音质量的度量分为:客观质量度量和主观

18、质量度量。声音客观质量的度量用信噪比信噪比来展开: 信噪比(信噪比(SNRSNR)越大,声音质量越好;反之,信噪比)越大,声音质量越好;反之,信噪比越小,声音质量越差越小,声音质量越差声音主观质量的度量是利用人的感觉(听觉)来进行度量,主观平均判分法(MOS),通常分5分: 1 1分分: :劣劣( (极反感极反感);2);2分分: :差差( (讨厌但不反感讨厌但不反感);3);3分分: :中中( (有有点讨厌点讨厌);4);4分分: :良良( (基本可以接受基本可以接受);5);5分分: :优优( (效果很好效果很好) )声音质量的度量Kbit/s1248163264poorsufficien

19、tsatisfactorygoodexcellentAchievable Quality year 1980year 1990year 2000 部分编码器的部分编码器的MOS分分 编码器MOS分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/s码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.54.2音频信息压缩编码技术标准体系常见的音频压缩编码准则有ITU制定的G.7XX系列和ISO/IEC

20、制定的MPEG-X系列。G.7XXG.7XX是一组是一组 ITU-T ITU-T 标准,用于音频压缩和解压标准,用于音频压缩和解压缩。它主要用于电话方面。在电话技术中,有两缩。它主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在个主要的算法标准,分别定义在 -law -law 算法算法(美国使用)和(美国使用)和 A-law A-law 算法(欧洲及世界其他算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。于计算机的处理来说,后者更为简单。MPEG-XMPEG-X是一组用于视频的编码方案,其中

21、也有是一组用于视频的编码方案,其中也有音频的编码部分,可以用于音频压缩编码。音频的编码部分,可以用于音频压缩编码。 1 1电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准电话质量的音频压缩编码技术标准信号频率规定在信号频率规定在300Hz300Hz3.4kHz3.4kHz,采用标准的脉冲编采用标准的脉冲编码调制码调制(PCM)(PCM),当采样频率为当采样频率为8kHz8kHz,进行进行8bit8bit量化时,量化时,所得数据速率为所得数据速率为64kb/s64kb/s,即一个数字电话。即一个数字电话。PCMPCM标准标准G G. .711 ,1972

22、711 ,1972年年CCITTCCITT为电话质量和语音压缩为电话质量和语音压缩制定,其速率为制定,其速率为64Kb64Kbs s,使用非线性量化技术,主使用非线性量化技术,主要用于公共电话网中。要用于公共电话网中。ADPCMADPCM是利用样本与样本之间的高度相关性和量化阶是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术,自适应来压缩数据的一种波形编码技术,CCITTCCITT为此为此制定了制定了G.721G.721推荐标准,这个标准叫做推荐标准,这个标准叫做32 kb/s ADPCM32 kb/s ADPCM。在此基础上还制定了在此基础上还制定了G.721G.7

23、21的扩充推荐标准的扩充推荐标准G.723G.723,使,使用该标准的编码器的数据率可降低到用该标准的编码器的数据率可降低到40 kb/s40 kb/s和和24 24 kb/skb/s。G.721 G.721 的输入信号是的输入信号是G.711 PCMG.711 PCM代码,它的数据率为代码,它的数据率为64 kb/s64 kb/s。而而G.721 ADPCMG.721 ADPCM的输出是用的输出是用4 4位表示的差分位表示的差分信号,它的采样率仍然是信号,它的采样率仍然是8 kHz8 kHz,它的数据率为它的数据率为32 32 kb/skb/s,这样就获得了这样就获得了2 2 1 1的数据压

24、缩。的数据压缩。 2 2 2 2调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准调幅广播质量的音频压缩编码技术标准 频率在频率在频率在频率在50Hz50Hz50Hz50Hz一一一一7kHz7kHz7kHz7kHz范围。范围。范围。范围。G.722G.722G.722G.722标标准是采用准是采用准是采用准是采用16kHz16kHz16kHz16kHz采采采采样样,14bit14bit14bit14bit量化,信号数据速率量化,信号数据速率量化,信号数据速率量化,信号数据速率为为224kbit224kbit224kbit224kbits s

25、s s, 224kbit224kbit224kbit224kbits s s s可以被可以被可以被可以被压缩压缩成成成成64kbit64kbit64kbit64kbits.s.s.s.采用子采用子采用子采用子带编码带编码方法,将方法,将方法,将方法,将输输入音入音入音入音频频信号信号信号信号经滤经滤波器分成高子波器分成高子波器分成高子波器分成高子带带和和和和低子低子低子低子带带两个部分,分两个部分,分两个部分,分两个部分,分别进别进行行行行ADPCMADPCMADPCMADPCM编码编码,再混合形成,再混合形成,再混合形成,再混合形成输输出出出出码码流,流,流,流,224kbit224kbit

26、224kbit224kbits s s s可以被可以被可以被可以被压缩压缩成成成成64kbit64kbit64kbit64kbits s s s,最后,最后,最后,最后进进行数据插入行数据插入行数据插入行数据插入( ( ( (最高最高最高最高插入速率达插入速率达插入速率达插入速率达16kbit16kbit16kbit16kbits)s)s)s),因此利用,因此利用,因此利用,因此利用G.722G.722G.722G.722标标准可以在窄准可以在窄准可以在窄准可以在窄带综带综合合合合服服服服务务数据网数据网数据网数据网N-ISDNN-ISDNN-ISDNN-ISDN中的一个中的一个中的一个中的一

27、个B B B B信道上信道上信道上信道上传传送送送送调调幅广播幅广播幅广播幅广播质质量的音量的音量的音量的音频频信号信号信号信号) ) ) )。3 3高保真度立体声音频压缩编码技术标准高保真度立体声音频压缩编码技术标准 高高高高保保保保真真真真立立立立体体体体声声声声音音音音频频频频信信信信号号号号频频频频率率率率范范范范围围围围是是是是50Hz50Hz50Hz50Hz20kHz20kHz20kHz20kHz,采采采采用用用用444444441kHz1kHz1kHz1kHz采采采采样样样样频频频频率率率率,16bit16bit16bit16bit量量量量化化化化进进进进行行行行数数数数字字字字

28、化化化化转转转转换换换换,其其其其数数数数据据据据速速速速率率率率每每每每声声声声道达道达道达道达705kbit705kbit705kbit705kbits s s s。采样频率为采样频率为采样频率为采样频率为48kHz48kHz48kHz48kHz,44.1kHz44.1kHz44.1kHz44.1kHz,32kHz32kHz32kHz32kHzMPEGMPEGMPEGMPEG音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道音频压缩技术的数据速率为每声道32323232448kbit448kbit448kbit448kbits s s s,适,适,适

29、,适合于合于合于合于CDCDCDCDDADADADA光盘应用。光盘应用。光盘应用。光盘应用。目前国际上比较成熟的高保真立体声音频压缩标目前国际上比较成熟的高保真立体声音频压缩标准为准为MPEGMPEG音频音频。MPEG-1MPEG-1和和MPEG-2MPEG-2的声音数据压缩编码不是依据波的声音数据压缩编码不是依据波形本身的相关性和模拟人的发音器官的特性,而形本身的相关性和模拟人的发音器官的特性,而是利用人的是利用人的听觉系统的特性听觉系统的特性来达到压缩声音数据来达到压缩声音数据的目的,这种压缩编码称为感知声音编码的目的,这种压缩编码称为感知声音编码(perceptual audio cod

30、ing)(perceptual audio coding)。4.2.1 G.7XX系列音频信号压缩编码标准G.711 64 kbps 信道上的语音频率脉冲编码调制(PCM)G.721 32 kbit/s 自适应差分脉冲编码调制(ADPCM)G.722 64 kbit/s 下的 7 kHz 音频编码 G.722.1 G.722.1 带有低帧损耗的具有免提操作的系统在带有低帧损耗的具有免提操作的系统在 24 24 kbit/skbit/s 和和 32 32 kbit/skbit/s 上的编码上的编码 G.722.2 G.722.2 利用自适应多频率宽带(利用自适应多频率宽带(AMR-WBAMR-W

31、B)以)以 16 16 kbit/skbit/s 多频率语音编码多频率语音编码G.723: G.723是一种以是一种以24Kbps运行的基于运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压的有损耗压缩标准。其音质不如非压缩的缩的 G.711PCM 标准以及基于标准以及基于 SBADPCM SBADPCM 的的 G.722标准。标准。G.723.1和和G.723.2用于用于H.324标准。标准。G.726 40、32、24、16 kbit/s 自适应差分脉冲编码调制 ADPCM G.727 5-、4-、 3-和 2-bit/s 嵌入式自适应差分脉冲编码调制 ADPCMG.728 利用低延

32、迟代码线性预测以 16 bit/s 进行语音编码G.729 利用共扼结构代数激励编码线性预测(CS-ACELP)以 8 bit/s 进行语音编码4.2.2 MPEG-X系列音频信号压缩标准MPEG-1制定于1992年,为工业级标准而设计。它处理音频时,具有CD(指激光唱盘)音质,质量级别基本与VHS相当。MPEG-1是针对整个音频范围的声音进行编码,采样频率为48kHz、采样精度为16位的立体声数据压缩到256b/s时,即在6:1的压缩率下,即使是专业测试员,也难以分辨出是解压声音还是原始声音。4.2.2 MPEG-X系列音频信号压缩标准MPEG-2制定于1994年,设计目标是高级工业标准的图

33、象质量以及更高的传输率。MPEG-2可提供CD级的音质。MPEG-2的音频编码可提供左右中及两个环绕声道,以及一个加重低音声道,和多达7个伴音声道(DVD可有8种语言配音的原因)。由于MPEG-2在设计时的巧妙处理,使得大多数MPEG-2解码器也可播放MPEG-1格式的数据,如VCD。 4.2.2 MPEG-X系列音频信号压缩标准两种声音数据压缩格式(1)MPEG-2 Audio,或者称为MPEG-2多声道(Multichannel)声音,又称为MPEG-2 BC(Backward Compatible,后向兼容),与MPEG-1 Audio是兼容的。(2)MPEG-2 AAC(Advance

34、d Audio Coding,先进的音频编码),通常称为非后向兼容MPEG-2 NBC(Non-Backward-Compatible,非后向兼容)标准,与MPEG-1声音格式不兼容。MPEG-4音频编码 19961996年年1111月月在在MaceioMaceio举举行行的的MPEGMPEG第第3737次次会会议议正正式式确确定定的的MPEG-2MPEG-2先先进进音音频频编编码码AACAAC(Advanced Advanced Audio Audio CodingCoding),已已被被作作为为目目前前正正在制定的在制定的MPEG-4MPEG-4音频标准的一部分。音频标准的一部分。 199

35、61996年年3 3月月在在意意大大利利FlorenceFlorence举举行行的的MPEGMPEG第第3434次次会会议议上上给给出出了了MPEG-4MPEG-4音音频频验验证证模模型型VMVM的的第第一一个个完完整整描描述述。通通过过大大量量的的核核心心实实验(验(Core ExperimentCore Experiment),),音频验证模型得到了迅速的发展。音频验证模型得到了迅速的发展。 19961996年年1111月月就就公公布布了了第第一一个个MPEG-4MPEG-4的的音音频频工工作作草草案案。在在MPEGMPEG第第4040次次 会会 议议 上上 , 结结 构构 音音 频频 S

36、ASA( Structured Structured AudioAudio) 和和 文文 语语 转转 换换TTSTTS(Text Text to to SpeechSpeech)被被加加到到MPEG-4MPEG-4音音频频标标准准中中,作作为为合合成成的的音频编码部分。音频编码部分。 19971997年年1111月月在在FribourgFribourg举举行行的的MPEGMPEG第第4141次次会会议议公公布布了了音音频频标标准准的的最最终终标标准准草草案案(Final Final Draft Draft International International StandardStandard

37、),内内容容与与正式标准基本相同。正式标准基本相同。 19991999年年1 1月公布正式标准版本月公布正式标准版本1 1 2000 2000年年1 1月公布标准的版本月公布标准的版本2 24.2.2 MPEG-X系列音频信号压缩标准4.2.2 MPEG-X系列音频信号压缩标准MPEG-4音频标准(ISO/IEC 14496-3)分为自然音频编码和合成音频编码两大类。MPEG-4(ISO/IEC 14496)已建立了两个版本,正在开发第3版。MPEG-4音频部分促进广泛的应用,这些应用可能包括从智能语音到高质量多声道音频,从自然声音到合成声音。特别是,它支持由下述成分组成的音频对象的高效表示:

38、 语音信号: 合成语音:它允许一个文本或带有韵律参数的文本(基音轮廓,音素持续期等等)作为输入产生可理解的合成语音。4.3 G.7XX声音压缩编码G.711声音压缩编码G.722声音压缩编码G.723声音压缩编码G.729声音压缩编码各自的编码方法各自的编码方法编编/ /解码器结构及工作原理解码器结构及工作原理4.3.1 G.722声音压缩编码G.722基于子带 ADPCM技术 (SBADPCM) ,它是将现有的带宽分成两个独立的子带信道分别采用差分脉冲编码调制算法。 G.722压缩信号的带宽范围为50Hz到7kHz,而G.711仅限于4.4kHz。其比特率为48、56、64Kbps,在标准模

39、式下,采样速率是16KHz,幅度深度为14比特。 1、G.722的编码方法采用子带自适应差分脉冲编码调制技术(SB-ADPCM)。以上技术的操作方法是: 用正交镜像滤波器(用正交镜像滤波器(QMFQMF)把频带分割成两把频带分割成两个等带宽的子带,分别是高频带和低频带。个等带宽的子带,分别是高频带和低频带。 对两个子带中的信号采用对两个子带中的信号采用ADPCMADPCM进行编码。进行编码。 其基本思想是将信号分解为若干子频带内的分其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。性采取不

40、同的压缩策略以降低码率。 2、 G.722的编/解码器G.722音频编/解码器结构如下图所示:a.编码器编码器高子带高子带ADPCM编码编码音频音频信号信号输入输入声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM编码编码多多路路复复合合器器IH16Kbit/sIL16Kbit/sXinXHXL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输入数据输入部件部件高子带高子带ADPCM解码解码音频音频信号信号输出输出声音声音数据数据传送传送部件部件发送正发送正交镜像交镜像滤波器滤波器低子带低子带ADPCM解码解码多多路路复复合合器器IH

41、16Kbit/sIL16Kbit/sYoutYHYL附加数据附加数据0Kbit/s,8Kbit/s,16Kbit/s数据输出数据输出部件部件b.解码器解码器4.3.2 G.723声音压缩编码G.723是ITU-T在1996年制订成型的一种多媒体语音编解码标准。其典型应用包括IP电话服务、H.324视频电话、无线电话、数字卫星系统、数电倍增设备(DCME)、公共交换电话网(PSTN)、ISDN及各种多媒体语音信息产品。G.723标准传输码率有5.3kb/s和6.3kb/s两种,在编程过程中可随时切换,两种速率的区别在于采用的激励技术不同。该标准主要包含了编码算法和解码算法。 G.723声音压缩编

42、码5.3kb/s的编码器采用代数码线预测激励(ACELP);6.3kb/s的编码器则采用多脉冲最大似然量化(MP-MLQ)激励。编码原理:从采集的语音信号中解析出声道模型参数,构造一个合成滤波器,采用合适的激励源激励,编码传输的参数主要是激励源与合成滤波器的参数。接收端根据传输编码参数,重构出激励源与合成滤波器进行解码,还原出来的数字语音信号经D/A转换器转换成模拟语音信号。G.723是基于分析合成的声音压缩编码标准。参数编码此编码方法又称音源编码,其原理参见下图。此编码方法又称音源编码,其原理参见下图。预加重预加重加窗加窗自相关函数自相关函数清清/浊音判浊音判断断基音提取基音提取线性预测编码

43、线性预测编码MUX及及量量化化编编码码语音样本语音样本编码编码ai下面,首先介绍G.723中的参数编码方法,再由于参数编码方法中语音生成模型里使用的激励信号过于简单而造成话音质量不高的缺点,再介绍一种将波形编码与音源编码混合的编码方法。参数编码原理:参数编码原理: 通过分析声音的产生机理,建立数学模型。编码时从声音波通过分析声音的产生机理,建立数学模型。编码时从声音波形信号中提取生成声音的参数;解码时使用这些参数通过声音形信号中提取生成声音的参数;解码时使用这些参数通过声音生成模型,重构出声音。生成模型,重构出声音。 话音生成模型把声音的产生过程看成是由声带振动脉冲激励话音生成模型把声音的产生

44、过程看成是由声带振动脉冲激励声道滤波器的结果。声道滤波器的结果。 话音参数包括:清浊音比例、浊音周期、增益系数、滤波器话音参数包括:清浊音比例、浊音周期、增益系数、滤波器参数等。参数等。 根据接收到的话音参数,基于下图中的生成过程进行话音重根据接收到的话音参数,基于下图中的生成过程进行话音重构:构:脉冲序列发生器脉冲序列发生器随机噪声发生器随机噪声发生器声道滤波器声道滤波器基音周期基音周期T滤波器参数滤波器参数音源幅度音源幅度音源幅度音源幅度语音输出语音输出浊音浊音清音清音ai4.3.3 GSM编译码器简介编译码器简介 除了除了ADPCMADPCM算法已经得到普遍应用之外,还有一种使用较普遍算

45、法已经得到普遍应用之外,还有一种使用较普遍的波形声音压缩算法叫做的波形声音压缩算法叫做GSMGSM算法。算法。GSMGSM是是G Global lobal S System for ystem for MMobile communicationsobile communications的缩写,可译成全球数字移动通信系统。的缩写,可译成全球数字移动通信系统。GSMGSM算法是算法是19921992年柏林技术大学根据年柏林技术大学根据GSMGSM协议开发的,这个协协议开发的,这个协议是欧洲最流行的数字蜂窝电话通信协议。议是欧洲最流行的数字蜂窝电话通信协议。GSMGSM的输入是帧的输入是帧(fram

46、e)(frame)数据,一帧数据,一帧(20(20毫秒毫秒) )由采样频率为由采样频率为8 kHz8 kHz的带符号的的带符号的160160个样本组成,每个样本为个样本组成,每个样本为1313位或者位或者1616位的位的线性线性PCM(linearPCM(linear PCM) PCM)码。码。GSMGSM编码器可把一帧编码器可把一帧(16016(16016位位) )的的数据压缩成数据压缩成260260位的位的GSMGSM帧,压缩后的数据率为帧,压缩后的数据率为16251625字节,相字节,相当于当于13 kb/s13 kb/s。由于。由于260260位不是位不是8 8位的整数倍,因此编码器输

47、出的位的整数倍,因此编码器输出的GSMGSM帧为帧为264264位的线性位的线性PCMPCM码。采样频率为码。采样频率为8 kHz8 kHz、每个样本为、每个样本为1616位的未压缩的话音数据率为位的未压缩的话音数据率为128 kb/s128 kb/s,使用,使用GSMGSM压缩后的数压缩后的数据率为:据率为:(264(264位位80008000样本样本/ /秒秒)/160)/160样本样本=13.2 =13.2 千位千位/ /秒秒GSMGSM的压缩比:的压缩比:128:13.2 = 9.7128:13.2 = 9.7,近似于,近似于10:110:1。 4.4 MPEG-X声音压缩编码由于有必

48、要确定一套通用的视频和音频声音编码方案,ISO/IEC标准组织成立了ISO/IES JTC1/SC29/WG11,即MPEG(活动图像专家组)。该小组负责比较和评估几种低码速率数字声音编码技术,以产生一套国际标准,用于活动图像、相关声音信息及其结合,和用数字存储媒体(DSM)存储与重现。MPEG针对的DSM包括CD-ROM、DAT、磁光碟和电脑磁盘。MPEG Audio标准是指标准是指MPEG-1 Audio、MPEG-2 Audio和和MPEG-2 AAC,MPEG-4 Audio和和MPEG-7音频框架与前面章节介绍的波形声音压缩编码与前面章节介绍的波形声音压缩编码( (如如ADPCM)A

49、DPCM)和参数和参数编码编码( (如如LPC)LPC)不同,不同,MPEG-1MPEG-1和和MPEG-2MPEG-2的声音数据压缩编的声音数据压缩编码不是依码不是依 据波形本身的相关性和模拟人的发音器官的据波形本身的相关性和模拟人的发音器官的特性,而是利用人的听觉系统的特性来达到压缩声音特性,而是利用人的听觉系统的特性来达到压缩声音数据的目的,这种压缩编码称为数据的目的,这种压缩编码称为感知声音编码感知声音编码感知声音编码感知声音编码 (perceptual audio coding)(perceptual audio coding)。进入进入2020世纪世纪8080年代之后,尤其最近几年

50、,人类在利用年代之后,尤其最近几年,人类在利用自身的听觉系统的特性来压缩声音数据方面取得了很自身的听觉系统的特性来压缩声音数据方面取得了很大的进展,先后制定了大的进展,先后制定了MPEG-1 Audio, MPEG-2 AudioMPEG-1 Audio, MPEG-2 Audio等标准等标准它们处理它们处理10 Hz10 Hz20000 Hz20000 Hz范围里的声音数据,使用范围里的声音数据,使用“心理声学模型心理声学模型(psychoacoustic model)”(psychoacoustic model)”来达到压缩来达到压缩声音数据的目的。声音数据的目的。“听阈听阈频率频率”曲线

51、曲线 当声音弱到人的耳朵刚刚可以听见时,我们称此时的声音强度为“听阈”。听阈是随频率变化的另一种极端的情况是声音强到使人耳感到疼痛。实验表明,如果频率为1 kHz的纯音的声强级达到120 dB左右时,人的耳朵就感到疼痛,这个阈值称为“痛阈”。 1.对响度的感知对响度的感知 4.4.1 听觉系统的感知特性听觉系统的感知特性 在“听阈频率”曲线和“痛阈频率”曲线之间的区域就是人耳的听觉范围。2.对音高的感知对音高的感知 客观上用频率来表示声音的音高,其单位是Hz。人耳可以听到的最低频率约20 Hz,最高频率约18000 Hz。 3.掩蔽效应掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现

52、象称为掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象称为掩蔽效应 .前者称为掩蔽声音(masking tone),后者称为被掩蔽声音(masked tone)。掩蔽可分成频域掩蔽和时域掩蔽。 频域掩蔽 也称同时掩蔽也称同时掩蔽(simultaneous masking)(simultaneous masking)。 如图所示,一个声强为如图所示,一个声强为60dB60dB、频率为、频率为1000Hz1000Hz的纯音,另外的纯音,另外还有一个还有一个1100Hz1100Hz的纯音,前者比后者高的纯音,前者比后者高18dB18dB,在这种情况,在这种情况下,下,我们就只能听到我们就

53、只能听到1000Hz1000Hz的强音。的强音。要想让要想让2000Hz2000Hz的纯音也听不到,则需要把它降到比的纯音也听不到,则需要把它降到比1000Hz1000Hz的纯音低的纯音低45dB45dB。一般弱纯音离强纯音越近就越容易被掩蔽。一般弱纯音离强纯音越近就越容易被掩蔽。听阈60dB,1KHz声音的掩蔽区域45临界频带临界频带 由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一由于声音频率与掩蔽曲线不是线性关系,为从感知上来统一度量声音频率,引入了度量声音频率,引入了度量声音频率

54、,引入了度量声音频率,引入了“临界频带临界频带临界频带临界频带(critical band)(critical band)(critical band)(critical band)”的概念。的概念。的概念。的概念。-人人人人类类听听听听觉觉系系系系统统HASHASHASHAS在在在在20Hz20Hz20Hz20Hz到到到到16kHz16kHz16kHz16kHz范围内有范围内有范围内有范围内有24242424个临界频带,茨个临界频带,茨个临界频带,茨个临界频带,茨维克尔得出的离散的临界宽度表。临界频带的单位叫维克尔得出的离散的临界宽度表。临界频带的单位叫维克尔得出的离散的临界宽度表。临界频带

55、的单位叫维克尔得出的离散的临界宽度表。临界频带的单位叫Bark(Bark(Bark(Bark(巴克巴克巴克巴克) ) ) )1Bark = 1Bark = 1Bark = 1Bark = 一个临界频带的宽度一个临界频带的宽度一个临界频带的宽度一个临界频带的宽度f f f f( ( ( (频率频率频率频率) 500 Hz) 500 Hz) 500 Hz) 500 Hz) 500 Hz) 500 Hz) 500 Hz的情况下的情况下的情况下的情况下, 1Bark9+4log(, 1Bark9+4log(, 1Bark9+4log(, 1Bark9+4log(f f f f/1000)/1000)/

56、1000)/1000)临临界界界界频频带带是是是是一一一一个个个个主主主主观观反反反反映映映映突突突突然然然然发发生生生生变变化化化化的的的的带带宽宽,也也也也是是是是人人人人耳耳耳耳分分分分割割割割不不不不同同同同频频率声音能力的一个基本近似。率声音能力的一个基本近似。率声音能力的一个基本近似。率声音能力的一个基本近似。人人人人耳耳耳耳是是是是以以以以临临界界界界频频带带为为单单位位位位对对声声声声音音音音进进行行行行处处理理理理的的的的。在在在在一一一一个个个个临临界界界界频频带带内内内内,耳耳耳耳朵朵的听的听的听的听觉觉感知特性很感知特性很感知特性很感知特性很类类似,很多心理声学特性都是

57、相同的。似,很多心理声学特性都是相同的。似,很多心理声学特性都是相同的。似,很多心理声学特性都是相同的。输输入入入入信信信信号号号号在在在在临临界界界界频频带带内内内内,即即即即使使使使加加加加入入入入更更更更大大大大的的的的噪噪噪噪声声声声,人人人人耳耳耳耳也也也也不不不不能能能能察察察察觉觉出与原信号出与原信号出与原信号出与原信号间间的差的差的差的差别别。 临界频带临界频率 (Hz)临界频率 (Hz)频带低端高端宽度频带低端高端宽度00100100132000232032011002001001423202700380220030010015270031504503300400100163

58、15037005504400510110173700440070055106301201844005300900663077014019530064001100777092015020640077001300892010801602177009500180091080127019022950012000250010127014802102312000155003500111480172024024155002205065501217202000280心理声学模型中一个基本的概念就是听觉系统中心理声学模型中一个基本的概念就是听觉系统中存在一个听觉阈值电平,低于这个电平的声音信存在一个听觉阈值电平

59、,低于这个电平的声音信号就听不到,因此就可以把这部分信号去掉。号就听不到,因此就可以把这部分信号去掉。心理声学模型中的另一个概念是心理声学模型中的另一个概念是听觉掩饰特性听觉掩饰特性,意思是一种频率的声音阻碍听觉系统感受另一种意思是一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。例如,同时有两种频率的声频率的声音的现象。例如,同时有两种频率的声音存在,一种是音存在,一种是1000 Hz1000 Hz的声音,另一种是的声音,另一种是1100 1100 HzHz的声音,但它的强度比前者低的声音,但它的强度比前者低1818分贝,因此,分贝,因此,1100 Hz1100 Hz的声音就会听不到的声

60、音就会听不到比如在一安静房间里的普通谈话可以听得很清楚,比如在一安静房间里的普通谈话可以听得很清楚,但在播放摇滚乐的环境下同样的普通谈话就听不但在播放摇滚乐的环境下同样的普通谈话就听不清楚了。声音压缩算法也同样可以确立这种特性清楚了。声音压缩算法也同样可以确立这种特性的模型来取消更多的冗余数据。的模型来取消更多的冗余数据。以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中以上我们讨论了响度、音高和掩蔽效应,尤其是人的主观感觉。其中掩蔽效应尤为重要,它是心理声学模型的基础。掩蔽效应尤为重要,它是心理声学模型的基础。 4.4.2 MPEG-1声音压缩编码lPCM,ADPCM,音源特定编码

61、:这种方法主要是针对话音的编码音源特定编码:这种方法主要是针对话音的编码,300-3400Hz,如果用来编码音乐,质量比较差如果用来编码音乐,质量比较差lMPEG-1的声音压缩采用了另一种方法,称为子带编码的声音压缩采用了另一种方法,称为子带编码(sub-band coding,SBC)方法,这也是一种功能很强而且很有效的声方法,这也是一种功能很强而且很有效的声音信号编码方法。与音源特定编码法不同,音信号编码方法。与音源特定编码法不同,SBC不局限于只对话音不局限于只对话音进行编码,也不局限于哪一种声源。进行编码,也不局限于哪一种声源。lSBC的基本想法就是在编码过程中保留信号的带宽而扔掉被掩

62、蔽的基本想法就是在编码过程中保留信号的带宽而扔掉被掩蔽的信号,其结果是编码之后还原的声音,也就是解码或者叫做重构的信号,其结果是编码之后还原的声音,也就是解码或者叫做重构的声音信号与编码之前的声音信号不相同,但人的听觉系统很难感的声音信号与编码之前的声音信号不相同,但人的听觉系统很难感觉到它们之间的差别觉到它们之间的差别 MPEGMPEG音频第一和第二层次编码是将输入音音频第一和第二层次编码是将输入音音频第一和第二层次编码是将输入音音频第一和第二层次编码是将输入音频信号进行采样频率为频信号进行采样频率为频信号进行采样频率为频信号进行采样频率为48kHz48kHz,44.1kHz44.1kHz,

63、32kHz32kHz的采样,经滤波的采样,经滤波的采样,经滤波的采样,经滤波器组将其分为器组将其分为器组将其分为器组将其分为3232个子带,同时利用个子带,同时利用个子带,同时利用个子带,同时利用人耳屏蔽效应人耳屏蔽效应人耳屏蔽效应人耳屏蔽效应,根据音频信号的,根据音频信号的,根据音频信号的,根据音频信号的性质计算各频率分量的性质计算各频率分量的性质计算各频率分量的性质计算各频率分量的人耳屏蔽门限人耳屏蔽门限人耳屏蔽门限人耳屏蔽门限,选择各子带的量化参数,获,选择各子带的量化参数,获,选择各子带的量化参数,获,选择各子带的量化参数,获得高的压缩比。得高的压缩比。得高的压缩比。得高的压缩比。MP

64、EGMPEG第三层次是在上述处理后再引入辅助子带,第三层次是在上述处理后再引入辅助子带,第三层次是在上述处理后再引入辅助子带,第三层次是在上述处理后再引入辅助子带,非均匀量化和熵编码技术,再进一步提高压缩比非均匀量化和熵编码技术,再进一步提高压缩比非均匀量化和熵编码技术,再进一步提高压缩比非均匀量化和熵编码技术,再进一步提高压缩比 。MPEG-1音频压缩标准MPEG-1MPEG-1音频层根据压缩质量和编码复杂度分为音频层根据压缩质量和编码复杂度分为Layer1Layer1、Layer2Layer2、Layer3Layer3三层三层 层层1 1的的编编码码器器最最为为简简单单,编编码码器器的的输

65、输出出数数据据率率为为 384 384 kb/skb/s, 主主 要要 用用 于于 小小 型型 数数 字字 盒盒 式式 磁磁 带带(digital compact cassette(digital compact cassette,DCC)DCC)。 层层2 2的的编编码码器器的的复复杂杂程程度度属属中中等等,编编码码器器的的输输出出数数据据率率为为256 256 kb/skb/s192 192 kb/skb/s,其其应应用用包包括括数数字字广广播播声声音音(digital (digital broadcast broadcast audioaudio,DBA)DBA)、数数字字音音乐乐、CD

66、-I(compact CD-I(compact disc-interactive)disc-interactive)和和VCD(video compact disc)VCD(video compact disc)等。等。 层层3 3的的编编码码器器最最为为复复杂杂,编编码码器器的的输输出出数数据据率率为为64 64 kb/skb/s,主主要要应应用用于于ISDNISDN上上的的声声音音传传输输。广广泛泛用于用于INTERNETINTERNET传播。传播。MPEG-1的声音压缩速率分层分层算法算法压缩比率压缩比率立体声音频的数据立体声音频的数据率率1 1MUSICAMMUSICAM4:14:13

67、84 384 kbpskbps2 2MUSICAMMUSICAM6:18:16:18:1256192 256192 kbpskbps3 3ASPECASPEC10:112:110:112:1128112 128112 kbpskbps在尽可能保持在尽可能保持CD音质为前提的条件下,音质为前提的条件下,MPEG声音标准一般所能声音标准一般所能达到的压缩率如表所示,达到的压缩率如表所示,*MUSICAM(Masking pattern adapted Universal Subband Integrated Coding And Multiplexing) * ASPEC(Adaptive Spe

68、ctral Perceptual Entropy Coding of high quality musical signal)MPEG-1音频压缩标准MPEG-1 Audio (ISO/IEC 11172-3)MPEG-1 Audio (ISO/IEC 11172-3)压缩算法是世界上压缩算法是世界上第一个高保真声音数据压缩国际标准,并且得到了极第一个高保真声音数据压缩国际标准,并且得到了极其广泛的应用。虽然其广泛的应用。虽然MPEGMPEG声音标准是声音标准是MPEGMPEG标准的一部标准的一部分,但它也完全可以独立应用。数据的输入分,但它也完全可以独立应用。数据的输入/ /输出图输出图如下

69、:如下:虽然虽然MPEG声音标准是声音标准是MPEG标准的一部分,但它标准的一部分,但它也完全可以独立应用。也完全可以独立应用。MPEG-1音频压缩标准MPEG-1 AudioMPEG-1 Audio的编码对象是的编码对象是20-20kHz20-20kHz的宽带声音,因的宽带声音,因此它采用了感知子带编码。或叫做此它采用了感知子带编码。或叫做子带编码子带编码(sub-(sub-band codingband coding,SBC)SBC)。利用子带编码达到既利用子带编码达到既压缩声音数据又尽可能保留声音压缩声音数据又尽可能保留声音原有质量原有质量的目的。的目的。这种方法的具体思想是首先把时域中

70、的声音数据变换这种方法的具体思想是首先把时域中的声音数据变换到频域中的多个自带当中,对每个子带里的信号分别到频域中的多个自带当中,对每个子带里的信号分别进行量化和编码,根据心理声学模型确定样本的精度,进行量化和编码,根据心理声学模型确定样本的精度,从而达到压缩数据量的目的。从而达到压缩数据量的目的。MPEGMPEG声音数据压缩的基础是声音数据压缩的基础是量化量化量化量化。 虽然量化会带来失真,但虽然量化会带来失真,但虽然量化会带来失真,但虽然量化会带来失真,但MPEGMPEG标准要求量化失真对于人标准要求量化失真对于人标准要求量化失真对于人标准要求量化失真对于人耳来说是感觉不到的。在耳来说是感

71、觉不到的。在耳来说是感觉不到的。在耳来说是感觉不到的。在MPEGMPEG标准的制定过程中,标准的制定过程中,标准的制定过程中,标准的制定过程中,MPEG-AudioMPEG-Audio委员会作了大量的主观测试实验。实验表明,委员会作了大量的主观测试实验。实验表明,委员会作了大量的主观测试实验。实验表明,委员会作了大量的主观测试实验。实验表明,采样频率为采样频率为采样频率为采样频率为48 kHz48 kHz、样本精度为、样本精度为、样本精度为、样本精度为1616比特的声音数据压缩比特的声音数据压缩比特的声音数据压缩比特的声音数据压缩到到到到256 kb/s256 kb/s时,即在时,即在时,即在

72、时,即在6 6:1 1的压缩率下,即使是专业测试的压缩率下,即使是专业测试的压缩率下,即使是专业测试的压缩率下,即使是专业测试员也很难分辨出是原始声音还是编码压缩后的声音。员也很难分辨出是原始声音还是编码压缩后的声音。员也很难分辨出是原始声音还是编码压缩后的声音。员也很难分辨出是原始声音还是编码压缩后的声音。 1.MPEG-1编码器输入声音信号经过一个输入声音信号经过一个“时间时间- -频率多相滤波器组频率多相滤波器组”变换到频域变换到频域里的多个子带中。里的多个子带中。 滤波器组:实现时域到频域的转换,采用多相正交分解滤波器滤波器组:实现时域到频域的转换,采用多相正交分解滤波器组将数字化的宽

73、带音频信号分成组将数字化的宽带音频信号分成3232个子带个子带输入声音信号同时经过输入声音信号同时经过“心理声学模型心理声学模型( (计算掩蔽特性计算掩蔽特性)”)”,该,该模型计算以频率为自变量的噪声掩蔽阈值模型计算以频率为自变量的噪声掩蔽阈值(masking (masking thresholdthreshold) ),查看输入信号和子带中的信号以确定每个子带里的信号能量,查看输入信号和子带中的信号以确定每个子带里的信号能量与掩蔽阈值的比率。与掩蔽阈值的比率。“量化和编码量化和编码”部分用信掩比部分用信掩比(signal-to-mask ratio(signal-to-mask ratio

74、,SMR)SMR)来来决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。决定分配给子带信号的量化位数,使量化噪声低于掩蔽阈值。最后通过最后通过“数据流帧包装数据流帧包装”将量化的子带样本和其他数据按照将量化的子带样本和其他数据按照规定的称为规定的称为“帧帧(frame)”(frame)”的格式组装成位数据流。的格式组装成位数据流。MPEG-1声音压缩编码MPEG-1音频编码示意图:Uncompressed Audio DataFilterBanksQuantization32 Sub-bandsPsychoacoustical ModelMultiplexer Entropy CoderC

75、ompressed Audio DataControlMPEG basic steps of audio encoding2.MPEG-1解码器解码器对位数据流进行解码,恢复被量化的子带样本值以重建声音信号。由于解码器无需心理声学模型,只需拆包、重构子带样本和把它们变换回声音信号,因此解码器比编码器简单得多。 3. 编码层MPEG声音压缩定义了3个分明的层次,它们的基本模型是相同的。层层1 1是最基础的,层是最基础的,层2 2和层和层3 3都在层都在层1 1的基础上有所的基础上有所提高。提高。每个后继的层次都有更高的压缩比,但需要更复每个后继的层次都有更高的压缩比,但需要更复杂的编码解码器。杂

76、的编码解码器。MPEGMPEG声音的每一个层都自含声音的每一个层都自含SBCSBC编码器,其中包编码器,其中包含含 “ “时间时间- -频率多相滤波器组频率多相滤波器组” ”、“ “心理声学模心理声学模型型( (计算掩蔽特性计算掩蔽特性)”)”、“ “量化和编码量化和编码” ”和和“ “数据数据流帧包装流帧包装” ”,而高层,而高层SBCSBC可使用低层可使用低层SBCSBC编码的声编码的声音数据。音数据。MPEGMPEG的声音数据分成帧的声音数据分成帧(frame)(frame),层层1 1每帧包含每帧包含384384个个样本的数据,每帧由样本的数据,每帧由3232个子带分别输出的个子带分别

77、输出的1212个样本个样本组成。组成。层层即称掩蔽模式通用子带集成编码与多路复用,即称掩蔽模式通用子带集成编码与多路复用,层层2 2对层对层1 1作了一些直观的改进,相当于作了一些直观的改进,相当于3 3个层个层1 1的帧,的帧,层层2 2和层和层3 3每帧有每帧有11521152个样本。它使用的心理声学模个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并且在低、中和高频段对位分配作了一些限制,性,并且在低、中和高频段对位分配作了一些限制,对位分配、比例因子和量化样本值的编码也更紧凑。对位分配、比例因子和量化样本值的编码也更

78、紧凑。由于层由于层2 2采用了上述措施,因此所需的位数减少了,采用了上述措施,因此所需的位数减少了,这样就可以有更多的位用来表示声音数据,音质也这样就可以有更多的位用来表示声音数据,音质也比层比层1 1更高。更高。 典型的码流为每通道典型的码流为每通道128 128 KbitKbit/S/S,广泛应用于数字,广泛应用于数字音频广播、数字演播室等数字音频专业的制作、交音频广播、数字演播室等数字音频专业的制作、交流、存储和传送。流、存储和传送。层层1、2和层和层3的子带样本的子带样本 . 层层1 ISO/MPEG audio层层1和层和层2编码器和解码器的结构编码器和解码器的结构 层层1的子带是频

79、带相等的子带,它的心理声学模型仅使用频域掩蔽特性。层的子带是频带相等的子带,它的心理声学模型仅使用频域掩蔽特性。层1的的“时间时间-频率多相滤波器组根据信号的频率、强度和音调,输出掩蔽阈值。使用这个阈值频率多相滤波器组根据信号的频率、强度和音调,输出掩蔽阈值。使用这个阈值与子带中的最大信号进行比较,产生信掩比与子带中的最大信号进行比较,产生信掩比SMR之后再之后再 输入到输入到“量化和编码器量化和编码器”。“量化和编码器量化和编码器”首先检查每个子带的样本,找出这些样本中的最大的绝对值,然首先检查每个子带的样本,找出这些样本中的最大的绝对值,然后量化成后量化成6比特,这个比特数称为比例因子比特

80、,这个比特数称为比例因子(scale factor)。“量化和编码器量化和编码器”然后根然后根据据SMR确定每个子带的比特分配确定每个子带的比特分配(bit allocation),子带样本按照比特分配进行量化和,子带样本按照比特分配进行量化和编码。对被高度掩蔽的子带自然就不需要对它进行编码。编码。对被高度掩蔽的子带自然就不需要对它进行编码。 每帧都包含:每帧都包含:用于同步和记录该帧信息的同步头,长用于同步和记录该帧信息的同步头,长度为度为3232位位用于检查是否有错误的循环冗余码用于检查是否有错误的循环冗余码(cyclic (cyclic redundancy coderedundancy

81、 code,CRC)CRC),长度为长度为1616位,位,用于描述位用于描述位分配的位分配域,长度为分配的位分配域,长度为4 4位,位,比例因子域,长度为比例因子域,长度为6 6位,位,子带样本域,子带样本域,有可能添加的附加数据域,长度有可能添加的附加数据域,长度未规定。未规定。层层1 1的帧结构如图所示的帧结构如图所示 MPEG声音比特流同步头的格式 层层2 层2对层1作了一些直观的改进,相当于3个层1的帧,每帧有1152个样本。它使用的心理声学模型除了使用频域掩蔽特性之外还利用了时间掩蔽特性,并 且在低、中和高频段对比特分配作了一些限制,对比特分配、比例因子和量化样本值的编码也更紧凑。由

82、于层2采用了上述措施,因此所需的比特数减少了,这样就 可以有更多的比特用来表示声音数据,音质也比层1更高。如图所示,层2使用与层1相同的同步头和CRC结构,但描述比特分配的位数(即比特数)随子带不同而变化:低频段的子带用4比特,中频段的子带用3比特,高频段的子带用2比特。层2比特流中有一个比例因子选择信息(scale factor selection information,SCFSI)域,解码器根据这个域的信息可知道是否需要以及如何共享比例因子。层2比特流数据格式 层层3层3使用比较好的临界频带滤波器,把声音频带分成非等带宽的子带,心理声学模型除了使用频域掩蔽特性和时间掩蔽特性之外,还考虑了

83、立体声数据的冗余,并且使用了赫夫曼(Huffman)编码器。层3编码器的详细框图如图所示 ISO/MPEG audio层3编码器和解码器的结构 层层3 3使用了从使用了从ASPEC(AudioASPEC(Audio Spectral Perceptual Entropy Spectral Perceptual Entropy Encoding)Encoding)和和OCF(OptimalOCF(Optimal Coding In The Frequency Coding In The Frequency domain)domain)导出的算法,比层导出的算法,比层1 1和层和层2 2都要复杂。

84、都要复杂。虽然层虽然层3 3所用的滤波器组与层所用的滤波器组与层1 1和层和层2 2所用的滤波器组的结构相所用的滤波器组的结构相同,但是层同,但是层3 3还使用了还使用了改进离散余弦变换改进离散余弦变换(modified discrete (modified discrete cosine transformcosine transform,MDCT)MDCT),对层,对层1 1和层和层2 2的滤波器组的不足作的滤波器组的不足作了一些补偿了一些补偿 。除了使用除了使用MDCTMDCT外,层外,层3 3还采用了其他许多改进措施来提高压缩还采用了其他许多改进措施来提高压缩比而不降低音质。虽然层比而

85、不降低音质。虽然层3 3引入了许多复杂的概念,但是它的引入了许多复杂的概念,但是它的计算量并没有比层计算量并没有比层2 2增加很多。增加的主要是编码器的复杂度增加很多。增加的主要是编码器的复杂度和解码器所需要的存储容量和解码器所需要的存储容量层层是综合于层是综合于层和和ASPECASPEC(自适应谱分析听觉熵编码自适应谱分析听觉熵编码)的优的优点提出的混合压缩技术,点提出的混合压缩技术,MP3MP3的复杂度相对较高,典型码流为的复杂度相对较高,典型码流为64 64 KbitKbit/S/S,在低码率下有高品质的音质,所以成为网上音源在低码率下有高品质的音质,所以成为网上音源的宠儿。的宠儿。4.

86、4.3 MPEG-2声音压缩编码MPEG-2标准委员会定义了两种声音数据压缩格式:一种称为一种称为MPEG-2 AudioMPEG-2 Audio,或者称为,或者称为MPEG-2MPEG-2多多通道通道( (MultichannelMultichannel) )声音,因为它与声音,因为它与MPEG-1 MPEG-1 AudioAudio是兼容的,所以又称为是兼容的,所以又称为MPEG-2 BC MPEG-2 BC ( (B Backward ackward C Compatible)ompatible)。另一种称为另一种称为MPEG-2 AAC (MPEG-2 AAC (A Advanced

87、dvanced A Audio udio C Coding)oding),因为它与,因为它与MPEG-1MPEG-1声音格式不兼容,声音格式不兼容,因此通常称为非后向兼容因此通常称为非后向兼容MPEG-2 MPEG-2 NBC(NBC(NNonon- -B Backward-ackward-C Compatible)ompatible)标准。标准。MPEG2-AudioMPEG-2 MPEG-2 Audio(ISOAudio(ISO/IEC 13818-3)/IEC 13818-3)和和MPEG-1 MPEG-1 Audio(ISOAudio(ISO/IEC 1117-3)/IEC 1117-

88、3)标准都使用相同种类的编标准都使用相同种类的编译码器,层译码器,层-1, -2-1, -2和和-3-3的结构也相同。的结构也相同。MPEG-2MPEG-2声音标准与声音标准与MPEG-1MPEG-1标准相比,标准相比,MPEG-2MPEG-2做做了如下扩充:了如下扩充:增加了增加了16 kHz, 22.05 kHz16 kHz, 22.05 kHz和和24 kHz24 kHz采样频率,采样频率,扩展了编码器的输出速率范围,由扩展了编码器的输出速率范围,由3232384 384 kb/skb/s扩展到扩展到8 8640 kb/s640 kb/s,增加了声道数,支持增加了声道数,支持5.15.1

89、声道和声道和7.17.1声道的环绕声道的环绕声。声。此外此外MPEG-2MPEG-2还支持还支持Linear PCM(Linear PCM(线性线性PCM)PCM)和和Dolby AC-3(Dolby AC-3(A Audio udio C Code ode NNumber 3)umber 3)编码编码MPEG-1和MPEG-2的声音数据规格参数名称参数名称采用频率采用频率/kHz/kHz样本精度(每样本精度(每个样本的位数)个样本的位数)/bits/bits最大数据传输最大数据传输率率/(bit/s)/(bit/s)最大声道数最大声道数线性线性PCMPCM48/9648/9616/20/24

90、16/20/246.144M6.144M8 8Dolby AC-3Dolby AC-332/44.1/4832/44.1/48压缩(压缩(1616)448K448K5.15.1MPEG-2 MPEG-2 AudioAudio16/22.05/216/22.05/24/32/44.1/4/32/44.1/4848压缩(压缩(1616)(8640)K(8640)K5.1/7.15.1/7.1MPEG-1 MPEG-1 AudioAudio32/44.1/4832/44.1/481616(32448)K(32448)K2 2MPEG2-Audio MPEG-2音频标准把多声道中的中心声道C、左右环绕

91、Ls、Rs及低音效果增强声道LFE等多声道扩展(MC-Extension)信息看做是MPEG-1左右声道的辅助数据而传送。它的数据帧结构如下图1所示,而多声道扩展MC部分包含了与MPEG-1声音帧结构相似的信息类型,如下图2所示。图图1图图25.1环绕声MPEG-2 AudioMPEG-2 Audio的的“ “5.15.1环绕声环绕声” ”也称为也称为“ “3/2-3/2-立体声加立体声加LFE”LFE”,其中的,其中的“ “.1”.1”就是指就是指LFELFE声道。声道。它的含义是播音现场的它的含义是播音现场的前面可有前面可有3 3个喇叭声道个喇叭声道( (左、中、右左、中、右) ),后面可

92、,后面可有有2 2个环绕声喇叭声道,个环绕声喇叭声道,LFE(LFE(l lowow f frequency requency e effects)ffects)是低频音效的加是低频音效的加强声道,强声道,7.1声道立体环绕声 加中左,中右Dolby AC-3Dolby AC-3Dolby AC-3支持支持5 5个声道个声道( (左、中、右、左环绕、右环绕和左、中、右、左环绕、右环绕和0.1kHz0.1kHz以下的低音音效声道以下的低音音效声道) ),声音样本的精度为,声音样本的精度为2020比特,每比特,每个声道的采样率可以是个声道的采样率可以是32 kHz, 44.1 kHz32 kHz,

93、 44.1 kHz或者或者48 kHz48 kHz。关于杜比关于杜比 杜杜比比博博士士19331933年年生生于于美美国国俄俄勒勒冈冈州州波波特特兰兰市市,成成长长于于旧旧金金山山湾湾区区。19571957年年杜杜比比自自斯斯坦坦福福大大学学毕毕业业,获获得得英英国国剑剑桥桥大大学学提提供供的的马马歇歇尔尔奖奖学学金金,研研究究长长波波段段X X光光。19611961年年他他获获得得物物理理学学博博士士学学位位。19631963年,他接受联合国任命前往印度担任为期两年的顾问。年,他接受联合国任命前往印度担任为期两年的顾问。 作作为为一一个个业业余余录录音音爱爱好好者者,杜杜比比博博士士多多年年

94、以以来来认认识识到到在在磁磁带带上上录录制制音音频频或或视视频频信信号号时时本本底底噪噪声声对对录录制制质质量量的的损损坏坏。在在印印度度时时他他开开始始认认真真地地思思考考一一种种降降低低噪噪声声而而又又不不损损害害录录制制质质量量的的办办法法。他他的的这这些些探索成为将来杜比探索成为将来杜比A A降噪,降噪,B B降噪和降噪和C C降噪系统的基础。降噪系统的基础。 19651965年年回回到到英英国国后后,他他在在伦伦敦敦建建立立了了自自己己的的实实验验室室用用以以实实施施他他在在印印度度时时想想到到的的方方案案。19681968年年成成立立了了以以 杜杜比比实实验验室室 命命名名的的公公

95、司司。尽尽管管在在公公司司成成立立的的头头1010年年工工作作的的中中心心在在英英国国,但但它它一一直直是是一一家家美美国国公司。公司。19761976年,公司的主要工作挪到了旧金山。年,公司的主要工作挪到了旧金山。MPEG-2 AACMPEG-2 AACMPEG-2 AAC是是MPEG-2MPEG-2标准中的一种非常灵活的声音感知编码标准。标准中的一种非常灵活的声音感知编码标准。就像所有感知编码一样,就像所有感知编码一样,MPEG-2 AACMPEG-2 AAC主要使用听觉系统的掩蔽特主要使用听觉系统的掩蔽特性来减少声音的数据量,并且通过把量化噪声分散到各个子带中,性来减少声音的数据量,并且

96、通过把量化噪声分散到各个子带中,用全局信号把噪声掩蔽掉。用全局信号把噪声掩蔽掉。AACAAC支持的采用频率可从支持的采用频率可从8 kHz8 kHz到到96 kHz96 kHz,l lAACAAC编码器的音源可以是单声道的、立体声的和多声道的声音。编码器的音源可以是单声道的、立体声的和多声道的声音。l lAACAAC标准可支持标准可支持4848个主声道、个主声道、1616个低频音效加强通道个低频音效加强通道LFE (LFE (l l l low ow f f f frequency requency e e e effects)ffects)、1616个配音声道个配音声道(overdub ch

97、annel)(overdub channel)或者叫或者叫做多语言声道做多语言声道(multilingual channel)(multilingual channel)和和1616个数据流。个数据流。l lMPEG-2 AACMPEG-2 AAC在压缩比为在压缩比为11:111:1,即每个声道的数据率为,即每个声道的数据率为(44.1(44.116 16 )/11=64 kb/s)/11=64 kb/s,而,而5 5个声道的总数据率为个声道的总数据率为320 kb/s320 kb/s的情况下,很的情况下,很难区分还原后的声音与原始声音之间的差别。与难区分还原后的声音与原始声音之间的差别。与M

98、PEGMPEG的层的层2 2相比,相比,MPEG-2 AACMPEG-2 AAC的压缩率可提高的压缩率可提高1 1倍,而且质量更高,与倍,而且质量更高,与MPEGMPEG的层的层3 3相比,在质量相同的条件下数据率是它的相比,在质量相同的条件下数据率是它的 7070。4.4.4 MPEG-4 Audio标准和功能,标准和功能,标准和功能,标准和功能, 整个标准根据编码对象分为:整个标准根据编码对象分为:整个标准根据编码对象分为:整个标准根据编码对象分为: 1.1.自然音频编码自然音频编码自然音频编码自然音频编码 2.2.合成音频编码合成音频编码合成音频编码合成音频编码 在自然音频编码方面提供三

99、种编码方案,即参数编在自然音频编码方面提供三种编码方案,即参数编在自然音频编码方面提供三种编码方案,即参数编在自然音频编码方面提供三种编码方案,即参数编码、码本激励线性预测编码和时码、码本激励线性预测编码和时码、码本激励线性预测编码和时码、码本激励线性预测编码和时/ /频编码;频编码;频编码;频编码; 在合成音频编码方面提供了两种编码方案,即结构在合成音频编码方面提供了两种编码方案,即结构在合成音频编码方面提供了两种编码方案,即结构在合成音频编码方面提供了两种编码方案,即结构音频音频音频音频SA(structuredSA(structured audio) audio)和文语转换和文语转换和文

100、语转换和文语转换TTS(textTTS(text-to-to-speech)speech)。每个编码方案都按照两部分来组织标准的内。每个编码方案都按照两部分来组织标准的内。每个编码方案都按照两部分来组织标准的内。每个编码方案都按照两部分来组织标准的内容容容容标准部分描述解码的语法和解码过程。标准部分描述解码的语法和解码过程。标准部分描述解码的语法和解码过程。标准部分描述解码的语法和解码过程。 MPEG-4MPEG-4把把把把MPEG-2MPEG-2的高级音频编码(的高级音频编码(的高级音频编码(的高级音频编码(AACAAC)部分作为工)部分作为工)部分作为工)部分作为工具来实现自然音频信号压缩

101、,支持数据率介于具来实现自然音频信号压缩,支持数据率介于具来实现自然音频信号压缩,支持数据率介于具来实现自然音频信号压缩,支持数据率介于2 kb/s2 kb/s和和和和64 64 kb/skb/s之间的自然声音。为了获得高质量的声音,之间的自然声音。为了获得高质量的声音,之间的自然声音。为了获得高质量的声音,之间的自然声音。为了获得高质量的声音,MPEG-4MPEG-4定定定定义了三种类型的声音编码器分别用于不同类型的声音,它的义了三种类型的声音编码器分别用于不同类型的声音,它的义了三种类型的声音编码器分别用于不同类型的声音,它的义了三种类型的声音编码器分别用于不同类型的声音,它的一般编码方案

102、如图一般编码方案如图一般编码方案如图一般编码方案如图UMTS (universal mobile telecommunication system) 通用移动远程通信系统1、 自然音频自然音频(natural audio)信号编码信号编码(1 1). . 参数编码器参数编码器参数编码器参数编码器(parametric coding)(parametric coding) 使用声音参数编码技术。对于采样率为使用声音参数编码技术。对于采样率为使用声音参数编码技术。对于采样率为使用声音参数编码技术。对于采样率为8 kHz8 kHz的话音的话音的话音的话音(speech)(speech),编码器的输出

103、数据率为,编码器的输出数据率为,编码器的输出数据率为,编码器的输出数据率为2 24 kb/s4 kb/s;对于采;对于采;对于采;对于采样频率为样频率为样频率为样频率为8 kHz8 kHz或者或者或者或者16 kHz16 kHz的声音的声音的声音的声音(audio)(audio),编码器的,编码器的,编码器的,编码器的输出数据率为输出数据率为输出数据率为输出数据率为4 416 kb/s16 kb/s。(2 2). CELP. CELP编码器编码器编码器编码器 使用使用使用使用CELP(codeCELP(code excited linear predictive) excited linear

104、 predictive)技术。技术。技术。技术。编码器的输出数据率在编码器的输出数据率在编码器的输出数据率在编码器的输出数据率在6 624 kb/s24 kb/s之间,它用于采样之间,它用于采样之间,它用于采样之间,它用于采样频率为频率为频率为频率为8 kHz8 kHz的窄带话音或者采样频率为的窄带话音或者采样频率为的窄带话音或者采样频率为的窄带话音或者采样频率为16 kHz16 kHz的宽的宽的宽的宽带话音。带话音。带话音。带话音。(3 3). T/F. T/F编码器编码器编码器编码器 使用时间使用时间使用时间使用时间- -频率频率频率频率(time-to-frequency(time-to

105、-frequency,T/F)T/F)技术。这技术。这技术。这技术。这是一种使用矢量量化是一种使用矢量量化是一种使用矢量量化是一种使用矢量量化(vector quantization(vector quantization,VQ)VQ)和和和和线性预测的编码器,压缩之后输出的数据率大于线性预测的编码器,压缩之后输出的数据率大于线性预测的编码器,压缩之后输出的数据率大于线性预测的编码器,压缩之后输出的数据率大于16 16 kb/skb/s,用于采样频率为,用于采样频率为,用于采样频率为,用于采样频率为8 kHz8 kHz的声音信号。的声音信号。的声音信号。的声音信号。2、 合成音频信号的编码合成

106、音频信号的编码乐器数字接口乐器数字接口乐器数字接口乐器数字接口MIDIMIDI文语转换文语转换文语转换文语转换TTSTTS系统系统系统系统合合合合成成成成工工工工具具具具,用用用用来来来来增增增增强强强强音音音音频频频频合合合合成成成成效效效效果果果果和和和和声声声声音音音音的的的的3D3D环环环环绕绕绕绕,从从从从而而而而能能能能够够够够利利利利用用用用合合合合成成成成的的的的和和和和自自自自然然然然的的的的音音音音频频频频素素素素材材材材来来来来创创创创造造造造人人人人造造造造的的的的音音音音效效效效环境。环境。环境。环境。“ “乐乐乐乐器器器器” ”模模模模块块块块,可可可可在在在在一一

107、一一定定定定控控控控制制制制下下下下发发发发出出出出各各各各种种种种频频频频率率率率的的的的声声声声音音音音,类似于我们在日常生活中所用的声学乐器。类似于我们在日常生活中所用的声学乐器。类似于我们在日常生活中所用的声学乐器。类似于我们在日常生活中所用的声学乐器。剧剧剧剧本本本本(ScriptScript)或或或或乐乐乐乐谱谱谱谱(ScoreScore)是是是是用用用用来来来来指指指指挥挥挥挥各各各各种种种种各各各各样样样样的的的的“ “乐器乐器乐器乐器” ”和谐地演奏音乐的命令序列。和谐地演奏音乐的命令序列。和谐地演奏音乐的命令序列。和谐地演奏音乐的命令序列。音音音音响响响响处处处处理理理理工

108、工工工具具具具,吸吸吸吸收收收收和和和和处处处处理理理理别别别别的的的的乐乐乐乐器器器器发发发发出出出出的的的的声声声声音音音音以以以以实实实实现现现现回回回回响响响响、混混混混音音音音等等等等功功功功能能能能,从从从从而而而而利利利利用用用用自自自自然然然然声声声声音音音音和和和和电电电电子子子子合合合合成成成成器器器器发发发发出的声音来完成音乐作品的演奏。出的声音来完成音乐作品的演奏。出的声音来完成音乐作品的演奏。出的声音来完成音乐作品的演奏。TTS在多媒体领域的应用越来越广泛:多媒体内容中的文字等信息很容易转换成语音信息多媒体内容中的文字等信息很容易转换成语音信息多媒体内容中的文字等信息

109、很容易转换成语音信息多媒体内容中的文字等信息很容易转换成语音信息TTSTTS可通过与脸部的运动和运动图像相结合,使合成的内可通过与脸部的运动和运动图像相结合,使合成的内可通过与脸部的运动和运动图像相结合,使合成的内可通过与脸部的运动和运动图像相结合,使合成的内容更丰富容更丰富容更丰富容更丰富MPEG-4MPEG-4中提供了中提供了中提供了中提供了TTSTTS与脸部运动和运动图像的接口,也与脸部运动和运动图像的接口,也与脸部运动和运动图像的接口,也与脸部运动和运动图像的接口,也提供了普通的提供了普通的提供了普通的提供了普通的TTSTTS接口接口接口接口MPEG-4MPEG-4所提出的混合多层分级

110、所提出的混合多层分级所提出的混合多层分级所提出的混合多层分级TTSTTS功能被认为是普通功能被认为是普通功能被认为是普通功能被认为是普通TTSTTS的一个超集的一个超集的一个超集的一个超集扩展的扩展的扩展的扩展的TTSTTS除输入文本之外还能利用自然讲话的节奏和音除输入文本之外还能利用自然讲话的节奏和音除输入文本之外还能利用自然讲话的节奏和音除输入文本之外还能利用自然讲话的节奏和音调信息合成高质量的语音调信息合成高质量的语音调信息合成高质量的语音调信息合成高质量的语音MPEG-4MPEG-4能根据不同用户的不同的要求,将能根据不同用户的不同的要求,将能根据不同用户的不同的要求,将能根据不同用户

111、的不同的要求,将TTSTTS用于自然用于自然用于自然用于自然语音编码,也能将运动参数和运动图像结合到语音编码,也能将运动参数和运动图像结合到语音编码,也能将运动参数和运动图像结合到语音编码,也能将运动参数和运动图像结合到TTSTTS中去。中去。中去。中去。 音音频频编编码码算算法法和和标标准准一一览览4.5 语音识别1 概述概述n n 语音识别(语音识别(Speech Recognition) 让机器听懂人说话(机器说话)让机器听懂人说话(机器说话)n n 语音识别应用人机交互:语音识别应用人机交互: n n 语音打字机(听写机,键盘输入的语音打字机(听写机,键盘输入的34倍);倍); n n

112、 电话查询自动应答系统(语音界面);电话查询自动应答系统(语音界面); n n 语音命令的控制系统(释放手脚);语音命令的控制系统(释放手脚);n n 交叉学科:交叉学科: n n 计算机、通信、语音语言学、数理统计、信号处理、神计算机、通信、语音语言学、数理统计、信号处理、神经生理心理、人工智能等经生理心理、人工智能等语音识别系统的分类:n 孤立词、连接词、连续语音识别、语音理解(在识别的基础上用语言学知识推断语音含义)、n 大词汇、中词汇、小词汇语音识别系统 1000 201000 20n 单个说话人(speaker)识别系统、多个说话人、与说话人无关的系统(特定人与非特定人)语音识别方法

113、:n 模版匹配法特定人、小词汇、孤立人识别系统Dynamic Programming,Dynamic Time Warpingn 随机模型法主流,HMM语音:从一个相对稳定的状态过渡到另一个状态n 概率语法分析法区别性特征(语法、语义、语用)规则知识n 基于ANN的方法、基于模糊数学的方法、句法语音识别等语音识别的发展现状n 从理论到产品走过了50多个春秋;n 现有很多实际应用系统;n 有可能成为下一代操作系统和应用程序的用户界面;n 远没有达到计算机与人类自然交流的终极目标;n 实用的语音识别技术研究极具市场价值和挑战;n 难于登月;n “规律”:每六十个月降一番;n 重点:大词汇、非特定人

114、、连续语音识别语音识别原理模式匹配原理:未知语音模式与已知语音模式逐一比较,最佳匹配的参考模式作为识别结果。n 识别步骤:1. 学习训练分析语音特征参数,建立模板库;2. 识别测试按照一定的测度和准则与系统模型进行比较,通过判决得出结果;n 语音识别本质就是模式识别语音识别的应用语音识别的应用 1 1在信息处理领域的应用在信息处理领域的应用(1 1)给计算机发送指令)给计算机发送指令 。(2 2)听写系统)听写系统 。(3 3)信息查询。)信息查询。(4 4)网上交谈。)网上交谈。2 2教育与商务应用教育与商务应用(1 1)语音教学软件。)语音教学软件。(2 2)电话查询。)电话查询。(3 3

115、)电子商务。)电子商务。 3 3消费电子产品应用消费电子产品应用 本章小节音频信号的基本概念音频信息压缩编码技术标准(1 1)G.7xxG.7xx系列音频信号压缩编码标准系列音频信号压缩编码标准G7.11G7.11,G.722G.722,G.723G.723,G.729G.729(2 2)MPEG-XMPEG-X系列音频信号压缩标准系列音频信号压缩标准MPEG-1MPEG-1,MPEG-2MPEG-2课后练习设对一串音频信号的采样率为8kHz,使用8bit进行量化,其数据率为多少?如果采用44.1kHz进行采样,使用16bit进行量化,数据率又为多少? 请分别论述波形编码和参数编码的原理和特点

116、。对比MPEG-1 Audio和MPEG-2 Audio的编码特性,小结MPEG-2相对于MPEG-1的扩充。 MP3MP3压缩技术压缩技术 MP3MP3的全名是的全名是MPEG Audio Layer-3MPEG Audio Layer-3,简单地说就是一种声音文件的压缩简单地说就是一种声音文件的压缩格式。格式。 ISO/MPEGISO/MPEG音频压缩标准里包括了三个使用高性能音频数据压缩方法的音频压缩标准里包括了三个使用高性能音频数据压缩方法的感知编码方案感知编码方案 ,按照压缩质量,按照压缩质量( (每每BitBit的声音效果的声音效果) )和编码方案的复杂和编码方案的复杂程度分别是程

117、度分别是Layer1Layer1、Layer2Layer2、Layer3Layer3。所有这三层的编码采用的基本所有这三层的编码采用的基本结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应结构是相同的。它们在采用传统的频谱分析和编码技术的基础上还应用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉用了子带分析和心理声学模型理论。也就是通过研究人耳和大脑听觉神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤神经对音频失真的敏感度,在编码时先分析声音文件的波形,利用滤波器找出噪音电平波器找出噪音电平(Noise Level)(Noise Level),然后滤去人耳不敏

118、感的信号,通过然后滤去人耳不敏感的信号,通过矩阵量化的方式将余下的数据每一位打散排列,最后编码形成矩阵量化的方式将余下的数据每一位打散排列,最后编码形成MPEGMPEG的的文件。而音质听起来与文件。而音质听起来与CDCD相差不大。相差不大。 MP3、 MP4简介MP4压缩技术压缩技术MP4MP4并并不不是是MPEG-4MPEG-4或或者者MPEG-1Layer4MPEG-1Layer4,它它的的出出现现是是针针对对MP3MP3的的大大众众化化、无无版版权权的的一一种种保保护护格格式式,由由美美国国网网络络技技术术公公司司开开发发,美美国国唱唱片片行行业业联联合合会会倡倡导导公公布布的的一种新的

119、网络下载和音乐播放格式。一种新的网络下载和音乐播放格式。MP4MP4使用的是使用的是MPEG-2 AACMPEG-2 AAC技术也就是俗称的技术也就是俗称的a2ba2b或或AACAAC。AACAAC与与MP3MP3相相比比,增增加加了了诸诸如如对对立立体体声声的的完完美美再再现现、比比特特流流效效果果音音扫扫描描、多多媒媒体体控控制制、降降噪噪优优异异等等MP3MP3没没有有的的特特性性,使使得得在在音音频频压压缩缩后后仍仍能能完完美美的的再再现现CDCD音质。音质。 AACAAC技术主要由以下三个部分组成。第一,技术主要由以下三个部分组成。第一,AT&TAT&T的音频压缩技的音频压缩技术专利

120、。它可以将术专利。它可以将AACAAC压缩比提高到压缩比提高到20:120:1而不损失音质。这样,而不损失音质。这样,一首一首3 3分钟的歌仅仅需要分钟的歌仅仅需要2.25MB2.25MB,这在互联网上的下载速度是这在互联网上的下载速度是很惊人的。第二、安全数据库。它可以为你的很惊人的。第二、安全数据库。它可以为你的AAC MusicAAC Music创建一创建一个特定的密钥,将此密钥存于其数据库中。同时,只有个特定的密钥,将此密钥存于其数据库中。同时,只有AACAAC的的播放器才能播放含有这种密钥播放器才能播放含有这种密钥. .第三、协议认证。这个认证包含第三、协议认证。这个认证包含了复制许

121、可、允许复制副本数目、歌曲总时间、歌曲可以播放了复制许可、允许复制副本数目、歌曲总时间、歌曲可以播放时间以及售卖许可等信息。时间以及售卖许可等信息。MP4MP4技术的优越性要远远高于技术的优越性要远远高于MP3MP3,因为它更适合多媒体技术的,因为它更适合多媒体技术的发展以及视听欣赏的需求。但是,发展以及视听欣赏的需求。但是,MP4MP4是一种商品,它利用改良是一种商品,它利用改良后的后的MPEG-2 AACMPEG-2 AAC技术并强加上由出版公司直接授权的知识产权技术并强加上由出版公司直接授权的知识产权协议作为新的标准;而协议作为新的标准;而MP3MP3是一种自由音乐格式,任何人都可以是一种自由音乐格式,任何人都可以自由使用。此外,自由使用。此外,MP4MP4实际上是由音乐出版界联合授意的官方标实际上是由音乐出版界联合授意的官方标准;准;MP3MP3则是广为流传的民间标准。相比之下,则是广为流传的民间标准。相比之下,MP3MP3的灵活和自的灵活和自由度要远远大于由度要远远大于MP4MP4,这使得音乐发烧友们更倾向于使用,这使得音乐发烧友们更倾向于使用MP3MP3。更重要的一点是,更重要的一点是,MP3MP3是目前最为流行的一种音乐格式。是目前最为流行的一种音乐格式。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号