多媒体技术ch2.3.1－金锄头文库

资源描述

《多媒体技术ch2.3.1》由会员分享，可在线阅读，更多相关《多媒体技术ch2.3.1（15页珍藏版）》请在金锄头文库上搜索。

1、语音数据压缩方法的基本原理,(1)差分脉码调制(DPCM) PCM(Pulse Code Modulation)，原始的模拟信号经过时间采样，然后对每一样值进行量化，作为数字信号传输。 DPCM不对每一样值都进行量化，而是预测下一样值，并量化实际值和预测值之间的差。 DPCM是基本的编码方法之一，在大量的压缩算法中被采用，比如JPEG的DC分量就是采用DPCM编码的。,语音数据压缩方法的基本原理,举例说明DPCM编码原理：设DPCM系统预测器的预测值为前一个样值，假设输入信号已经量化，差值不再进行量化。若系统的输入为0 1 2 1 1 2 3 3 4 4 ，则预测值为0 0 1 2 1 1

2、2 3 3 4 ，差值为0 1 1 1 0 1 1 0 1 0 ，差值的范围比输入样值的范围有所减小，可以用较少的位数进行编码。,语音数据压缩方法的基本原理,(2)自适应差分脉码调制(ADPCM) 为了进一步改善量化性能或压缩数据率，可采用自适应量化或自适应预测的方法。只要采用了其中的任一种自适应方法，均称为ADPCM。自适应预测预测参数的最佳化依赖于信源的统计特性，要得到最佳的预测参数是一件繁琐的工作。而采用固定的预测参数往往又得不到好的性能。为了既能使性能较佳，又不致于有太大的工作量，可以将上述两种方法折衷考虑，采用自适应预测。,语音数据压缩方法的基本原理,具体方法是：预测参数仍采用

3、固定的；但此时有多组预测参数可供选择。这些预测参数根据常见的信源特征求得。编码时具体采用哪组预测参数根据信源的特征来自适应的确定。为了自适应的选择最佳参数，通常将信源数据分区间编码，编码时自动地选择一组预测参数，使该区间实际值与预测值的均方误差最小。随着编码区间的不同，预测参数自适应的变化，以达到准最佳预测。,语音数据压缩方法的基本原理,例如，Microsoft 的ADPCM采用二预测参数，提供7组预测系数，如右表所示。编码时，根据选定的准则(如最小均方误差准则)，每个编码区间自动地选取一组最佳的参数。,自适应量化根据信号分布不均匀的特点，系统具有随输入信号的变化而改变量化区间大小, 以保

4、持输入给量化器的信号基本均匀的能力，这种能力称为自适应量化。,3.2 音频的压缩,音频的压缩,音频频率范围低频声音(Infra-sound)： 0Hz20Hz 人类听觉频率范围的声音： 20Hz20kHz 高频(Ultrasound)： 20kHz1GHz 超声波(Hypersound)： 1GHz10THz 不同音频的带宽电话语音： 200Hz3.4kHz 调幅广播： 50Hz7kHz 调频广播： 20Hz15kHz 宽带音响: 20Hz20kHz,音频压缩编码的基本方法,电话质量的语音压缩标准,ITUTS建议的语音压缩的标准 G.711：采用PCM编码，采样速率为8kHz，量化位数为8

5、bit，对应的比特流速率为64kbit/s。 G.721： ITU建议的 G.721将64Kbps的比特流转换为32Kbps的流，它是基于 ADPCM技术。每个数值差分用4位编码，其采样率为8kHz。,电话质量的语音压缩标准,G.723： G.723是一种以24Kbps运行的基于 ADPCM 的有损耗压缩标准。其音质不如非压缩的 G.711PCM 标准以及基于 SBADPCM 的 G.722标准。G.723.1和G.723.2用于H.324标准。 G.728：它的比特率为16Kbps，带宽限于3.4kHz。其音质比 G.711或 G.722差得多。它基于一种称为低延迟代码激励线性预测(LDC

6、ELP)的向量量化技术。,电话质量的语音压缩标准,CELP是一种常用的语音压缩技术。它用于美国联邦标准1016，可将语音压缩至4.8Kbps。美国联邦标准1015使用 CELP的一个简本，称为线性预测编码(LPC)。 LPC一10E标准可以运行于2.4Kbps。采用了一种向量量化方法。声音听起来有点象机器在说话，但4.8Kbps与电话差不多。,调幅广播质量的音频压缩标准,调幅广播质量：50Hz7kHz，称“7kHz音频信号”。 G.722：G.722基于子带 ADPCM技术 (SBADPCM) ，它是将现有的带宽分成两个独立的子带信道分别采用差分脉码调制算法。 G.722压缩信号的带宽范围为

7、50Hz到7kHz，而 G.711 仅限于3.4kHz。其比特率为48、56、64Kbps，在标准模式下，采样速率是16KHz，幅度深度为14比特。,高保真立体声音频压缩标准,高质量的声音信号频率范围： 50Hz20kHz 目前国际上比较成熟的高质量声音压缩标准为MPEG音频。MPEGl的音频信号在ISO 111723文档中的描述。MPEG音频不是单个一种压缩算法，而是3种音频编码和压缩方案的一个系列。 MPEG 声音编码分为：层l、层2、层3。随着层数的增加算法的复杂度也增大。,高保真立体声音频压缩标准,所有3层都分级兼容。最复杂的译码器(即在层3工作的译码器)也可对层2或层l的码流进行译码。所有3层都运用同一原理：变换编码和子带编码。频谱被分为32个子带。应用快速博里叶变换来表示高频域中的信号。应用心理声学模式来变换信号以估计刚能引起注意的噪音级。层 l、2 和 3主要在最后一个阶段-即量化阶段的方式上有所区别，但不是唯一的差别。,

展开阅读全文

多媒体技术ch2.3.1

最新文档