最新多媒体技术基础第3版第3讲话音编码PPT课件

资源描述

《最新多媒体技术基础第3版第3讲话音编码PPT课件》由会员分享，可在线阅读，更多相关《最新多媒体技术基础第3版第3讲话音编码PPT课件（54页珍藏版）》请在金锄头文库上搜索。

1、多媒体技术基础第多媒体技术基础第3版第版第3讲话音讲话音编码编码n随着数字电话和数据通信容量日益增长随着数字电话和数据通信容量日益增长的迫切要求，而又不希望明显降低传送的迫切要求，而又不希望明显降低传送话音信号的质量。话音信号的质量。除了提高通信带宽之外，对话音信号进行压缩是提高通信容量的重要措施。 n本章将重点介绍话音编码的基本思想本章将重点介绍话音编码的基本思想2024/8/302第第3章章数字声音编码数字声音编码3.1话音音类型型n爆破音爆破音(plosivesounds)爆爆破破音音是是在在声声道道关关闭闭之之后后产产生生压压缩缩空空气气然然后后突突然然打打开开声声道所发出的音。道所

2、发出的音。n某某些些音音不不能能归归属属到到上上述述三三种种音音中中的的任任何何一一种种，例例如如在在声声门门振振动动和和声声道道收收缩缩同同时时出出现现的的情情况况下下产产生生的的摩摩擦擦音音，这种音称为混合音。这种音称为混合音。n声声道道的的形形状状和和激激励励方方式式的的变变化化相相对对比比较较慢慢，话话音音在在短短时时间间周周期期(1030ms)里里可可以以被被认认为为是是准准定定态态(quasi-stationary)的短时平稳随机过程。的短时平稳随机过程。n话话音音信信号号具具有有高高度度周周期期性性，这这是是由由于于声声门门的的准准周周期期性性的的振振动动和和声声道道的的谐谐振振

3、引引起起的的。话话音音编编码码器器就就是是企企图图揭揭示示这这种种周周期期性性，减减少少数数据据率率又又尽尽可可能能不不牺牺牲牲声声音音的的质质量。量。2024/8/309第第3讲讲话音编码话音编码 3.2话音音编译码器器n三种话音编译码器三种话音编译码器波形编译码器：话音质量高，数据率高波形编译码器：话音质量高，数据率高音源编译码器：数据率很低，合成话音音质有待提高音源编译码器：数据率很低，合成话音音质有待提高混混合合编编译译码码器器：使使用用音音源源编编译译码码技技术术和和波波形形编编译译码码技技术术，数数据据率率和和音音质质介于之间介于之间图图3-05普通编普通编译码器的音质译码器的音

4、质与数据率与数据率2024/8/3010第第3讲讲话音编码话音编码 3.2话音音编译码器器n波形编译码器波形编译码器n波波形形编编译译码码的的想想法法：不不利利用用生生成成话话音音信信号号的的任任何何知知识识而而试试图图产产生生一一种种重重构构信信号号，波波形形与与原原始始话话音音波波形形尽尽可可能一致。能一致。n这这种种编编译译码码器器的的复复杂杂程程度度比比较较低低，数数据据速速率率在在16kb/s以以上上，质质量量相相当当高高。低低于于这这个个数数据据速速率率时时，音音质质急急剧剧下下降。降。n脉脉冲冲编编码码调调制制(pulsecodemodulation，PCM)：最最简简单的波形

5、编码，仅仅是对输入信号进行采样和量化。单的波形编码，仅仅是对输入信号进行采样和量化。n典典型型的的窄窄带带话话音音带带宽宽限限制制在在4kHz，采采样样频频率率是是8kHz。如如果果要要获获得得高高一一点点的的音音质质，样样本本精精度度要要用用12位位，它它的的数数据据率率就就等等于于96kb/s，这这个个数数据据率率可可以以使使用用非非线线性性量量化化来降低来降低2024/8/3011第第3讲讲话音编码话音编码 3.2话音音编译码器器n音源编译码器音源编译码器音音源源编编译译码码的的思思想想：从从话话音音波波形形信信号号中中提提取取生生成成话话音音的的参数，使用这些参数通过话音生成模型重构

6、出话音。参数，使用这些参数通过话音生成模型重构出话音。n声码器声码器(vocoder)：针对话音的音源编译码器。：针对话音的音源编译码器。n在在话话音音生生成成模模型型中中，声声道道被被等等效效成成一一个个随随时时间间变变化化的的滤滤波波器器，叫叫做做时时变变滤滤波波器器(time-varyingfilter)，它它由由白白噪噪声声(无无声声话话音音段段)激激励励，或或者者由由脉脉冲冲串串(有有声声话话音音段段)激激励励。需需要要传传送送给给解解码码器器的的信信息息就就是是滤滤波波器器的的规规格格、发发声声或或者者不不发发声声的的标标志志和和有有声声话话音音的的音音节节周周期期，并并且且每每隔

7、隔1020ms更更新新一一次次。声声码码器器的的模模型型参参数数既既可可使使用用时时域域的的方方法法也也可可以以使使用用频频域域的的方方法法确确定定，这这项项任任务务由由编编码器完成。码器完成。2024/8/3012第第3讲讲话音编码话音编码 3.2话音音编译码器器n这种声码器的数据率在这种声码器的数据率在2.4kb/s左右，产左右，产生的语音虽然可以听懂，但其质量远远生的语音虽然可以听懂，但其质量远远低于自然话音。增加数据率对提高合成低于自然话音。增加数据率对提高合成话音的质量无济于事，这是因为受到话话音的质量无济于事，这是因为受到话音生成模型的限制。尽管它的音质比较音生成模型的限制。尽管

8、它的音质比较低，但它的保密性能好，因此这种编译低，但它的保密性能好，因此这种编译码器一直用在军事上。码器一直用在军事上。2024/8/3013第第3讲讲话音编码话音编码 3.2话音音编译码器器n混合编译码混合编译码n混混合合编编译译码码的的思思想想：企企图图填填补补波波形形编编译译码和音源编译码之间的间隔。码和音源编译码之间的间隔。n波波形形编编译译码码器器虽虽然然可可提提供供高高质质量量的的话话音音，但但数数据据率率低低于于16kb/s的的情情况况下下，在在技技术术上上还没有解决音质的问题；还没有解决音质的问题；n声声码码器器的的数数据据率率虽虽然然可可降降到到2.4kb/s甚甚至至更更低

9、低，但但它它的的音音质质根根本本不不能能与与自自然然话话音音相提并论。相提并论。2024/8/3014第第3讲讲话音编码话音编码 3.4脉冲脉冲编码调制制(PCM)n脉冲编码调制脉冲编码调制(PCM)的概念的概念PCM是pulse code modulation的缩写概念上最简单、理论上最完善、最早研制成功、使用最为广泛、数据量最大的编码系统图3-3 PCM编码原理框图2024/8/3015第第3章章数字声音编码数字声音编码3.4脉冲脉冲编码调制制(续1)n在图在图3-3中中输入是模拟信号，输出是PCM样本。防失真滤波器：低通滤波器，用来滤除声音频带以外的信号波形编码器：可理解为采样器量化

10、器：可理解为“量化阶大小(step-size)”生成器或者称为“量化间隔”生成器nPCM实际上是模拟信号数字化实际上是模拟信号数字化模拟声音数字化的两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度第二步是量化，就是把采样得到的声音信号幅度转换成数字值2024/8/3016第第3章章数字声音编码数字声音编码3.4脉冲脉冲编码调制制(续2)n量化的方法量化的方法主要有均匀量化和非均匀量化均匀量化n采用相等的量化间隔/等分尺度量采样得到的信号幅度，也称为线性量化。量化后的样本值Y和原始值X的差E=Y-X称为量化误差或量化噪声图3-4 均匀量化2024/8/3017第第3章章数字声音

11、编码数字声音编码3.4脉冲脉冲编码调制制(续3)n非均匀量化非均匀量化大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔可在满足精度要求的情况下用较少的位数来表示声音数据还原时，采用相同的规则采样输入信号幅度和量化输出数据之间定义了两种对应关系n律压扩算法nA律压扩算法注：压扩(companding)图3-5 非均匀量化2024/8/3018第第3章章数字声音编码数字声音编码3.4脉冲脉冲编码调制制n律压扩律压扩n律律(-Law)压压扩扩(G.711)主主要要用用在在北北美美和和日日本本等等地地区区的的数字电话通信中，按下式确定量化输入和输出的关系：数字电话通信中，按下式确定量化输入

12、和输出的关系：nx为为输输入入信信号号幅幅度度，规规格格化化成成;sgn(x)为为x的的极性；极性；nu为为确确定定压压缩缩量量的的参参数数，它它反反映映最最大大量量化化间间隔隔和和最最小小量化间隔之比，取量化间隔之比，取100u500。n由由于于u律律压压扩扩的的输输入入和和输输出出关关系系是是对对数数关关系系，所所以以这这种种编编码码又又称称为为对对数数PCM。具具体体计计算算时时，用用u255，把把对数曲线变成对数曲线变成8条折线以简化计算过程。条折线以简化计算过程。2024/8/3019第第3讲讲话音编码话音编码 3.4脉冲脉冲编码调制制nA律压扩律压扩nA律律(A-Law)压压扩扩

13、(G.711)主主要要用用在在欧欧洲洲和和中中国国大大陆陆等等地地区区的的数数字字电电话话通通信信中中，按按下下式式确确定定量量化化输输入入和和输输出出的的关系：关系：n0|x|1/An1/A|x|1nx为输入信号幅度，规格化成为输入信号幅度，规格化成-1x1;sgn(x)为为x的极性。的极性。nA为为确确定定压压缩缩量量的的参参数数，它它反反映映最最大大量量化化间间隔隔和和最最小小量量化间隔之比。化间隔之比。2024/8/3020第第3讲讲话音编码话音编码 3.5PCM在通信中的在通信中的应用用nPCM编码早期主要用于话音通信中的多编码早期主要用于话音通信中的多路复用。一般来说，在电信网中

14、传输媒路复用。一般来说，在电信网中传输媒体线路费用约占总成本的体线路费用约占总成本的65%，设备费，设备费用约占成本的用约占成本的35%，因此提高线路利用，因此提高线路利用率是一个重要课题率是一个重要课题2024/8/3021第第3讲讲话音编码话音编码 3.5PCM在通信中的在通信中的应用用n频分多路复用频分多路复用(frequency-divisionmultiplexing，FDM)把传输信道的频带分成几个窄带，每个窄带传送一路信号。【例】一个信道的频带为1400Hz，把这个信道分成4个子信道(subchannels)：820990 Hz, 12301400 Hz, 16401810 H

15、z和20502220Hz，相邻子信道间相距240Hz，用于确保子信道之间不相互干扰。每对用户仅占用其中的一个子信道。这是模拟载波通信的主要手段。2024/8/3022第第3讲讲话音编码话音编码 3.5PCM在通信中的在通信中的应用用n时分多路复用时分多路复用PCM编码早期主要用于话音通信中的多路复用时分多路复用是在同一条通信线路上使用不同时段“同时”传送多个独立信号的通信方法时分多路复用的核心思想是将时间分成等间隔的时段，为每对用户指定一个时间间隔，每个间隔传输信号的一部分例如，话音信号的采样频率f8000 Hz/s，它的采样周期125 s，这个时间称为1帧(frame)。在这个时间里可容纳

16、的话路数有两种规格n24路制n30路制 2024/8/3023第第3章章数字声音编码数字声音编码3.5PCM在通信中的在通信中的应用用(续1)n24路制的重要参数如下：路制的重要参数如下：每秒钟传送8000帧，每帧125s12帧组成1复帧(用于同步)。每帧由24个时间片(信道)和1位同步位组成每个信道每次传送8位代码，1帧有24 8 1193位(位)数据传输率R80001931544 kb/s每一个话路的数据传输率80008=64 kb/s图3-6 24路PCM的帧结构 2024/8/3024第第3章章数字声音编码数字声音编码3.5PCM在通信中的在通信中的应用用(续2)n30路制的重要参

17、数如下：路制的重要参数如下：每秒钟传送8000帧，每帧125 s16帧组成1复帧(用于同步)每帧由32个时间片(信道)组成每个信道每次传送8位代码数据传输率：R80003282048 kb/s每一个话路的数据传输率80008=64 kb/s n线路利用率线路利用率使用时分多路复用技术时，由于当信道无数据传输时仍给那个信道分配时间槽，因此线路利用率较低为解决这个问题，开发了统计时分多路复用技术(statistical time division multiplexing, STDM)。STDM是按照每个传输信道的传输需要来分配时间间隔的时分多路复用技术，可提高传输线路的效率 2024/8/302

18、5第第3章章数字声音编码数字声音编码3.5PCM在通信中的在通信中的应用用(续3)n数字通信线路的数据传输率数字通信线路的数据传输率为反映PCM信号复用的复杂程度，通常用“群(group)”这个术语来表示，也称为数字网络的等级传输容量由一次群(基群)的30路(或24路)，增加到二次群的120路(或96路)，三次群的480路(或384路)，图3-7表示二次复用的示意图。图中的N表示话路数，无论N30还是N24，每个信道的数据率都是64 kb/s，经过一次复用后的数据率就变成2048 kb/s(N30)或1544 kb/s(N24)在数字通信中n在北美，具有1544 kb/s数据率的线路叫做“T

19、1远距离数字通信线路”，提供这种数据率的服务级别称为T1等级n在欧洲，具有2048 kb/s数据率的线路叫做“E1远距离数字通信线路”，提供这种数据率的服务级别称为E1等级T1/E1，T2/E2，T3/E3，T4/E4和T5/E5的数据传输率见表3-32024/8/3026第第3章章数字声音编码数字声音编码3.5PCM在通信中的在通信中的应用用(续4)时分多路复用示意图时分多路复用示意图图3-7 二次复用示意图 2024/8/3027第第3章章数字声音编码数字声音编码3.5PCM在通信中的在通信中的应用用(续5)nT1/E1，T2/E2，T3/E3，T4/E4和和T5/E5的数据传输率的数

20、据传输率注：在注：在ITUITU的文件中，数据率用的文件中，数据率用kb/skb/s和和Mb/sMb/s做单位，因此该表没有做单位，因此该表没有用用kbpskbps和和MbpsMbps做单位做单位 2024/8/3028第第3章章数字声音编码数字声音编码3.6增量增量调制与自适制与自适应增量增量调制制n增量调制增量调制也称调制(delta modulation，DM)，是一种预测编码技术对实际的采样信号与预测的采样信号之差的极性进行编码。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示，或者相反由于DM编码只须用1位对话音信号进行编码，所以DM编码系统

21、又称为“1位系统” n比较：PCM是对每个采样信号的整个幅度进行量化编码图3-8 DM波形编码示意图？2024/8/3029第第3章章数字声音编码数字声音编码3.6增量增量调制与自适制与自适应增量增量调制制n采样点采样点i0处，输入信号处，输入信号y0=0，预测值，预测值y0=0，编码输出，编码输出x0=1。n采样点采样点i=1处，预测值处，预测值y1=，实际输入信号大于预测值，实际输入信号大于预测值，x1=1n采样点采样点i=4处，预测值处，预测值y4=4，实际输入信号大于预测值，实际输入信号大于预测值，x4=12024/8/3030第第3讲讲话音编码话音编码 3.6增量增量调制与自适

22、制与自适应增量增量调制制(续)n自适应增量调制自适应增量调制(ADM)根据输入信号斜率的变化自动调整量化阶的大小，以使斜率过载和粒状噪声都减到最小。在检测到斜率过载时开始增大量化阶，而在输入信号的斜率减小时降低量化阶n例如，宋(Song)在1971描述的ADM技术中提出：每当输出不变时量化阶增大50%；每当输出值改变时，量化阶减小50%n又如，由格林弗基斯(Greefkes)在1970年提出的连续可变斜率增量调制(CVSD)的基本方法是：如果连续可变斜率增量调制器的输出连续出现三个相同值时，量化阶加一个大的增量，反之，就加一个小的增量。Motorola公司于20世界80年代初期开发了实现CVS

23、D算法的集成电路芯片，如MC3417/MC3517用于一般的数字通信，MC3418/MC3518用于数字电话。MC3417/MC3418用于民用，MC3517/MC3518用于军用 2024/8/3031第第3章章数字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制制nAPCM的概念的概念APCM是什么nadaptive pulse code modulation的缩写，自适应脉冲编码调制n根据输入信号幅度大小来改变量化阶大小的一种波形编码技术n自适应n瞬时自适应，即量化阶的大小每隔几个样本就改变n音节自适应，即量化阶的大小在较长时间里发生变化2024/8/3032第第3章章数

24、字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制制(续1)改变量化阶大小的方法(1)n前向自适应(forward adaptation)：根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶的大小，并对其电平进行编码作为边信息(side information)传送到接收端n前向自适应APCM的基本概念如图3-9 (a)所示(a)前向自适应图3-9 APCM方块图 2024/8/3033第第3章章数字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制制(续2)改变量化阶大小的方法(2)n后向自适应(backward adaptation)：从量化器刚输出

25、的过去样本中提取量化阶信息。由于后向自适应能在发收两端自动生成量化阶，所以它不需要传送边信息。n后向自适应APCM的基本概念如图3-9 (b)所示(b)后向自适应图3-9 APCM方块图 2024/8/3034第第3章章数字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制制(续3)nDPCM的概念的概念DPCM是什么nDPCM中文术语为差分脉冲编码调制ndifferential pulse code modulation的缩写n利用样本与样本之间存在的信息冗余来进行编码的一种数据压缩技术n基本思想：根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与

26、预测值之差进行量化编码，从而就减少了表示每个样本信号的位数n它与脉冲编码调制(PCM)不同的是，PCM是直接对采样信号进行量化编码，而DPCM是对实际信号值与预测值之差进行量化编码，存储或者传送的是差值而不是幅度绝对值，这就降低了传送或存储的数据量。n可适应大范围变化的输入信号 2024/8/3035第第3章章数字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制制(续4)nDPCM原理原理差分信号d(k)：离散输入信号s(k)和预测器输出的估算值se(k-1)之差对d(k)进行量化编码，得到图3-10 DPCM方块图 2024/8/3036第第3章章数字声音编码数字声音编码3.

27、7自适自适应差分脉冲差分脉冲编码调制制(续5)nADPCM的概念的概念ADPCM的中文术语为自适应差分脉冲编码调制adaptive difference pulse code modulation的缩写综合了APCM的自适应特性和DPCM系统的差分特性，是一种性能比较好的波形编码技术它的核心想法是：n利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值n使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小2024/8/3037第第3章章数字声音编码数字声音编码3.7自适自适应差分脉冲差分脉冲编码调制

28、制(续6)nADPCM编码框图编码框图如图3-11所示接收端的译码器使用与发送端相同的算法，利用传送来的信号来确定量化器和逆量化器中的量化阶大小，并且用它来预测下一个接收信号的预测值图3-11 ADPCM方块图 2024/8/3038第第3章章数字声音编码数字声音编码3.8G.722SB-ADPCM编译码器器nG.722推荐标准推荐标准507000 Hz的话音称为宽带话音1988年CCITT制定的，称为“数据率为64 kb/s的7 kHz声音信号编码(7 kHz Audio-coding with 64 kb/s)”910该标准把话音信号的质量由电话质量提高到AM无线电广播质量，而其数据

29、传输率仍保持为64 kb/s在可懂度和自然度方面都比带宽为3003400 Hz的话音有明显提高，也更容易识别对方的说话人采用的技术n子带编码(SBC)n自适应差分脉冲调制(ADPCM)编码2024/8/3039第第3章章数字声音编码数字声音编码3.8G.722SB-ADPCM编译码器器(续1)n子带编码子带编码(sub-bandcoding，SBC)用一组带通滤波器(band-pass filter，BPF)把输入声音信号的频带分成若干个连续的频段，每个频段称为子带。对每个子带中的声音信号采用单独的编码方案去编码在信道上传送时，将每个子带的代码复合在一起；在接收端译码时，将每个子带的代码单独

30、译码，然后把它们组合起来，还原成原来的声音信号好处有两个n可对每个子带信号分别进行自适应控制，量化阶的大小可按照每个子带的能量电平加以调节。具有较高能量电平的子带用大的量化阶去量化，以减少总的量化噪声n可根据每个子带信号在感觉上的重要性，对每个子带分配不同的位数，用来表示每个样本值。2024/8/3040第第3章章数字声音编码数字声音编码3.8G.722SB-ADPCM编译码器器(续2)n例如，在低频子带中，为了保护音调就要求用较小的量化阶、较多的量化级数，即分配较多的位数来表示样本值。而话音中的摩擦音和类似噪声的声音，通常出现在高频子带中，对它分配较少的位数SBC的方块图如图3-13所示，

31、图中的编码/译码器可以采用ADPCM，APCM或PCM图3-13 子带编码方块图 2024/8/3041第第3章章数字声音编码数字声音编码3.8G.722SB-ADPCM编译码器器(续3)n声音频带的分割声音频带的分割可用树型结构的式样进行划分n首先把整个声音信号带宽分成两个相等带宽的子带：高频子带和低频子带n然后对这两个子带用同样的方法划分，形成4个子带n这个过程可按需要重复下去，以产生2k个子带，K为分割的次数n用这种办法可以产生等带宽的子带，也可以生成不等带宽的子带n例如，对带宽为4000 Hz的声音信号，当K=3时，可分为8个相等带宽的子带，每个子带的带宽为500 Hz；也可生成5个

32、不等带宽的子带，分别为0,500),500,1000)，1000,2000),2000,3000)和3000，4000 采用正交镜像滤波器(quadrature mirror filter，QMF)来划分频带 2024/8/3042第第3章章数字声音编码数字声音编码3.8G.722SB-ADPCM编译码器器(续4)nSB-ADPCM编译码器方框图编译码器方框图图3-17 7 kHz声音信号64 kb/s数据率的编译码方块图2024/8/3043第第3章章数字声音编码数字声音编码3.9线性性预测编码(LPC)的概念的概念n线性预测编码线性预测编码(linearpredictivecoding

33、，LPC)话音压缩技术。将话音生成机理模型化为一个离散的、时变的、线性的递归滤波器编码时使用线性预测分析话音波形产生声道激励和转移函数的参数，对声音波形的编码实际就转化为对这些参数的编码，这就可减少声音的数据量译码时使用线性预测分析得到的参数，通过话音合成器重构话音。合成器实际上是一个离散的随时间变化的时变线性滤波器，它代表人的话音生成系统模型时变线性滤波器n分析话音波形时，当作预测器使用n合成话音波形时，当作生成模型使用2024/8/3044第第3章章数字声音编码数字声音编码3.9线性性预测编码(LPC)的概念的概念(续1)n线性预测器线性预测器使用过去的P个样本值来预测现时刻的采样值x(

34、n)，如图3-18所示图3-18 预测概念2024/8/3045第第3章章数字声音编码数字声音编码3.9线性性预测编码(LPC)的概念的概念(续2)预测值用过去P个样本值的线性组合表示为为方便起见，式中采用了负号残差误差即线性预测误差为一个线性差分方程，在给定的时间范围里，如n0, n1,使e(n)的平方和即为最小，这样可使预测得到的样本值更精确。 2024/8/3046第第3章章数字声音编码数字声音编码3.9线性性预测编码(LPC)的概念的概念(续3)预测系数n通过求解偏微分方程，可找到系数ai的值n如果把发音器官等效成滤波器，这些系数ai可以理解成滤波器的系数n在接收端重构的话

35、音不再具体复现真实话音的波形，而是合成的声音 2024/8/3047第第3章章数字声音编码数字声音编码3.10GSM编译码器器简介介nGSM编译码器简介编译码器简介GSM是Global System for Mobile communications的缩写，可译成全球数字移动通信系统GSM算法是1992年柏林技术大学(Technical University Of Berlin)根据GSM协议开发的，这个协议是欧洲最流行的数字蜂窝电话通信协议。除了ADPCM算法已经得到普遍应用之外，还有一种使用较普遍的波形声音压缩算法叫做GSM算法，使用这种算法的编码器称为GSM编码器2024/8/3048

36、第第3章章数字声音编码数字声音编码3.10GSM编译码器器简介介(续)nGSM的性能的性能GSM的输入：数据分成帧(frame)，一帧(20毫秒)由带符号的160个样本组成，每个样本为13位或16位的线性PCM(linear PCM)码n使用的采样频率为8 kHz时，如果每个样本为16位，那么未压缩的话音数据率为128 kb/sGSM的输出：一帧(16016位)的数据压缩成260位的GSM帧，相当于13 kb/s。由于260位不是8位的整数倍，因此编码器输出的GSM帧为264位的线性PCM码n使用GSM压缩后的数据率为：(264位8000样本/秒)/160样本=13.2 千位/秒GSM的压

37、缩比：128:13.2 = 9.7，近似于10:12024/8/3049第第3章章数字声音编码数字声音编码3.11话音音编码标准摘要准摘要编码器编码器MOSMOS分分64 kb/s脉冲编码调制(PCM)4.332 kb/s自适应差分脉冲编码调制(ADPCM)4.116 kb/s低时延码激励线性预测编码(LD-CELP)4.08 kb/s码激励线性预测编码(CELP)3.73.8 kb/码激励线性预测编码(CELP)3.02.4 kb/s线性预测编码(LPC)2.5n编码算法的性能编码算法的性能表3-5 部分编码器的MOS分 2024/8/3050第第3章章数字声音编码数字声音编码第3章数

38、字声音编码参考文献1.ITU G系列推荐标准文档的下载网址：http:/www.itu.int/rec/T-REC-G/en.2.Thomas J. Lynch, Ph.D. Data Compression Techniques and Application. Van Nostrand Reinhold Company，19853.Thomas W. Parsons. Voice and Speech Processing. McGraw-Hill Book Company. 19864.Sadaoki Furui. Digital Speech Processing, Synthesis

39、, and Recognition. Marcel Dekker, INC.，19895.林福宗，陆达. 多媒体与CD-ROM. 北京：清华大学出版社, 1995.3(1) SNR的计算：pp171-173。(2) 律和A率的计算：pp171-1936.CCITT, Recommendation G.711, Pulse Code Modulation (PCM) of Voice Frequencies, Blue Book, Vol.III, Fascicle III.4. 19887.CCITT, Recommendation G.721, 32 kb/s Adaptive Diff

40、erential Pulse Code Modulation (ADPCM), Blue Book, Vol.III, Fascicle III.4. 19882024/8/3051第第3章章数字声音编码数字声音编码第3章数字声音编码参考文献(续)8.CCITT, Recommendation G.726, 40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM), Geneva, 19909.CCITT, Recommendation G.722, 7 kHz Audio Coding With 6

41、4 kb/s, Blue Book, Vol.III, Fascicle III.4. 198810.Paul Mermelstein, G.722, A New CCITT Coding Standard for Digital Transmission of Wideband Audio Signal. IEEE Communications Magazine，Vol.26, No.1，January 198811.CCITT, Recommendation G.723, Extensions of Recommendation G.721 ADPCM to 24 and 40 kb/s for DCME Application, Blue Book, Vol.III, Fascicle .4. 198812.Esin Darici Haritaoglu, Wideband Speech and Audio Coding, http:/www.umiacs.umd.edu/users/desin/Speech/new.html13.各种文件存储格式：http:/www.wotsit.org/ 2024/8/3052第第3章章数字声音编码数字声音编码END第第3讲讲话音编码话音编码结束语结束语谢谢大家聆听！谢谢大家聆听！54

展开阅读全文

最新多媒体技术基础第3版第3讲话音编码PPT课件

最新文档