第3章声音2数字语音的压缩编码

资源描述

《第3章声音2数字语音的压缩编码》由会员分享，可在线阅读，更多相关《第3章声音2数字语音的压缩编码（52页珍藏版）》请在金锄头文库上搜索。

1、瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码第第3章章声音声音(2) 数字语音的压缩编码数字语音的压缩编码丰哄潭谱诉拇风秀浆育罢塑圃拆缘犁卑惭粮秽亭痈邮播匹竖切虞败侗躲释第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码内容内容一、引言一、引言二、数字语音的波形编码二、数字语音的波形编码三、数字语音的参数编码三、数字语音的参数编码四、数字语音的混合编码四、数字语音的混合编码殉伺零铀仲九赔侩嘱姻察玩腻捡咖挠鸳畔蹈挣拔林捌氖嘉搂岿担蛮鱼郡掺第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/2

2、1/20242南京大学多媒体研究所瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码一、引一、引言言入蝉忿脊贱辱乞臼蓟坍镑堪茄家杜庭剃寨囚撰舞悼探涸锅佐趴册眶监诫厨第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码数字语音压缩编码的必要性数字语音压缩编码的必要性o码率 = 取样频率 x 量化位数 x 通道数目例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h o对数字语音进行数据压缩的目的:n提高通信/存储效率n降低通信/存储成本轻育颁蔑失粉捧颓短愿笺酬牢氮寇俯盟潮摹慰私

3、芯职柴勘考晨搀谦且瞧拢第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/20244南京大学多媒体研究所数字语音压缩编码的可能性数字语音压缩编码的可能性o声音信号中包含有大量的冗余信息n邻近样本之间有很大的相关性n周期之间的相关性n基音之间的相关性n长时（几十秒）自相关性n话音间歇（静音）o可以利用人的听觉感知特性进行压缩,o可以利用语音信号的生成机理进行数据压缩。钢搽盏疑蛔抗熄粱归欢漓呐谈吴强消食疮何龋舱声侦涌拢琳尿徘边册掳腰第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/20245南京大学多媒体研究所对语音数据压缩的要求对语音数据压缩的要求n码率低（

4、bitrate）n质量高（quality ： excellent, good, fair )n延时短（time delay） 25msn成本合理（cost effective）矮泳痉扯前滥返嘴机陇奖杀锅咳憋硕桅模纷巫孕想卞赎贝醇努蔑勉呈亦风第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/20246南京大学多媒体研究所语音压缩编码方法分类语音压缩编码方法分类o波形编码 (Perception model-based compression)n优点 : 通用、音频质量较高n缺点 : 很难获得较大的压缩比n示例 : PCM, ADPCM, SBCo参数编码,源编码 (Produ

5、ction model-based compression)n优点: 压缩比较大n缺点: 信号源必须已知n示例: LPCo混合编码(Hybrid compression)n示例 : CELP愿粪捻堪叙犬霉妄挺搅赌甄瞪攘雌羽孜饲陶惰蛇丸第畴何措仇且忌浓弗财第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/20247南京大学多媒体研究所三类语音编码器性能比较三类语音编码器性能比较极低低中码码率率(kb/s)1 2 4 8 16 32 64优良中差坏语音质量语音质量模型编码（源编码）参数编译码器(source codecs)混合编码混合编译码器(hybrid codecs

6、)波形编码波形编译码器(waveform codecs)帽拳铁殊肤碉攫敌嘿撅推塑漆莆每潭讥捡从唱迫摧综萝谱饭悸癌谬脾堪否第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/20248南京大学多媒体研究所瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码二、数字语音的波形编码二、数字语音的波形编码仙秦只辫豆娥蹲瞒臼拐臃码殊簇励砌锑断附景总扛锑禾府舰约吃阻曰端蕉第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码波形编译码器波形编译码器算法比较简单，容易实现，低延迟，压缩效率不高，数据速率在16

7、kbps以上，声音质量相当好，通用性好，适用于任意类型的数字声音，很成熟，有一系列国际标准：CCITT G.711 PCM 64kb/sCCITT G.721 ADPCM 32Kb/sCCITT G.726 ADPCM 48, 32, 24, 16 Kb/s已广泛应用于电话语音的中继线传输朔滴历胎敞贫汛楚凛亢钦灼勤钠咖籽及铺砰备粱震恬涕眺岩钵森逛禹辆盛第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202410南京大学多媒体研究所1. CCITT G.711 (脉冲编码调制脉冲编码调制) Pulse Code Modulation (PCM) of Voice Frequ

8、encyPulse Code Modulation (PCM) of Voice Frequencyo编码过程：对数变换(压缩编码)F(n)低通滤波 (LPF)Xa(t)x(n)A/D(13位)取样(8kHz)X(n)分析：方法简单，易实时处理，语音质量好，压缩效率不高，码率为64kbps。码率104 kbps码率 8位 x 8k64 kbps檀嵌霖亚胜滁届幻六豫烂茸亩妻溅戮乔丧肩到芳妹贴陵久绎弃涣洽檀背弛第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202411南京大学多媒体研究所对数变换对数变换 F=ln(x)o目的 : 适应听觉的非线性特性；压缩数据。北美和日本

9、等地区（律压扩算法）当 0 = |x| = 1/A当 1/A |x| = 1欧洲和中国大陆等地区（ A律压扩算法）筹挛遏输助又警酮蛤碰仁谍障辈径凝琳冒眨蝗墟成闭式搁醚卯晦宋胚椅炬第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202412南京大学多媒体研究所压扩算法的实现压扩算法的实现 x(n): 线性码线性码(1+12位位) F(n): PCM码码(1+7位位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0

10、1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z 0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y ZXa(t)取样(8kHz)A/D(13位)x(n)A律 / u律压缩编码8位 x 8kHzF(n)冶竖哉乾黎交逼呵杯她伤挚派概顾鄂睬浮伯揣及雪顽厄桩镐旋逼缚牢酱狱第3章声音2数字语音的压缩编码第3章

11、声音2数字语音的压缩编码7/21/202413南京大学多媒体研究所 PCM 的应用的应用o应用于数字声音的编辑处理（多媒体计算机）o应用于声音的传输（通信）: 长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing) o应用于全频带数字声音的表示/存储: CD-DA（CD唱片），DAT (44.1 KHz x 16 bit x 2)仅柯姓秸晚线且面亭求兼移狱迢峻栽悯稗咀规话官术罐牵延儒拓薄嘛焉锋第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202414南京大学多媒体研究所2. ADPCM自适应差分脉

12、冲编码调制自适应差分脉冲编码调制 (Adaptive Differential PCM)原理：1.声音信号具有很强的相关性，可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本，实际样本值与预测值之间的误差往往很小。2.利用自适应的思想改变量化阶的大小，即使用小的量化阶(step-size)去编码小的差值，使用大的量化阶去编码大的差值，效果：量化位数可以显著减少，从而降低了总的码率。药胆姓影俗脾娱蟹阑檀滚装看乔粮图异馏饼鳖欢妊违邦祭唇朔消雏速姿蜕第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202415南京大学多媒体研究所无损预测编码（无损预测编码（1）信号在时

13、间上的冗余性无损地恢复初始信号e可能的范围解决办法：SU, SD游汲晦磺俭败停羔荒丈煤碧韦膀炕手策磺湿羊羊釜巾闺斜验谈在榴粮汕埃第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202416南京大学多媒体研究所无损预测编码（无损预测编码（2）o21, 22, 27, 25, 22of2 21 e2=1of3=21 e3=6of4=24 e4=1of5=26 e5=-4杆迁挽背脓融缠爹卸倍瘤异袜蛛守溉也芋汞玻缔管山叛拖寥娟墙情溅逊霹第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202417南京大学多媒体研究所量化器 Q( m阶线性预测，A1, A2,

14、. , Am可自动修正。)实际样本值线性预测公式： Xn = A1*Xn-1 + A2*Xn-2 + . + Am*Xn-m_线性预测器逆量化器 Q -1+预测值差值重建信号DPCM编码输出利用样本与样本之间存在的相关性进行编码，即根据前面的样本估算当前样本的大小，然后对预测误差进行量化编码。差分脉冲编码调制差分脉冲编码调制 DPCM崎盔抖编汹椰痈抑祥畸奋诬唇陆兵骸蛤嚣畔痊疾冰嘲吕动篮荧砾伴旭午审第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202418南京大学多媒体研究所E量化结果255240239224:31161501161732:2252402412552482

15、32:248824:232248130，150，140，200，230f 130, 130, 142, 144, 167e 0, 20, -2, 56, 63e 0, 24, -8, 56, 56f 130, 154, 134, 200, 223举例举例也误备踢盯酬实渡词舶鹅抱琴惶玄孵醇纤培猛祥孤遂赡弱张赌夕滇簧指驯第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202419南京大学多媒体研究所自适应脉冲编码调制自适应脉冲编码调制(APCM)o根据输入样本幅度的大小来改变量化阶大小。o可以是瞬时自适应，即量化阶的大小每隔几个样本就改变，也可以是音节自适应，即量化阶的大小在

16、较长时间周期里发生变化。量化器 Q样本值量化阶适配器自适应APCM编码输出攫寓馒苯当散穷批熏刁琵椽埋臻髓咀虐歉核佣氮典缕奖跪陛情侥晚曝追赡第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202420南京大学多媒体研究所量化器 Q13位自然码的数字语音样本_线性预测器逆量化器 Q -1+预测值差值重建信号DPCM编码输出CCITT G.721 ADPCM编码器编码器A量化阶适配器自适应( 4 位 ) 6阶自适应线性预测， 4位的自适应量化器，输出码率： 8k x 4 = 32 kbps效率够伺棍腿移去拈彭豌族写氖踊跪苗忧睁怔遁苦摈爬沸车添色炽嗓胃名第3章声音2数字语音的压

17、缩编码第3章声音2数字语音的压缩编码7/21/202421南京大学多媒体研究所ADPCM 小结小结oPCM话音质量 4.5级oADPCM话音质量 4.34级,码率降低一倍(32 kbps)。oADPCM应用：n数字语音通信n多媒体应用中的语音（解说词）压定谨干辊寓晃懒歌畅凳融拔熄际鸯貌诵峪门掂碴艰寿评赖寇慌试诧惮搓第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202422南京大学多媒体研究所3. Sub-band coding (子带编码子带编码)o基本原理：n利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带，子带)n低频部分能量较集中，量化精度要

18、高，取样频率可稍低。n高频部分是摩擦音、噪音，量化精度可低些，但取样频率要稍高。n不同子频带作不同的ADPCM编码处理，然后再复合在一起。鲍奴婿潞恒痔绢缓巡劈臂礼咏牙愚骸苹统乖休迎粥暑邦宏谤钱腿肃感铂口第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202423南京大学多媒体研究所ADPCM编码器11250,3bitsADPCM编码器21429, 3bitsADPCM编码器31667, 2bitsADPCM编码器42500, 2bitsMUX16kbps SBC BP1 (200-700) BP2 (700-1310) BP3 (1310-2020) BP4 (2020-

19、3200)64kbpsPCM例：例：16kb/s 子带编码器子带编码器蔓冤畅焙矿橱舒阀虎畅删狼啪恼浇晴土逛憎桶捂其差嘻卯袱苯之畔砰峭炸第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202424南京大学多媒体研究所MUX64kbps SBC数据插入部件辅助数据输入16kHz,14bits, 数字声音传输正交镜象滤波器 (TQMF)4-8kHz0-4kHzXHXL 高频带 ADPCM编码器8000, 2bits16 kbps 低频带 ADPCM 编码器8000, 6bits48 kbps模式1：声音64kbps；辅助数据 0 模式2：声音56kbps；辅助数据 8 kbps

20、模式3：声音48kbps；辅助数据 16kbpsG.722: 64 kbps的声音子带编码的声音子带编码涣肪奶得击锦外句圃膊吃躺咯渡钧腔衔零墒拢嘴维支狂殿弗黎租设杖讳准第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202425南京大学多媒体研究所瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码二、数字语音的参数编码二、数字语音的参数编码常脏哨逻黔丫券隋枣送固赂派疙臃蝎慎吴郑但卤争妇末卑葬刹羡妻荡枯下第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码1 参数编码参数编码(源编码源编码)的

21、设计思想的设计思想o分析人的发声器官的结构及语音生成的原理，o建立语音生成的物理(数学)模型，o编码时：从话音波形信号中提取生成该话音的参数；o解码时：根据语音生成模型,使用这些参数合成原始话音。提取语音生成参数语音生成模型（编码器）语音参数数字语音使用参数合成语音语音生成模型（解码器）重建的语音捆衔龋狞胖贴酱至孜斌昂扫韩泌瞒秤爪怂磅牙勇垄涧薛胃鳖胸籍菱赶契内第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202427南京大学多媒体研究所语音生成过程语音生成过程（1）o空气由肺部呼出，经过声带，送入声道，最后从嘴唇呼出，产生声音。o成年男子的声道平均长度约17cm，它使声

22、音信号具有短期相关性(持续时间1 ms左右)o声道是一个谐振腔，说话时，声道形状不断变化，引起谐振频率改变，大约10 100 ms改变一次；o声道可以看作为具有共振特性的一个滤波器，由于声道形状变化比较慢，因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次。声道声带空气语音圭丁探憨训裹噬同垄或铺队磺撵超膜可爱沪礁献绰瑚子婴坍离蚤擒图咸奏第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202428南京大学多媒体研究所语音生成过程（语音生成过程（2）o声道滤波器由肺部空气经过声带而激励，根据激励的模式，语音可分成2类：浊音（时间域）

23、浊音Voiced sounds （声带震动，产生准周期的空气脉冲激励信号，送入声道）清音（时间域）清音Unvoiced sounds（声带不振动，声门始终处于“开”状态，送入声道的空气激励信号是一种无周期性的噪音信号）梭摘牡蹿炎嫂冀汪瞬耗福哆搓嫉霍拂瞪桩秩腰客经对详宙局转芜袒揍吁禁第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202429南京大学多媒体研究所语音生成的声道滤波器模型语音生成的声道滤波器模型(1)垮蒸钾怨净租散谜籽涸袍栅士玲莲澄登蜕洒履歇搞矗般仙土申凌婿浮抖蟹第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202430南京大学多媒体研

24、究所语音生成的声道滤波器模型语音生成的声道滤波器模型(2)LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)脉冲序列发生器随机噪声发生器基音周期T(声带振动)(声带不振动)UV(清音)V(浊音)H(z)声道参数a1 a2 a3 a10.语音(声道滤波器)s(n)增益Gu(n)激励信号昼洱评翰灾滔杀扔巾驰哗苇瞻郴皑曝壤心联棍各右胆赢玄团质大祝才哈额第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202431南京大学多媒体研究所o语音是一个近似的短时(1030ms)平稳随机过程，LPC模型的参数A =

25、 (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)变化比较慢, 大约每20ms变化一次；o假设语音信号的取样频率为8kHz，将每秒钟分成50帧，每帧 20ms(其中有20x8=160个样本) ，每一帧的所有信号近似地满足同一模型，即每一帧语音可以使用同一组参数来表示:n浊音还是清音（1位）n浊音的基频T（6位）n音源的幅度G（5位）n线性滤波器的参数（10个参数，每个参数6位，共60位）语音的参数编码（语音的参数编码（LPC分析）分析）从已知的数字语音信号中提取参数从已知的数字语音信号中提取参数从已知的数字语音信号中提取参数从已知的数

26、字语音信号中提取参数所以，每秒总码率为：50 x 72 bits = 3600 bps = 3.6kbps秆嵌害支丑倘赖暂煎轧炬崖坐赦趟官稽馁陵铃绵洪病咀子巳碱姨史夯凉拒第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202432南京大学多媒体研究所2 如何确定如何确定LPC的系数的系数(1)o对声音波形的编码实际就转化为如何提取语音生成模型的参数，经典的方法是线性预测编码LPC。o每一个样本都用过去10个样本的线性组合来预测： spre(n) = - a1s(n-1)+a2s(n-2)+a10s(n-10)o样本s(n)的预测误差为: e(n) = s(n) - spr

27、e(n) = s(n) + a1s(n-1)+a2s(n-2) +a10s(n-10)10个样本s(n-10) s(n-2) s(n-1) s(n) 涩瞪叹秆槐你莽稽圈汰戊凰搐詹女淮价代银疫静串及字只誓品羽砚监郡桩第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202433南京大学多媒体研究所如何确定如何确定LPC的系数的系数(2)o问题：对给定的一帧信号s(n) ，n=0.159，怎样选择系数ai 使得预测误差e(n)的平方和为最小？即最小 o为此，上式对a1, a2, , a10 分别求偏导数得到一组差分方程 dE/da1 0, dE/da2 0, . , dE/

28、da10 0, o求解差分方程组，可得到系数 ai 的值。E e(i)2i=0159泳框掷粹筏现水碟怖垢明失突幢炔豢伏湖潍邵伏芬陆垛琶圈绣墅士脆锅场第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202434南京大学多媒体研究所求解系数求解系数 ai的线性方程组的线性方程组R(0) R(1) R(2) R(3) R(4) R(5) R(6) R(7) R(8) R(9) a1 -R(1) R(1) R(0) R(1) R(2) R(3) R(4) R(5) R(6) R(7) R(8) a2 -R(2) R(2) R(1) R(0) R(1) R(2) R(3) R(4)

29、 R(5) R(6) R(7) a3 -R(3) R(3) R(2) R(1) R(0) R(1) R(2) R(3) R(4) R(5) R(6) a4 -R(4) R(4) R(3) R(2) R(1) R(0) R(1) R(2) R(3) R(4) R(5) a5 -R(5) R(5) R(4) R(3) R(2) R(1) R(0) R(1) R(2) R(3) R(4) a6 -R(6) R(6) R(5) R(4) R(3) R(2) R(1) R(0) R(1) R(2) R(3) a7 -R(7) R(7) R(6) R(5) R(4) R(3) R(2) R(1) R(0)

30、 R(1) R(2) a8 -R(8) R(8) R(7) R(6) R(5) R(4) R(3) R(2) R(1) R(0) R(1) a9 -R(9) R(9) R(8) R(7) R(6) R(5) R(4) R(3) R(2) R(1) R(0) a10 -R(10) =其中 R(k) s(n)s(n+k), 是信号s(n)的自相关性n=0159-k嗡夸赢氟速逞铜仁辞雀贫奶患绞作糠颖牺帐衅愤境石敢锑祁碱烈睁镭戌咒第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202435南京大学多媒体研究所如何确定如何确定LPC的系数的系数(3) 如何确定其他如何确定其他如何确

31、定其他如何确定其他3 3个参数个参数个参数个参数(V/UV,G,T)(V/UV,G,T)o浊音/清音的判定n比较困难，不正确的分类会大大降低语音质量n使用语音信号过零点的数目来判定； o基音周期T的估计n是生成高品质、高清晰语音的关键n常用方法：SIFT基音检测法，AMDF基音检测法o激励信号的增益G革戎沮泥堑馋揖挟岔涂乐乍头并岸鞘梯组呸订扼供我受春宁佰驾栽熏葡拭第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202436南京大学多媒体研究所例例1 2.4kb/s LPC语音编码器语音编码器o20ms作为1帧，按帧进行编码oLPC系数的比特分配为：34 bito增益G ：

32、7 bito浊音/清音及浊音的基音周期T：7 bito码率: 48x502.4kb/s绍傅浸热绍队斤嫉巧早藤括嚼札啸呸格颅际极施脚麻姬冠怒泅剩脯育弛荣第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202437南京大学多媒体研究所例 LPC-10编码器(ANSI 1015 , 2.4kb/s)o22.5ms作为1帧，以帧为单位进行编码，oLPC系数共10位，采用协方差方法计算，o浊音的基音周期T采用平均幅值差分函数(AMDF)计算，共60个值，范围51.3-400Hz，半对数表示，o激励信号：浊音采用标准化的存储波形o码率：54 x 1000/22.5 = 2.4 kb/

33、s 参数浊音清音 a1 5 5 a2 5 5 a3 5 5 a4 5 5 a5 4 - a6 4 - a7 4 - a8 4 - a9 3 - a10 2 - V/UV 1 1 T 6 6 G 5 5 同步 1 1 误差保护 - 21 总计 54 54砰慢填蛀忱兹箔柜男粤纤雄疽陶疥企曲泻站轰敷氨握炕揉甲新釜逐沙辞删第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202438南京大学多媒体研究所3 波形编码与参数编码的比较波形编码与参数编码的比较波形编码波形编码参数编码参数编码 1 码率高码率低 2 音质好音质差 3 算法简单算法复杂 4 可处理任何声音信号

34、仅处理语音信号o参数编码的数据率在2-4 kbps左右，产生的语音虽然可以听懂，但其质量远远低于波形编码。尽管它的音质比较低，但它的保密性能好，因此这种编译码器一直用在军事上.溅垂恨超偿贩县戮司辉我鹰冕丑膜袒咽硝汁俏桐至歧榨慧妄浪祈乏巫瞥圈第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202439南京大学多媒体研究所瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码三、数字语音的混合编码三、数字语音的混合编码兼算傀向戎哎庞倍袁箱棘率诞导峪填孔韧伸蹋郡厂峰尝撒缓咬背悍聘椅纵第3章声音2数字语音的压缩

35、编码第3章声音2数字语音的压缩编码1 参数编码的不足参数编码的不足o参数编码在降低码率方面有很大突破，但语音质量尚不理想；原因是语音生成模型中的激励信号的处理过于简单：n不是清音就是浊音；实际上有些是浊音、清音的混合；n浊音的激励信号是周期性的，实际上是准周期性的；脉冲序列发生器随机噪声发生器基音周期(声带振动)(声带不振动)音源幅度音源幅度浊音清音线性滤波器声道参数.语音(声道模型)激励信号改进思路：设计更好的激励信号。轧淆持炽盂基促歇覆距缔种纯套闭亡硼纲伊团昭谷诅答躺谓输犯钡溢蚁士第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202441南京大学多媒体研究所2

36、混合编码的原理混合编码的原理o思路: 使用合成-分析法AbS(Analysis-by-Synthesis)来改进参数编码, 其中声道滤波器模型仍与LPC编码器中的相同，但不使用两个状态(有声/无声)的模型作为滤波器的输入激励信号，而是增加反馈，调节激励信号u(n), 使语音输入信号s(n)与重建的语音信号误差e(n)为最小。误差信号按感知加权误差最小？原始语音s(n)e(n)线性滤波器滤波器参数.合成语音激励信号的生成或选择激励信号u(n)s(n) 编码器通过“合成”许多不同的近似值来“分析”输入话音信号，所以称为“合成-分析编码器”。）饿目呕夸暮唤沪慎各憎堤喳倍楷枝似阜茅诞椿吠亭蹭

37、先捷贤够蹄滓唤院吞第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202442南京大学多媒体研究所激励信号生成的方法：1. 多脉冲线性预测编码MPLPC(multiple pulse LPC)2. 等间隔脉冲激励RPE (regular-pulse excited) 3. 码激励线性预测CELP (code excited linear predictive)最佳激励信号最佳激励信号u(n)的生成方法的生成方法企偿窃熄熊瓦腕泳龙慰旱儿拈醋异况秃鲁如鸯忆授僻转庶饮那妨童彭脸浮第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202443南京大学多媒体研究

38、所4 多脉冲线性预测编码多脉冲线性预测编码 MPLPC o将原始语音分为20ms长度的帧, 对每一帧计算出LPC的系数；o假设激励信号由k个脉冲组成，每个脉冲的幅度和位置待定；o从第1个脉冲开始，确定其幅度和位置；o若1，i-1个脉冲的幅度和位置已经确定，则确定第i个脉冲的幅度与位置；o上述过程重复k次，结束。决定第i个脉冲的幅度与位置多脉冲激励发生器LPC合成器感知权重i=1.k原始语音合成语音u(n)重复k次1 2 3 4 5 i i+1 kt辆挝坐阅懒栗侵药单镑乱祥阔吗梗屹那罐新霓砂羌售艺搜悔峭昨摹丑摩的第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202444南

39、京大学多媒体研究所5 等间隔脉冲激励等间隔脉冲激励LPC编码器编码器 RRegular-Pulse Excited LPCegular-Pulse Excited LPCo每一帧使用4组激励信号(即每5 ms有1组激励信号), 每一组激励信号使用13个脉冲，间隔时间相同，o编码器每5ms计算一次激励信号的参数（第1个激励脉冲的位置和所有其他脉冲的幅度），目标是使40-120个样本范围的预测误差序列的自相关达到最大：56 bit / 5ms第一个激励脉冲的位置(相位2bit+量化因子6bit )13个脉冲的幅值(13x3bit)长时预测(LTP)系数(2bit), 长时预测延时(7bit) 每2

40、0ms进行一次短时预测，确定LPC的系数（共36比特）每20ms需4x56+36=260bit, 码率0.26x50=13kb/s巧杠饭锦壁宋若顷豪扩顾敞款湘挖酞惑慕乓隋芯顺加峡蛙浮想铜江孤沦肚第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202445南京大学多媒体研究所例例 GSM (13kbps)(13kbps)语音编码器语音编码器 (Global System for Mobile communications)(Global System for Mobile communications)每5ms产生一组由13个脉冲组成的激励信号序列(56bit)每5ms计算

41、一次，使40-120个样本范围的短时预测误差序列的自相关达到最大LPC滤波器有8个系数，共36bit，每20 ms 计算一次每20ms生成4x56+36=260bit, 码率0.26x50=13kb/s帽栈难僵殊宗汹统喝业雍颓斡熬寺晓绎虐凑欧扎冬寝筋帧腑被痛掠劈谩烤第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202446南京大学多媒体研究所6. 码激励线性预测编码器码激励线性预测编码器 ( CELP ( CELP，Code Excited LPC )Code Excited LPC )oCELP算法, 1985提出。使用有限数量的激励信号存储在存储器中(称为码本)，以

42、替代多脉冲激励。选用哪一个激励信号由码本的索引项指出，其增益项用来扩展它的功率。o在CELP基础上制定的话音编码标准:n美国的 ANSI的 4.8 kbps codecnITU的“low-delay 16 kbps codec 喉账棱酸贷略圃克稀贼杖谰倡峦袱具棉炬狄他罕矣蛰喜围笆豪诧磊窘苟搂第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202447南京大学多媒体研究所演演示（示（1）A lathe is a big tool. Grab every dish of sugar. 原始声音（PCM）ADPCMCELPLD-CELPCS-ACELPLPC-10渺勘酱婚帕杭

43、招酬瑚跺透埃揽奠卉地贝向膏瓜挂哺搞住约蓉云筛心巍参悯第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202448南京大学多媒体研究所演演示（示（2）格式码率1 min =Sample11,025Hz 16bit PCM 176.4kbs 1292k11k16bitpcm.wav8000Hz 16bit PCM 128kbs937.5k8k16bitpcm.wav11,025Hz 8bit PCM 88.2kbs646k11k8bitpcm.wav11,025Hz u-Law 88.2kbs646k11kulaw.wav8,000Hz 8bit PCM 64kbs46

44、8.8k8k8bitpcm.wav8,000Hz u-Law 64kbs468.8k8kulaw.wav* toll quality telephone11,025Hz 4bit ADPCM 44.1kbs323k11kadpcm.wav8000Hz 4bit ADPCM 32kbs234.4k8kadpcm.wav11,025Hz GSM6.10 18kbs131.8k11kgsm.wav8,000Hz GSM6.10 13kbs102.5k8kgsm.wav* cell phone quality8000Hz Lernout & Hauspie SBC 12.0kbs87.9k8ksbc1

45、2.wav8,000Hz DSP Group TrueSpeech 9kbs65.9k8ktruespeech.wav8,000Hz Lernout & Hauspie CELP 4.8kbs35k8kcelp.wav承嘉勘赢挫槽氦日别痛钠簿甘源凭宝面机马甩膛瓣眩伪每侄遗斥痢基衡琼第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202449南京大学多媒体研究所数字语音编码标准数字语音编码标准标准标准方法方法比特率比特率质量质量时间时间应用应用G.711PCM644.41972PSTNANSI 1015LPC-102.42.71976保密通信G.721ADPCM324.11

46、984PSTNGSM(欧洲蜂窝通信)RPE-CELP133.61991ANSI 1016CELP4.83.21991G.728低延时CD-CELP164.01992IS 54(北美TDMA)VSELP83.51992IS 96(北美CDMA)QCELP1-83.41993日本蜂窝通信VSELP6.83.31993G.729ACS-ACELP84.21995IP电话G.723.1(H.323, H.324)ACELP6.33.981995IP电话半速率GSM(欧洲蜂窝通信) AMR5-63.41995新的低速率ANSI标准MELP2.43.31996又告考圭舍圾熙勿蓖蔼楞嘉得制焕捍祷绘溅帐刻精撵

47、渴酒烬铅安轰洽金戮第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202450南京大学多媒体研究所瘤奠苏冻乾瞅姐张彦渍威没猴盟泌瓶柯赚莉奢燃彰比键暖熏蔫疤礼硼充厅第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码四、小结四、小结巍笛瓦吹夺矛考帽舒谭眷藩寿乃喷息谐邦庸令稿脖欲画莫阂桌聋肖耶遁饲第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码从语音生成模型看语音编码从语音生成模型看语音编码o如果有足够的比特精确地描述激励信号，则对声音模型的要求就可以低一些（波形编码器）o如果分配给激励信号的比特很少，激励信号描述就很粗糙，那么对模拟语音生成过程的滤波器要求就很高（参数编码器）；o采用合适的方法比较准确地描述激励信号和滤波器结构，就能达到编码效率高、声音质量好的效果（混合编码器）。滤波器激励信号语音语音生成(解码)的过程，可以统一地看作是一组激励信号经过滤波器滤波后得到的。滤波器用于模拟语音的生成过程。遗抗康跪咙挖烙蔷蛤屹鲜猴墅戚漫纳养刨鲤滦孵裔种研烧毗扫纳嫡热寿克第3章声音2数字语音的压缩编码第3章声音2数字语音的压缩编码7/21/202452南京大学多媒体研究所

展开阅读全文

第3章声音2数字语音的压缩编码

最新文档