声音2数字语音的压缩编码

上传人:tia****nde 文档编号:67702141 上传时间:2019-01-08 格式:PPT 页数:52 大小:494.51KB
返回 下载 相关 举报
声音2数字语音的压缩编码_第1页
第1页 / 共52页
声音2数字语音的压缩编码_第2页
第2页 / 共52页
声音2数字语音的压缩编码_第3页
第3页 / 共52页
声音2数字语音的压缩编码_第4页
第4页 / 共52页
声音2数字语音的压缩编码_第5页
第5页 / 共52页
点击查看更多>>
资源描述

《声音2数字语音的压缩编码》由会员分享,可在线阅读,更多相关《声音2数字语音的压缩编码(52页珍藏版)》请在金锄头文库上搜索。

1、第3章 声音(2) 数字语音的压缩编码,2019/1/8,南京大学多媒体研究所,2,内容,一、引言 二、数字语音的波形编码 三、数字语音的参数编码 四、数字语音的混合编码,一、引 言,2019/1/8,南京大学多媒体研究所,4,数字语音压缩编码的必要性,码率 = 取样频率 x 量化位数 x 通道数目 例: 电话语音 =8k x 8b x 1 = 64kbps =8kB/s=28MB/h 对数字语音进行数据压缩的目的: 提高通信/存储效率 降低通信/存储成本,2019/1/8,南京大学多媒体研究所,5,数字语音压缩编码的可能性,声音信号中包含有大量的冗余信息 邻近样本之间有很大的相关性 周期之间

2、的相关性 基音之间的相关性 长时(几十秒)自相关性 话音间歇(静音) 可以利用人的听觉感知特性进行压缩, 可以利用语音信号的生成机理进行数据压缩。,2019/1/8,南京大学多媒体研究所,6,对语音数据压缩的要求,码率低(bitrate) 质量高(quality : excellent, good, fair ) 延时短(time delay) 25ms 成本合理(cost effective),2019/1/8,南京大学多媒体研究所,7,语音压缩编码方法分类,波形编码 (Perception model-based compression) 优点 : 通用、音频质量较高 缺点 : 很难获得较

3、大的压缩比 示例 : PCM, ADPCM, SBC 参数编码,源编码 (Production model-based compression) 优点: 压缩比较大 缺点: 信号源必须已知 示例: LPC 混合编码(Hybrid compression) 示例 : CELP,2019/1/8,南京大学多媒体研究所,8,三类语音编码器性能比较,二、数字语音的波形编码,2019/1/8,南京大学多媒体研究所,10,波形编译码器,算法比较简单,容易实现,低延迟, 压缩效率不高,数据速率在16 kbps以上, 声音质量相当好, 通用性好,适用于任意类型的数字声音, 很成熟,有一系列国际标准: CCIT

4、T G.711 PCM 64kb/s CCITT G.721 ADPCM 32Kb/s CCITT G.726 ADPCM 48, 32, 24, 16 Kb/s 已广泛应用于电话语音的中继线传输,2019/1/8,南京大学多媒体研究所,11,1. CCITT G.711 (脉冲编码调制) Pulse Code Modulation (PCM) of Voice Frequency,编码过程:,分析: 方法简单,易实时处理, 语音质量好, 压缩效率不高,码率为64kbps。,码率104 kbps,码率 8位 x 8k64 kbps,2019/1/8,南京大学多媒体研究所,12,对数变换 F=l

5、n(x),目的 : 适应听觉的非线性特性;压缩数据。,北美和日本等地区 ( 律压扩算法),2019/1/8,南京大学多媒体研究所,13,压扩算法的实现,x(n): 线性码(1+12位) F(n): PCM码(1+7位) 0 0 0 0 0 0 0 W X Y Z a 0 0 0 W X Y Z 0 0 0 0 0 0 1 W X Y Z a 0 0 1 W X Y Z 0 0 0 0 0 1 W X Y Z a b 0 1 0 W X Y Z 0 0 0 0 1 W X Y Z a b c 0 1 1 W X Y Z 0 0 0 1 W X Y Z a b c d 1 0 0 W X Y Z

6、0 0 1 W X Y Z a b c d e 1 0 1 W X Y Z 0 1 W X Y Z a b c d e f 1 1 0 W X Y Z 1 W X Y Z a b c d e f g 1 1 1 W X Y Z,2019/1/8,南京大学多媒体研究所,14,PCM 的应用,应用于数字声音的编辑处理(多媒体计算机) 应用于声音的传输(通信): 长途电话 (8 KHz x 8 bit x 1), 时分多路复用TDM (time-division multiplexing) 应用于全频带数字声音的表示/存储: CD-DA(CD唱片),DAT (44.1 KHz x 16 bit x

7、2),2019/1/8,南京大学多媒体研究所,15,2. ADPCM自适应差分脉冲编码调制 (Adaptive Differential PCM),原理: 声音信号具有很强的相关性,可从已知信号来预测未知信号, 即使用前面的样本预测当前的样本,实际样本值与预测值之间的误差往往很小。 利用自适应的思想改变量化阶的大小,即使用小的量化阶(step-size)去编码小的差值,使用大的量化阶去编码大的差值, 效果:量化位数可以显著减少,从而降低了总的码率。,2019/1/8,南京大学多媒体研究所,16,无损预测编码(1),信号在时间上的冗余性 无损地恢复初始信号 e可能的范围 解决办法:SU, SD,

8、2019/1/8,南京大学多媒体研究所,17,无损预测编码(2),21, 22, 27, 25, 22 f2 21 e2=1 f3=21 e3=6 f4=24 e4=1 f5=26 e5=-4,2019/1/8,南京大学多媒体研究所,18,量化器 Q,( m阶线性预测,A1, A2, . , Am可自动修正。),实际样本值,线性预测公式: Xn = A1*Xn-1 + A2*Xn-2 + . + Am*Xn-m,利用样本与样本之间存在的相关性进行编码,即根据前面的样本估算当前样本的大小,然后对预测误差进行量化编码。,差分脉冲编码调制 DPCM,2019/1/8,南京大学多媒体研究所,19,13

9、0,150,140,200,230 f 130, 130, 142, 144, 167 e 0, 20, -2, 56, 63 e 0, 24, -8, 56, 56 f 130, 154, 134, 200, 223,举例,2019/1/8,南京大学多媒体研究所,20,自适应脉冲编码调制(APCM),根据输入样本幅度的大小来改变量化阶大小。 可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是音节自适应,即量化阶的大小在较长时间周期里发生变化。,量化器 Q,样本值,2019/1/8,南京大学多媒体研究所,21,量化器 Q,13位自然码的数字语音样本,CCITT G.721 ADPCM

10、编码器,6阶自适应线性预测, 4位的自适应量化器, 输出码率: 8k x 4 = 32 kbps,2019/1/8,南京大学多媒体研究所,22,ADPCM 小结,PCM话音质量 4.5级 ADPCM话音质量 4.34级,码率降低一倍(32 kbps)。 ADPCM应用: 数字语音通信 多媒体应用中的语音(解说词),2019/1/8,南京大学多媒体研究所,23,3. Sub-band coding (子带编码),基本原理: 利用带通滤波器(BPF)把声音信号按频率范围划分成几个组成部分(子频带,子带) 低频部分能量较集中,量化精度要高,取样频率可稍低。 高频部分是摩擦音、噪音,量化精度可低些,但

11、取样频率要稍高。 不同子频带作不同的ADPCM编码处理,然后再复合在一起。,2019/1/8,南京大学多媒体研究所,24,例:16kb/s 子带编码器,2019/1/8,南京大学多媒体研究所,25,模式1:声音64kbps;辅助数据 0 模式2:声音56kbps;辅助数据 8 kbps 模式3:声音48kbps;辅助数据 16kbps,G.722: 64 kbps的声音子带编码,二、数字语音的参数编码,2019/1/8,南京大学多媒体研究所,27,1 参数编码(源编码)的设计思想,分析人的发声器官的结构及语音生成的原理, 建立语音生成的物理(数学)模型, 编码时:从话音波形信号中提取生成该话音

12、的参数; 解码时:根据语音生成模型,使用这些参数合成原始话音。,2019/1/8,南京大学多媒体研究所,28,语音生成过程(1),空气由肺部呼出,经过声带,送入声道,最后从嘴唇呼出,产生声音。 成年男子的声道平均长度约17cm,它使声音信号具有短期相关性(持续时间1 ms左右) 声道是一个谐振腔,说话时,声道形状不断变化,引起谐振频率改变,大约10 100 ms改变一次; 声道可以看作为具有共振特性的一个滤波器,由于声道形状变化比较慢,因此该滤波器的转移函数(transfer function)只需要每20ms左右时间修改一次。,2019/1/8,南京大学多媒体研究所,29,语音生成过程(2)

13、,声道滤波器由肺部空气经过声带而激励,根据激励的模式,语音可分成2类:,浊音(时间域),浊音Voiced sounds (声带震动,产生准周期的空气脉冲激励信号,送入声道),清音(时间域),清音Unvoiced sounds(声带不振动,声门始终处于“开”状态,送入声道的空气激励信号是一种无周期性的噪音信号),2019/1/8,南京大学多媒体研究所,30,语音生成的声道滤波器模型(1),2019/1/8,南京大学多媒体研究所,31,语音生成的声道滤波器模型(2),LPC模型= (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T),2019/

14、1/8,南京大学多媒体研究所,32,语音是一个近似的短时(1030ms)平稳随机过程,LPC模型的参数A = (a1, a2, a3, a4, a5, a6, a7, a8, a9, a10, G, V/UV, T)变化比较慢, 大约每20ms变化一次; 假设语音信号的取样频率为8kHz,将每秒钟分成50帧,每帧 20ms(其中有20x8=160个样本) ,每一帧的所有信号近似地满足同一模型,即每一帧语音可以使用同一组参数来表示: 浊音还是清音(1位) 浊音的基频T(6位) 音源的幅度G(5位) 线性滤波器的参数(10个参数,每个参数6位,共60位),语音的参数编码(LPC分析) 从已知的数字

15、语音信号中提取参数,所以,每秒总码率为:50 x 72 bits = 3600 bps = 3.6kbps,2019/1/8,南京大学多媒体研究所,33,2 如何确定LPC的系数(1),对声音波形的编码实际就转化为如何提取语音生成模型的参数,经典的方法是线性预测编码LPC。 每一个样本都用过去10个样本的线性组合来预测: spre(n) = - a1s(n-1)+a2s(n-2)+a10s(n-10) 样本s(n)的预测误差为: e(n) = s(n) - spre(n) = s(n) + a1s(n-1)+a2s(n-2) +a10s(n-10),2019/1/8,南京大学多媒体研究所,34

16、,如何确定LPC的系数(2),问题:对给定的一帧信号s(n) ,n=0159,怎样选择系数ai 使得预测误差e(n)的平方和为最小? 即 最小 为此,上式对a1, a2, , a10 分别求偏导数得到一组差分方程 dE/da1 0, dE/da2 0, , dE/da10 0, 求解差分方程组,可得到系数 ai 的值。,2019/1/8,南京大学多媒体研究所,35,求解系数 ai的线性方程组,R(0) R(1) R(2) R(3) R(4) R(5) R(6) R(7) R(8) R(9) a1 -R(1) R(1) R(0) R(1) R(2) R(3) R(4) R(5) R(6) R(7) R(8) a2 -R(2) R(

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号