移动多媒体技术基础教学课件 ppt 作者王波涛第三章2

资源描述

《移动多媒体技术基础教学课件 ppt 作者王波涛第三章2》由会员分享，可在线阅读，更多相关《移动多媒体技术基础教学课件 ppt 作者王波涛第三章2（86页珍藏版）》请在金锄头文库上搜索。

1、第三章移动多媒体的语音/音频编解码技术,主要内容,语音编码概述语音信号的数学模型移动多媒体中的语音编码技术 3G中语音编码标准音频编码技术,1 语音编码概述,（1）音频信号的频率范围,（窄带）话音(语音)编码 3003400Hz 宽带话音编码 507000Hz （宽带）音频（音乐）编码 2020000Hz,（）语音编码的基本技术,波形编码参数编码混合编码,波形编码,将时间域信号直接变换为数字代码,使重建语音波形保持原语音信号的波形形状。基本原理: 在时间轴上对模拟语音按一定的速率抽样，然后将幅度样本量化，并用代码表示。将收到的数字序列经过解码和滤波恢复成模拟信号。,优点：适应

2、能力强、语音质量好、抗噪抗误码能力强编码速率高:16k64kbps。应用信号带宽要求不太严格的通信中不适于频率资源相对紧张的移动通信,参数编码,基本原理将信号在频率域或其它正交变换域提取特征参数，并将其变换成数字代码。解码时将收到的数字序列经变换恢复特征参数，再根据特征参数重建语音信号重视保护语音参数模型，重建清晰可识别的语音不注重波形的拟合，,优点：实现低速或极低速的编码:编码速率通常小于4.8KbPs，可以低至600bPs至.4KbPs。缺点：合成语音质量差，特别是自然度较低，对讲话环境噪声较敏感延时比较大。,混合编码,将波形编码和参数编码组合起来克服了原有波形编

3、码和参数编码的弱点，结合了各自的长处力图保持波形编码的高质量和参数编码的低速率在416KbPs速率上能够得到高质量的合成语音。适合移动通信,语音编码标准,以国际电信联盟标准部(ITU-T)为代表的各种国际机构和组织提出了大量的国际语音编码标准建议,2.语音信号的数学模型,语音分：清音浊音,清音/浊音示意图：,基音声音信号波形中基频（频率最低）所产生的听得最清楚（能量最大）的音。共振峰(formant) 指在声音的频谱中能量相对集中的一些区域，反映了声道的物理特征。,1960年，Fant提出了语音信号产生的线性预测（LPC）模型该模型以语音的发音生理过程和语音信号的声学特性为基础

4、，成功的表达了语音的主要特征，在语音编码领域得到了广泛应用。,y(n),y(n-1),y(n-p),线性预测：,该数字模型包括两部分: 激励源: 由浊音和清音两个分支组成声道参数,该模型建立的基本思想: 构造时变数字滤波器H(z) 周期脉冲发生器伪随机噪声发生器它们合成语音,声道模拟滤波器,LPC 语音合成图,在浊音情况下: 激励信号(基音周期)由一个周期脉冲序列发生器产生，用来模拟发出浊音时激励声道的气流乘以系数Av是调节浊音信号的幅度或能量,在清音情况下: 激励信号(白噪声)由一个伪随机噪声发生器产生，用来模拟发出清音时激励声道的湍流乘以系数Au是调节清音信号的幅度或能量。,声

5、道模型: 用时变数字滤波器H(z)来实现: 全极点模型或称AR(Autoregressive)模型,ai是线性预测(LP)系数 p是预测阶数 G是增益因子,时变数字滤波器H(Z)的构造解决AR模型参数估计的问题即求解LP系数ai的问题如果采用最小均方误差准则对AR模型参数ai进行估计，就得到了线性预测编码算法。,3. 移动多媒体中的语音编码技术,(1)码激励线性预测（CELP）模型,Code-Excited Linear Prediction Manfred R. Schroeder & Bishnu S.Atal 于年在IEEE ICASSP（International Confere

6、nce on Acoustics, Speech, and Signal Processing ）年会上提出以码本作为激励源具有速率低、合成语音质量高、抗噪声强及多次音频转接性能良好 4.816kbps,例1(男),例2(女),码本（codebook）激励语音合成示意图,特点,线性预测码本激励合成分析知觉加权,S(n),E(n),线性预测系数（LPC, Linear Predict Coefficient),Durbin递推算法 Schur递推算法线谱对参数（LSP,Linear Spectrum Pair）,合成分析 Analysis By Synthesize 基本思想: 将合

7、成器引入到编码端，在编码端产生与译码器端完全一致的合成语音将此合成语音与原始语音相比较，根据一定的误差准则，调整编码端计算出来的各个参数，使得二者之间的误差达到最小。将误差最小时的系统参数传送到接收端，可以合成较高质量的语音。在4.8kbps16kbps的速率范围内的语音编码中取得了极大的成功,知觉加权 (Perceptual Weighting Filter),听觉系统的频域掩蔽效应对共振峰频域进行去加重处理，增加噪声功率，减少其它区域的噪声功率由于共振峰附近的语音信号能量较强，噪声被语音信号掩蔽，人耳感觉不到主观评测认为合成语音质量提高传递函数：H（Z）=W(z)/A(z),

8、（2）变速率编码,适合移动信道背景噪声浊音清音速率判断（RDA）激活话音(VAD),产生舒适背景噪声,发送端：估计背景噪声，将其特征参数用静音描述帧（Silence descriptor）传送到接收端，SID帧中有关背景噪声参数被编码接收端：译码，在没有正常语音期间产生舒适背景噪声,误差隐藏技术,基本原理：差错检测正常帧差错帧,源控制信道控制网络控制,4. 3G中语音编码标准,CDMA2000采用美国 Qualcomm公司的码激励线性预测(QCELP)声码器增强型变速率编解码器(EVRC) 把可选模式声码器 (SMV)作为备用 WCDMA/ TDSCDMA采用自

9、适应多速率(AMR) 语音编码技术,（)QCELP-8K,为充分利用CDMA技术，Qualcomm公司于1993年提出了可变速率的CELP，称为QCELP 包括8K和13K两种声码器（Vocoder）基于CELP编码，根据信号能量和背景噪声动态调整编码速率，在基本不影响语音质量的前提下，能明显降低数据的平均速率； QCELP-8k:TIA/EIA/IS-96/A/B/C CDMA2000 话音标准之一 WWW.3GPP2.COM,采用8kHz采样，16比特线性PCM量化每20ms分为一语音帧，每帧包含160个样本四种速率编码：全速率、1/2速率、1/4速率和1/8速率。全速率编码后有1

10、71比特 1/2速率数据包有80比特 1/4速率数据包有40比特 1/8速率数据包有16比特相应的速率分别为8.55k、4k、2k和800bps。,QCELP-8k速率判决,根据语音信号能量和背景噪声动态调整速率估计语音信号能量：利用当前第i帧输入信号的第一个自相关系数确定三个门限全速率：大于三个门限半速率：大于二个门限速率：大于一个门限速率：小于三个门限,（2）QCELP-13K,1997年，TIA/EIA/IS-733标准 CDMA2000 话音标准之一 WWW.3GPP2.COM 平均速率较高，但合成语音的音质较好。四种速率：全速率、1/2、1/4和1/8速率。,全速率

11、数据包中共有266比特 1/2速率数据包中共有124比特 1/4速率数据包中共有54比特 1/8速率数据包中共有20比特对应的数据包速率为13.3k、6.2k、2.7k和1kbps。输入信号为8kHz采样、16比特量化的线性PCM语音信号每20ms（160个样本点）为一个语音帧每一个语音帧又分为LPC（线性预测编码）子帧、基音子帧、固定码本子帧。,（）EVRC,美国电信工业协会(TIA)于1996年提出，属于IS-127标准。增强型变速率声码器（Enhanced Variable Rate Codec，简称EVRC） CDMA2000 话音标准之一第一种带去噪声功能常用话音编码器

12、WWW.3GPP2.COM,三种速率：全速率、1/2速率和1/8速率输出比特位分别为171位、80位、16位。分别对应8.5kbps、4kbps、1kbps，语音帧长为20ms，采样频率为8kHz,话音清晰，通话质量接近有线电话，掉话率低与TIA/EIA/IS-96比较，合成音质有很大的提高解码合成语音质量与QCELP-13k算法的音质相当,又具有较低的平均码率平均编码速率为4.3kbps 复杂度约为30MIPS,QCELP-8k/EVRC codec对比,原始文件大小: 367KB QCELP-8k压缩后文件大小：27.5KB EVRC压缩后文件大小：22.3KB 音质原始 q

13、celp-8k EVRC,滤波去噪模型参数估计速率判决参数编码解码,EVRC语音编码器流程图,（）SMV,2001年 3GPP2公布可选模式声码器 Selectable Mode Vocoder 全速率、1/2 、1/4 、1/8 8.5/3/2/0.8kbps 种可选工作模式模式和与EVRC兼容音乐信号检测,SMV工作模式,SMV平均编码速率（ADR）,（）AMR,Adpative Multi-Rate 3G W-CDMA/TD-SCDMA的语音压缩编码 AMR-NB(Narrowband) WWW.3GPP.COM 让容错度随无线信道和传输环境的改变而改变,有8种编码速率

14、4.75，5.15，5.90，6.70，7.40，7.95，10.2，12.2 kbps，实际的语音速率主要取决于现存的无线信道环境。包括语音激励检测、一个噪声系统和防止失帧块和传输错误的隐藏系统。,（6）AMR-WB,带宽限制在50Hz7000Hz 16kHz的频率采样从50Hz200Hz的低端频率提高了自然度、表现力、舒适度 3400Hz7000Hz的高频部分可以更好地区分摩擦音,更易于理解,AMR-WB (Adaptive Multi-Rate Wideband) 自适应多速率宽带语音编码器 2001年3GPP批准 WCDMA/TD-SCDMA宽带语音编解码器 Nokia/ Voi

15、ceAge研发 ITU-T在2002年批准了这个编解码器, G.722.2 第一个可同时用于无线和有线应用的编解码器。标志无线与有线业务首次得以采用同一编解码器 3G与IP固定网络之间的互通更加容易。用在3G的多媒体服务、宽带包交换网络、音频和视频会议、聊天和虚拟现实以及数字无线广播,采用多速率代数码激励线性预测（CELP）编码多速率语音编码器话音激活检测器舒适噪声产生系统错误隐藏机制应对传输误差和丢失数据包的后果九个速率：从6.60k到23.85kbps 低码率背景噪声编码模式,（7）VMR-WB,Variable-Rate Multi-Mode Wideband Speech

16、Codec WWW.3GPP2.COM 用于3G中 CDMA2000 制式的新的3GPP2 宽带语音编码标准接近面对面通信方式的语音质量 20 ms/ 帧,可调整的去噪模式可变速率编码工作模式有四种，具体选择哪种应视网络的流量情况而定。,前三种模式专门针对CDMA系统，第四种模式为与AMR-WB互操作性模式。允许GSM/WCDMA与CDMA2000系统无须进行自动解码即可通信，不至于增加额外的延迟以及引起语音质量下降。,5. 音频编码技术,5.1 MP3,运动图像专家组MPEG （Motion Picture Experts Group） 1993 年，制定了用于数字存储媒体的码率不高于1.5Mbit/s的运动图象和相关音频编码标准 ISO/IEC 11172（ MPEG-1 ） MPEG-1的第3部分是音频编码的3层算法（Layer I、II和III）， MP3 是MPEG-1音频编码的第三层标准 MPEG-1 Audio Layer3 后缀：.

展开阅读全文

移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2

移动多媒体技术基础教学课件 ppt 作者王波涛第三章2