移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2

上传人:E**** 文档编号:89272443 上传时间:2019-05-22 格式:PPT 页数:86 大小:1.09MB
返回 下载 相关 举报
移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2_第1页
第1页 / 共86页
移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2_第2页
第2页 / 共86页
移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2_第3页
第3页 / 共86页
移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2_第4页
第4页 / 共86页
移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2》由会员分享,可在线阅读,更多相关《移动多媒体技术基础 教学课件 ppt 作者 王波涛 第三章2(86页珍藏版)》请在金锄头文库上搜索。

1、第三章 移动多媒体的语音/音频编解码技术,主要内容,语音编码概述 语音信号的数学模型 移动多媒体中的语音编码技术 3G中语音编码标准 音频编码技术,1 语音编码概述,(1)音频信号的频率范围,(窄带)话音(语音)编码 3003400Hz 宽带话音编码 507000Hz (宽带)音频(音乐)编码 2020000Hz,()语音编码的基本技术,波形编码 参数编码 混合编码,波形编码,将时间域信号直接变换为数字代码,使重建语音波形保持原语音信号的波形形状。 基本原理: 在时间轴上对模拟语音按一定的速率抽样,然后将幅度样本量化,并用代码表示。 将收到的数字序列经过解码和滤波恢复成模拟信号。,优点: 适应

2、能力强、语音质量好、抗噪抗误码能力强 编码速率高:16k64kbps。 应用信号带宽要求不太严格的通信中 不适于频率资源相对紧张的移动通信,参数编码,基本原理 将信号在频率域或其它正交变换域提取特征参数,并将其变换成数字代码。 解码时将收到的数字序列经变换恢复特征参数,再根据特征参数重建语音信号 重视保护语音参数模型,重建清晰可识别的语音 不注重波形的拟合,,优点: 实现低速或极低速的编码:编码速率通常小于4.8KbPs,可以低至600bPs至.4KbPs。 缺点: 合成语音质量差,特别是自然度较低, 对讲话环境噪声较敏感 延时比较大。,混合编码,将波形编码和参数编码组合起来 克服了原有波形编

3、码和参数编码的弱点,结合了各自的长处 力图保持波形编码的高质量和参数编码的低速率 在416KbPs速率上能够得到高质量的合成语音。 适合移动通信,语音编码标准,以国际电信联盟标准部(ITU-T)为代表的各种国际机构和组织提出了大量的国际语音编码标准建议,2.语音信号的数学模型,语音分: 清音 浊音,清音/浊音示意图:,基音 声音信号波形中基频(频率最低)所产生的听得最清楚(能量最大)的音。 共振峰(formant) 指在声音的频谱中能量相对集中的一些区域,反映了声道的物理特征。,1960年,Fant提出了语音信号产生的线性预测(LPC)模型 该模型以语音的发音生理过程和语音信号的声学特性为基础

4、,成功的表达了语音的主要特征,在语音编码领域得到了广泛应用。,y(n),y(n-1),y(n-p),线性预测:,该数字模型包括两部分: 激励源: 由浊音和清音两个分支组成 声道参数,该模型建立的基本思想: 构造时变数字滤波器H(z) 周期脉冲发生器 伪随机噪声发生器 它们合成语音,声道模拟 滤波器,LPC 语音合成图,在浊音情况下: 激励信号(基音周期)由一个周期脉冲序列发生器产生,用来模拟发出浊音时激励声道的气流 乘以系数Av是调节浊音信号的幅度或能量,在清音情况下: 激励信号(白噪声)由一个伪随机噪声发生器产生,用来模拟发出清音时激励声道的湍流 乘以系数Au是调节清音信号的幅度或能量。,声

5、道模型: 用时变数字滤波器H(z)来实现: 全极点模型或称AR(Autoregressive)模型,ai是线性预测(LP)系数 p是预测阶数 G是增益因子,时变数字滤波器H(Z)的构造 解决AR模型参数估计的问题 即求解LP系数ai的问题 如果采用最小均方误差准则对AR模型参数ai进行估计,就得到了线性预测编码算法。,3. 移动多媒体中的语音编码技术,(1)码激励线性预测(CELP)模型,Code-Excited Linear Prediction Manfred R. Schroeder & Bishnu S.Atal 于年在IEEE ICASSP(International Confere

6、nce on Acoustics, Speech, and Signal Processing )年会上提出 以码本作为激励源 具有速率低、合成语音质量高、抗噪声强及多次音频转接性能良好 4.816kbps,例1(男),例2(女),码本(codebook)激励语音合成示意图,特点,线性预测 码本激励 合成分析 知觉加权,S(n),E(n),线性预测系数(LPC, Linear Predict Coefficient),Durbin递推算法 Schur递推算法 线谱对参数(LSP,Linear Spectrum Pair),合成分析 Analysis By Synthesize 基本思想: 将合

7、成器引入到编码端,在编码端产生与译码器端完全一致的合成语音 将此合成语音与原始语音相比较,根据一定的误差准则,调整编码端计算出来的各个参数,使得二者之间的误差达到最小。 将误差最小时的系统参数传送到接收端,可以合成较高质量的语音。 在4.8kbps16kbps的速率范围内的语音编码中取得了极大的成功,知觉加权 (Perceptual Weighting Filter),听觉系统的频域掩蔽效应 对共振峰频域进行去加重处理,增加噪声功率,减少其它区域的噪声功率 由于共振峰附近的语音信号能量较强,噪声被语音信号掩蔽,人耳感觉不到 主观评测认为合成语音质量提高 传递函数:H(Z)=W(z)/A(z),

8、(2)变速率编码,适合移动信道 背景噪声 浊音 清音 速率判断(RDA) 激活话音(VAD),产生舒适背景噪声,发送端: 估计背景噪声,将其特征参数用静音描述帧(Silence descriptor)传送到接收端,SID帧中有关背景噪声参数被编码 接收端: 译码,在没有正常语音期间产生舒适背景噪声,误差隐藏技术,基本原理: 差错检测 正常帧 差错帧,源控制 信道控制 网络控制,4. 3G中语音编码标准,CDMA2000采用 美国 Qualcomm公司的 码激励线性预测(QCELP)声码器 增强型变速率编解码器(EVRC) 把可选模式声码器 (SMV)作为备用 WCDMA/ TDSCDMA采用自

9、适应多速率(AMR) 语音编码技术,()QCELP-8K,为充分利用CDMA技术,Qualcomm公司于1993年提出了可变速率的CELP,称为QCELP 包括8K和13K两种声码器(Vocoder) 基于CELP编码,根据信号能量和背景噪声动态调整编码速率,在基本不影响语音质量的前提下,能明显降低数据的平均速率; QCELP-8k:TIA/EIA/IS-96/A/B/C CDMA2000 话音标准之一 WWW.3GPP2.COM,采用8kHz采样,16比特线性PCM量化 每20ms分为一语音帧,每帧包含160个样本 四种速率编码:全速率、1/2速率、1/4速率和1/8速率。 全速率编码后有1

10、71比特 1/2速率数据包有80比特 1/4速率数据包有40比特 1/8速率数据包有16比特 相应的速率分别为8.55k、4k、2k和800bps。,QCELP-8k速率判决,根据语音信号能量和背景噪声动态调整速率 估计语音信号能量: 利用当前第i帧输入信号的第一个自相关系数 确定三个门限 全速率:大于三个门限 半速率:大于二个门限 速率:大于一个门限 速率:小于三个门限,(2)QCELP-13K,1997年,TIA/EIA/IS-733标准 CDMA2000 话音标准之一 WWW.3GPP2.COM 平均速率较高,但合成语音的音质较好。 四种速率:全速率、1/2、1/4和1/8速率。,全速率

11、数据包中共有266比特 1/2速率数据包中共有124比特 1/4速率数据包中共有54比特 1/8速率数据包中共有20比特 对应的数据包速率为13.3k、6.2k、2.7k和1kbps。 输入信号为8kHz采样、16比特量化的线性PCM语音信号 每20ms(160个样本点)为一个语音帧 每一个语音帧又分为LPC(线性预测编码)子帧、基音子帧、固定码本子帧。,()EVRC,美国电信工业协会(TIA)于1996年提出,属于IS-127标准。 增强型变速率声码器(Enhanced Variable Rate Codec,简称EVRC) CDMA2000 话音标准之一 第一种带去噪声功能常用话音编码器

12、WWW.3GPP2.COM,三种速率:全速率、1/2速率和1/8速率 输出比特位分别为171位、80位、16位。 分别对应8.5kbps、4kbps、1kbps, 语音帧长为20ms,采样频率为8kHz,话音清晰,通话质量接近有线电话,掉话率低 与TIA/EIA/IS-96比较,合成音质有很大的提高 解码合成语音质量与QCELP-13k算法的音质相当,又具有较低的平均码率 平均编码速率为4.3kbps 复杂度约为30MIPS,QCELP-8k/EVRC codec对比,原始文件大小: 367KB QCELP-8k压缩后文件大小:27.5KB EVRC压缩后文件大小:22.3KB 音质 原始 q

13、celp-8k EVRC,滤波 去噪 模型参数估计 速率判决 参数编码 解码,EVRC语音编码器流程图,()SMV,2001年 3GPP2公布 可选模式声码器 Selectable Mode Vocoder 全速率、1/2 、1/4 、1/8 8.5/3/2/0.8kbps 种可选工作模式 模式和与EVRC兼容 音乐信号检测,SMV工作模式,SMV平均编码速率(ADR),()AMR,Adpative Multi-Rate 3G W-CDMA/TD-SCDMA的语音压缩编码 AMR-NB(Narrowband) WWW.3GPP.COM 让容错度随无线信道和传输环境的改变而改变,有8种编码速率

14、4.75,5.15,5.90,6.70,7.40,7.95,10.2,12.2 kbps, 实际的语音速率主要取决于现存的无线信道环境。 包括语音激励检测、一个噪声系统和防止失帧块和传输错误的隐藏系统。,(6)AMR-WB,带宽限制在50Hz7000Hz 16kHz的频率采样 从50Hz200Hz的低端频率提高了自然度、表现力、舒适度 3400Hz7000Hz的高频部分可以更好地区分摩擦音,更易于理解,AMR-WB (Adaptive Multi-Rate Wideband) 自适应多速率宽带语音编码器 2001年3GPP批准 WCDMA/TD-SCDMA宽带语音编解码器 Nokia/ Voi

15、ceAge研发 ITU-T在2002年批准了这个编解码器, G.722.2 第一个可同时用于无线和有线应用的编解码器。 标志无线与有线业务首次得以采用同一编解码器 3G与IP固定网络之间的互通更加容易。 用在3G的多媒体服务、宽带包交换网络、音频和视频会议、聊天和虚拟现实以及数字无线广播,采用多速率代数码激励线性预测(CELP)编码 多速率语音编码器话音激活检测器舒适噪声产生系统错误隐藏机制 应对传输误差和丢失数据包的后果 九个速率: 从6.60k到23.85kbps 低码率背景噪声编码模式,(7)VMR-WB,Variable-Rate Multi-Mode Wideband Speech

16、Codec WWW.3GPP2.COM 用于3G中 CDMA2000 制式的新的3GPP2 宽带语音编码标准 接近面对面通信方式的语音质量 20 ms/ 帧,可调整的去噪模式 可变速率编码 工作模式有四种,具体选择哪种应视网络的流量情况而定。,前三种模式专门针对CDMA系统,第四种模式为与AMR-WB互操作性模式。 允许GSM/WCDMA与CDMA2000系统无须进行自动解码即可通信,不至于增加额外的延迟以及引起语音质量下降。,5. 音频编码技术,5.1 MP3,运动图像专家组MPEG (Motion Picture Experts Group) 1993 年,制定了用于数字存储媒体的码率不高于1.5Mbit/s的运动图象和相关音频编码标准 ISO/IEC 11172( MPEG-1 ) MPEG-1的第3部分是音频编码的3层算法(Layer I、II和III), MP3 是MPEG-1音频编码的第三层标准 MPEG-1 Audio Layer3 后缀:.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号