信源编码技术

上传人:飞*** 文档编号:57126287 上传时间:2018-10-19 格式:PPT 页数:53 大小:4.39MB
返回 下载 相关 举报
信源编码技术_第1页
第1页 / 共53页
信源编码技术_第2页
第2页 / 共53页
信源编码技术_第3页
第3页 / 共53页
信源编码技术_第4页
第4页 / 共53页
信源编码技术_第5页
第5页 / 共53页
点击查看更多>>
资源描述

《信源编码技术》由会员分享,可在线阅读,更多相关《信源编码技术(53页珍藏版)》请在金锄头文库上搜索。

1、信源编码技术,语音与图像压缩编码,信源编码技术,信源编码:将模拟信源信号转换为二进制数字信号,在接收端再将收到的数字信号还原为模拟信号的方法 这是由模拟网数字网至关重要的一步 类别 语音编解码 图像编解码 目前在移动通信系统中,语音信号还是主要业务,在今后多媒体移动系统中,图像业务比重越来越大。,语音编码,概念: 把模拟语音信号变成数字语音信号,以便在信道中传输 意义 提高通话质量(数字化纠错码) 提高频谱利用率(低码率编码) 提高系统容量(低码率话音激活技术) 移动通信对语音编码要求 码率低、语音质量高 抗噪声和抗干扰能力强 编译码延时小,总延时在65ms以内 编译码复杂度低,便于大规模集成

2、化 功耗小,便于应用于手持台,语音编码分类,语音编码方法,波形编码: 将时间域信号直接变换成数字代码,目的是尽可能精确再现原始语音波形。基本原理是在时间轴上对模拟语音按一定速率抽样,然后将幅度样本分层量化,并用代码表示。 参量编码: 又称声源编码,是将信源信号在频域或其它正交变换域提取特征参量,并转换成数字代码进行传输。基本原理是以发音机制的模型为基础,用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型,从模拟语音信号中提取这些特征参量并量化编码 混合编码: 将波形编码和参量编码结合起来,几种语音编码优缺点,波形编码 优点:对于比特速率较高的编码信号(1664kbit s/s),波

3、形编码技术能够提供相当好的话音质量 缺点:对低速语音编码(低于16kbits/s),波形编码的语音质量显著下降,所以不适合频谱资源紧张的移动通信系统 参量编码 优点:可实现低速语音编码,速率可达24.8k bits/s 缺点:语音质量只能达到中等 混合编码 吸收了上述两种编码的优点,是优选方向,语音编码与压缩技术,要实现低速、高质量的语音编码,必须采用压缩技术;,波形技术处理: 削减语音波形冗余度,包括线性预测分析、频带分割、正交变换和分析合成等;量化技术: 优化幅度量化,包括自适应量化、自适应比特分配和矢量量化,语音评价,客观评定方法: 用客观测量的手段来评价语音编码的质量,常用信噪比、加权

4、信噪比、平均分段信噪比等方法;特点有 建立在度量均方误差基础上; 计算简单; 对于低速语音编码,不能完全反映人对语音质量的感觉主观评定方法: 主观评定等级或平均评定得分(MOS)由数十名试听者在相同信道环境中试听并给予评分,然后对评分进行统计处理,求出平均得分。要求 试听者人数足够多; 语音材料足够丰富; 试听环境尽量相同,Mean Opinion Score,主观评定等级,试听者对语音质量的感觉往往是和注意力集中程度相联系的,因此对于主观评定等级,还有一个收听注意力等级。,MOS分与语音质量,MOS分在4.04.5分为高质量语音编码,达到长途电话网的质量要求 MOS分为3.5分左右称作通信质

5、量,听者能感觉到语音质量有所下降,但不影响正常通话,可以满足多数通信系统使用要求 MOS分为3分以下常称为合成语音质量,只有足够高的可懂度,但自然度较差,不容易识别讲话者,语音编码现状,标准制定情况,语音质量与比特速率,语音波形编码,模拟语音信号数字语音信号:时间和幅度离散化,即抽样与量化 抽样定理:采样率大于或等于信号带宽的2倍,离散信号可以无失真恢复成原始模拟信号 幅度量化:用有限个幅值表示样值幅度,从而离散化信号幅度的过程 量化阶距:相邻两量化值之差 均匀量化:量化阶距为常量小信号的“信号与量化噪声比”小,因此对小信号不利 非均匀量化:量化阶距可变压缩量化,即在均匀量化前,对大信号进行压

6、缩,对小信号进行放大,压缩量化,压缩量化: 对输入信号的对数进行量化,以使量化信噪比与量化电平无关 律压缩:A律压缩:,压缩量化特性,A与的物理意义:最大量化阶距与最小量化阶距之比,PCM调制,PCM(脉冲编码调制): 直接将样值编码为信号,特点为 64kbit/s:量化成128个正负各半的量值,用7位二进制数表示,再加上一位符号共8比特;采样率8kHz 采用A律或律压缩,参量编码原理,原理: 模型化人类语音产生机制,提取模型参数,并且只传送模型参数低码率编码,导致合成的语音波形失去了自然度和音质 语音信号的产生模型 语音的产生:声带与声道 不同语音产生原因:声音激励源和声道不同 声音分类:清

7、音和浊音 浊音:声带振动 基音周期 波形:三角形周期脉冲波,含丰富谐音 清音:声带不振动,类似白噪声 发声过程:口腔和鼻腔形成时变滤波器,清音和浊音,清浊音信号,清浊音频谱,语音产生模型,语音模型的建立:1、产生激励;2、响应 模型参数:基音、共振峰频率及强度、清浊音判决,特征提取参数,基于语音信号的短时准平稳特性1020ms 提取技术 自相关函数法 平均幅度差函数法 线性预测 短时波形分析 短时处理技术 加窗技术:方窗和哈明窗 基音周期估计: 基于短时自相关函数 基于短时平均幅度差函数,线性预测编码(LPC),线性预测:一个语音采样的现在值可以用若干个语音采样的过去值的加权线性组合来逼近。其

8、中加权系数称为预测器系数。 线性预测语音编码机理:语音信源是相关信源,即使经过采样与量化,相邻样点仍有很强相关性。 线性预测编码:把线性预测用于语音编码。 预测模型一般为一个全极点模型 准则:最小均方误差 传输:预测系数、基音周期和增益、清浊音判决,LPC数学描述,LPC实现结构,(a)编码器,(b)译码器,LPC编码器缺陷,缺点: 损失了语音的音质 抗噪声能力差 谱包络估计可能产生较大失真 原因: 激励信号在浊音段采用周期脉冲,在清音段采用白噪声 没有将发端模型的误差信号传到收端,混合编码,为克服LPC的缺陷,采用混合编码器,即在产生模型参数的同时,激励信号从语音波形信号获得 方法 一条路径

9、产生线性预测参数并传送出去 一条路径滤出信号的低频成分,并通过波形编码传送出去接收端的激励信号 特点 不需要进行清浊音判决和基音周期提取 编码速率一般比LPC高 音质比LPC编码器好,用于移动通信的语音编码,移动通信中实用的语音编码均为混合编码,混合编码的共同特点,先进行线性预测分析去掉语音的短时相关性; 再分析出最佳激励信号; 对激励信号和线性预测参数进行编码传送;,GSM的语音编码,算法名称:(RPE-LTP)规则脉冲激励长时预测编码 特点: 是一种混合编码技术 采用间隔相等、相位和幅度优化的规则脉冲作为激励源,以使混合信号接近原信号 结合长时预测,消除信号冗余度,码率低 语音检测,分段处

10、理,静寂描述(SID)帧 编码率13kb/s 计算简单、计算量适中、易于硬件化 语音质量MOS达4.0,Regular Pulse Excited-Long Time Prediction,RPE-LTP算法方案,20ms为一帧,分成4个子帧,每个子帧含40个样点(采样率8kHz) 每个子帧预测误差信号的样点按3:1等间隔抽取,得到13个样点(共有4种序列) 在4种序列中选择一种对语音波形贡献最大的序列 找到序列中的最大非零点,用6比特编码 用最大非零点归一化整个序列,用APCM编码,每个样值各用3个比特编码 每20ms共编180bit,GSM语音编码框图,GSM语音解码框图,IS-95语音编

11、码技术,算法名称:(Qualcomm CELP)Qualcomm公司码激励线性预测编码 特点: 是一种混合编码技术 采用矢量量化技术 采用CELP技术 采用话音激活技术(VAD),速率可变 速率有四种:9.6kbps、4.8kbps、2.4kbps和1.2kbps,矢量量化技术,矢量量化: 将若干个标量数据组成一个矢量,然后在矢量空间中给以整体量化,从而压缩了数据而不损失很多信息; 它是一种能接近率失真理论限的量化技术; 是一种延迟判决编码技术,把一个矢量映射为一个码本索引并传输到接收端,而码本是一个由有限个矢量组成的集合,并且这些矢量能组合得到所有可能的矢量,矢量量化技术,示意,码激励线性预

12、测技术(CELP),特点: 基于线性预测编码技术 激励源从码本中搜索并乘上最佳增益,代替LP余量信号 编码过程: 原始语音被分成帧,帧长约为1030ms,对每帧进行LPC预测,求出LP参数 在残留信号中进行长时预测 两次预测结束后,得到激励信号,并对激励信号进行矢量量化,QCELP框图,共15个参数:滤波参数a1,a2,a12;音调参数L和b;增益参数G;码表参数T,QCELP算法,算法方案: 把模拟语音按8kHz采样 按20ms一个语音帧,每帧160个样本 用这160个样本产生3个参数子帧,这3个参数子帧不断更新,并按一定帧结构送至接收端 滤波参数a1,a2,a12,对任何速率每20ms更新

13、一次 音调参数,不同速率更新频率不同 码表参数,不同速率更新频率不同,QCELP不同速率的参数变化,注:1/8速率不是从码表选择,而是伪随机激励,QCELP速率选择,根据每一帧中的能量与3个门限值的比较 3个门限值的选择基于对背景噪声的估计 每一帧中的能量由自相关函数R(0)的值决定,与门限T1(Bi)、 T2(Bi)和T3(Bi)(Bi为背景噪声)的关系: 若R(0)大于3个门限,则选择速率1 若R(0)大于2个门限,则选择速率1/2 若R(0)大于1个门限,则选择速率1/4 若R(0)小于所有门限,则选择速率1/8 每次只允许变化一级 半速率时,门限1实际为门限1/2,IS54语音编码,矢

14、量和激励线性预测编码(VSELP) 特点: 采用CELP技术和矢量量化技术 对余数信号进行矢量量化,只传输码本序号,编码效率高; 有三个码本,一个为长时预测增益,另两个为矢量码本; 每一激励使用三个码本信号之; 在搜索最佳激励矢量方面有简化算法 码本为事先确定好的结构,不用全搜索 总延时比GSM略大,WCDMA语音编码,算法名称:(AMR)自适应多速率编码 AMR概念:以更智能的方式解决信源编码和信道编码的速率匹配问题,实际的语音编码速率将取决于信道条件 原因: WCDMA支持多媒体业务,并支持分组交换与电路交换方式 移动信道是随机变化的,固定速率编码不能使系统工作在最佳的信源编码和信道编码速

15、率上 信道质量差时,信道编码不足以纠正传输错误,此时应改进信道编码,减小信源编码速率,提高语音质量 信道质量好时,增加信源编码速率,提高语音质量,AMR语音编码原理,AMR是一种集成语音编码器,有8种确定的信源速率模式,从4.75kbps12.2kbps,AMR编码框图,AMR解码框图,图像压缩编码,图像信息量大,处理技术复杂 图像信息量远大于语音、文字、传真,所占用的传输频带也更宽 传输、处理、存储图像信息都比语音、文字等更复杂、更困难 图像包括:静止图像、可视电话、会议电视、广播电视和高清晰度电视等不同等级 为节约传输带宽,根据图像信息中有大量的冗余信息,需要且能够对图像信息进行压缩编码,

16、图像压缩编码原理,根据各类图像的客观统计特性、以及接收者人眼的生理与心理特征,来制定综合匹配的压缩编码方式 通过图像的帧间预测来消除图像的时域相关性 通过图像的帧内离散余弦变换(DCT)来消除图像的空间域相关性 利用人眼视觉生理与心理特征进行自适应量化编码 通过熵编码实现与信源的概率统计匹配 采用缓冲存储器实现输入变长与输出定长之间的匹配,图像压缩编码标准,MPEG4综述,比前面的MPEGx更加全面 目前标准已比较成熟 标准内容涵盖: 编码(Coding):音频、视频和音像内容的表现部分 合成(Composition):描述如何把这些对象(Objects)合成到一起,成组合媒体对象(Media Objects) 复接(Multiplex):媒体对象相关的数据复接与同步 互动(Interaction):与用户间的互动,系统综述,每一类媒体都有数个解码器 把各部分解码后的数据聚集到一起进行合成处理 合成思想与虚拟现实造型语言(VRML)类似 对象的场景图形 在链路中定义了合成信息 分层结构、无需静态 合成流包括MPEG4的额外信息 空间关系和时间关系,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号