信源编码技术－金锄头文库

资源描述

《信源编码技术》由会员分享，可在线阅读，更多相关《信源编码技术（53页珍藏版）》请在金锄头文库上搜索。

1、信源编码技术,语音与图像压缩编码,信源编码技术,信源编码：将模拟信源信号转换为二进制数字信号，在接收端再将收到的数字信号还原为模拟信号的方法这是由模拟网数字网至关重要的一步类别语音编解码图像编解码目前在移动通信系统中，语音信号还是主要业务，在今后多媒体移动系统中，图像业务比重越来越大。,语音编码,概念：把模拟语音信号变成数字语音信号，以便在信道中传输意义提高通话质量(数字化纠错码) 提高频谱利用率(低码率编码) 提高系统容量(低码率话音激活技术) 移动通信对语音编码要求码率低、语音质量高抗噪声和抗干扰能力强编译码延时小，总延时在65ms以内编译码复杂度低，便于大规模集成

2、化功耗小，便于应用于手持台,语音编码分类,语音编码方法,波形编码：将时间域信号直接变换成数字代码，目的是尽可能精确再现原始语音波形。基本原理是在时间轴上对模拟语音按一定速率抽样，然后将幅度样本分层量化，并用代码表示。参量编码：又称声源编码，是将信源信号在频域或其它正交变换域提取特征参量，并转换成数字代码进行传输。基本原理是以发音机制的模型为基础，用一套模拟声带频谱特性的滤波器系数和若干声源参数来描述这个模型，从模拟语音信号中提取这些特征参量并量化编码混合编码：将波形编码和参量编码结合起来,几种语音编码优缺点,波形编码优点：对于比特速率较高的编码信号(1664kbit s/s)，波

3、形编码技术能够提供相当好的话音质量缺点：对低速语音编码(低于16kbits/s)，波形编码的语音质量显著下降，所以不适合频谱资源紧张的移动通信系统参量编码优点：可实现低速语音编码，速率可达24.8k bits/s 缺点：语音质量只能达到中等混合编码吸收了上述两种编码的优点,是优选方向,语音编码与压缩技术,要实现低速、高质量的语音编码，必须采用压缩技术；,波形技术处理：削减语音波形冗余度，包括线性预测分析、频带分割、正交变换和分析合成等；量化技术：优化幅度量化，包括自适应量化、自适应比特分配和矢量量化,语音评价,客观评定方法：用客观测量的手段来评价语音编码的质量，常用信噪比、加权

4、信噪比、平均分段信噪比等方法；特点有建立在度量均方误差基础上；计算简单；对于低速语音编码，不能完全反映人对语音质量的感觉主观评定方法：主观评定等级或平均评定得分(MOS)由数十名试听者在相同信道环境中试听并给予评分，然后对评分进行统计处理，求出平均得分。要求试听者人数足够多；语音材料足够丰富；试听环境尽量相同,Mean Opinion Score,主观评定等级,试听者对语音质量的感觉往往是和注意力集中程度相联系的，因此对于主观评定等级，还有一个收听注意力等级。,MOS分与语音质量,MOS分在4.04.5分为高质量语音编码，达到长途电话网的质量要求 MOS分为3.5分左右称作通信质

5、量，听者能感觉到语音质量有所下降，但不影响正常通话，可以满足多数通信系统使用要求 MOS分为3分以下常称为合成语音质量，只有足够高的可懂度，但自然度较差，不容易识别讲话者,语音编码现状,标准制定情况,语音质量与比特速率,语音波形编码,模拟语音信号数字语音信号：时间和幅度离散化，即抽样与量化抽样定理：采样率大于或等于信号带宽的2倍，离散信号可以无失真恢复成原始模拟信号幅度量化：用有限个幅值表示样值幅度，从而离散化信号幅度的过程量化阶距：相邻两量化值之差均匀量化：量化阶距为常量小信号的“信号与量化噪声比”小，因此对小信号不利非均匀量化：量化阶距可变压缩量化，即在均匀量化前，对大信号进行压

6、缩，对小信号进行放大,压缩量化,压缩量化：对输入信号的对数进行量化，以使量化信噪比与量化电平无关律压缩：A律压缩：,压缩量化特性,A与的物理意义：最大量化阶距与最小量化阶距之比,PCM调制,PCM(脉冲编码调制)：直接将样值编码为信号，特点为 64kbit/s：量化成128个正负各半的量值，用7位二进制数表示，再加上一位符号共8比特；采样率8kHz 采用A律或律压缩,参量编码原理,原理：模型化人类语音产生机制，提取模型参数，并且只传送模型参数低码率编码，导致合成的语音波形失去了自然度和音质语音信号的产生模型语音的产生：声带与声道不同语音产生原因：声音激励源和声道不同声音分类：清

7、音和浊音浊音：声带振动基音周期波形：三角形周期脉冲波，含丰富谐音清音：声带不振动，类似白噪声发声过程：口腔和鼻腔形成时变滤波器,清音和浊音,清浊音信号,清浊音频谱,语音产生模型,语音模型的建立：1、产生激励；2、响应模型参数：基音、共振峰频率及强度、清浊音判决,特征提取参数,基于语音信号的短时准平稳特性1020ms 提取技术自相关函数法平均幅度差函数法线性预测短时波形分析短时处理技术加窗技术：方窗和哈明窗基音周期估计：基于短时自相关函数基于短时平均幅度差函数,线性预测编码(LPC),线性预测：一个语音采样的现在值可以用若干个语音采样的过去值的加权线性组合来逼近。其

8、中加权系数称为预测器系数。线性预测语音编码机理：语音信源是相关信源，即使经过采样与量化，相邻样点仍有很强相关性。线性预测编码：把线性预测用于语音编码。预测模型一般为一个全极点模型准则：最小均方误差传输：预测系数、基音周期和增益、清浊音判决,LPC数学描述,LPC实现结构,(a)编码器,(b)译码器,LPC编码器缺陷,缺点：损失了语音的音质抗噪声能力差谱包络估计可能产生较大失真原因：激励信号在浊音段采用周期脉冲，在清音段采用白噪声没有将发端模型的误差信号传到收端,混合编码,为克服LPC的缺陷，采用混合编码器，即在产生模型参数的同时，激励信号从语音波形信号获得方法一条路径

9、产生线性预测参数并传送出去一条路径滤出信号的低频成分，并通过波形编码传送出去接收端的激励信号特点不需要进行清浊音判决和基音周期提取编码速率一般比LPC高音质比LPC编码器好,用于移动通信的语音编码,移动通信中实用的语音编码均为混合编码,混合编码的共同特点,先进行线性预测分析去掉语音的短时相关性；再分析出最佳激励信号；对激励信号和线性预测参数进行编码传送；,GSM的语音编码,算法名称：(RPE-LTP)规则脉冲激励长时预测编码特点：是一种混合编码技术采用间隔相等、相位和幅度优化的规则脉冲作为激励源,以使混合信号接近原信号结合长时预测，消除信号冗余度，码率低语音检测,分段处

10、理，静寂描述（SID）帧编码率13kb/s 计算简单、计算量适中、易于硬件化语音质量MOS达4.0,Regular Pulse Excited-Long Time Prediction,RPE-LTP算法方案,20ms为一帧，分成4个子帧，每个子帧含40个样点(采样率8kHz) 每个子帧预测误差信号的样点按3:1等间隔抽取，得到13个样点(共有4种序列) 在4种序列中选择一种对语音波形贡献最大的序列找到序列中的最大非零点，用6比特编码用最大非零点归一化整个序列，用APCM编码，每个样值各用3个比特编码每20ms共编180bit,GSM语音编码框图,GSM语音解码框图,IS-95语音编

11、码技术,算法名称：(Qualcomm CELP)Qualcomm公司码激励线性预测编码特点：是一种混合编码技术采用矢量量化技术采用CELP技术采用话音激活技术(VAD)，速率可变速率有四种：9.6kbps、4.8kbps、2.4kbps和1.2kbps,矢量量化技术,矢量量化：将若干个标量数据组成一个矢量，然后在矢量空间中给以整体量化，从而压缩了数据而不损失很多信息; 它是一种能接近率失真理论限的量化技术; 是一种延迟判决编码技术，把一个矢量映射为一个码本索引并传输到接收端，而码本是一个由有限个矢量组成的集合，并且这些矢量能组合得到所有可能的矢量,矢量量化技术,示意,码激励线性预

12、测技术(CELP),特点：基于线性预测编码技术激励源从码本中搜索并乘上最佳增益，代替LP余量信号编码过程：原始语音被分成帧，帧长约为1030ms，对每帧进行LPC预测，求出LP参数在残留信号中进行长时预测两次预测结束后，得到激励信号，并对激励信号进行矢量量化,QCELP框图,共15个参数：滤波参数a1,a2,a12；音调参数L和b；增益参数G；码表参数T,QCELP算法,算法方案：把模拟语音按8kHz采样按20ms一个语音帧，每帧160个样本用这160个样本产生3个参数子帧，这3个参数子帧不断更新，并按一定帧结构送至接收端滤波参数a1,a2,a12，对任何速率每20ms更新

13、一次音调参数，不同速率更新频率不同码表参数，不同速率更新频率不同,QCELP不同速率的参数变化,注：1/8速率不是从码表选择，而是伪随机激励,QCELP速率选择,根据每一帧中的能量与3个门限值的比较 3个门限值的选择基于对背景噪声的估计每一帧中的能量由自相关函数R(0)的值决定，与门限T1(Bi)、 T2(Bi)和T3(Bi)(Bi为背景噪声)的关系：若R(0)大于3个门限，则选择速率1 若R(0)大于2个门限，则选择速率1/2 若R(0)大于1个门限，则选择速率1/4 若R(0)小于所有门限，则选择速率1/8 每次只允许变化一级半速率时，门限1实际为门限1/2,IS54语音编码,矢

14、量和激励线性预测编码(VSELP) 特点：采用CELP技术和矢量量化技术对余数信号进行矢量量化，只传输码本序号，编码效率高；有三个码本，一个为长时预测增益，另两个为矢量码本；每一激励使用三个码本信号之；在搜索最佳激励矢量方面有简化算法码本为事先确定好的结构，不用全搜索总延时比GSM略大,WCDMA语音编码,算法名称：(AMR)自适应多速率编码 AMR概念：以更智能的方式解决信源编码和信道编码的速率匹配问题，实际的语音编码速率将取决于信道条件原因： WCDMA支持多媒体业务，并支持分组交换与电路交换方式移动信道是随机变化的，固定速率编码不能使系统工作在最佳的信源编码和信道编码速

15、率上信道质量差时，信道编码不足以纠正传输错误，此时应改进信道编码，减小信源编码速率，提高语音质量信道质量好时，增加信源编码速率，提高语音质量,AMR语音编码原理,AMR是一种集成语音编码器，有8种确定的信源速率模式，从4.75kbps12.2kbps,AMR编码框图,AMR解码框图,图像压缩编码,图像信息量大，处理技术复杂图像信息量远大于语音、文字、传真，所占用的传输频带也更宽传输、处理、存储图像信息都比语音、文字等更复杂、更困难图像包括：静止图像、可视电话、会议电视、广播电视和高清晰度电视等不同等级为节约传输带宽，根据图像信息中有大量的冗余信息，需要且能够对图像信息进行压缩编码,

16、图像压缩编码原理,根据各类图像的客观统计特性、以及接收者人眼的生理与心理特征，来制定综合匹配的压缩编码方式通过图像的帧间预测来消除图像的时域相关性通过图像的帧内离散余弦变换(DCT)来消除图像的空间域相关性利用人眼视觉生理与心理特征进行自适应量化编码通过熵编码实现与信源的概率统计匹配采用缓冲存储器实现输入变长与输出定长之间的匹配,图像压缩编码标准,MPEG4综述,比前面的MPEGx更加全面目前标准已比较成熟标准内容涵盖：编码(Coding)：音频、视频和音像内容的表现部分合成(Composition)：描述如何把这些对象(Objects)合成到一起，成组合媒体对象(Media Objects) 复接(Multiplex)：媒体对象相关的数据复接与同步互动(Interaction)：与用户间的互动,系统综述,每一类媒体都有数个解码器把各部分解码后的数据聚集到一起进行合成处理合成思想与虚拟现实造型语言(VRML)类似对象的场景图形在链路中定义了合成信息分层结构、无需静态合成流包括MPEG4的额外信息空间关系和时间关系,

展开阅读全文