数字音视频技术中国通信学会普及与教育工作委员会推荐教材教学课件 PPT 作者解相吾解文博第5章视频压缩编码

资源描述

《数字音视频技术中国通信学会普及与教育工作委员会推荐教材教学课件 PPT 作者解相吾解文博第5章视频压缩编码》由会员分享，可在线阅读，更多相关《数字音视频技术中国通信学会普及与教育工作委员会推荐教材教学课件 PPT 作者解相吾解文博第5章视频压缩编码（196页珍藏版）》请在金锄头文库上搜索。

1、第5章视频压缩编码,学习目标,知识目标：掌握视频压缩编码的主要技术，重点掌握预测编码、变换编码、统计编码原理，了解子带编码、分形编码、小波变换和模型基编码的基本概念。技能目标：了解VCD影碟机的结构组成和工作原理，熟悉VCD影碟机的信号流程，掌握检测VCD影碟机主要信号的方法。,典型设备：VCD影碟机,VCD（Video Compact Disc）影碟机是在CD唱机的基础上发展起来的，是MPEG数字压缩技术和CD技术相结合的产品。,VCD机对光盘信号的读取、伺服系统、控制系统、机械系统以及光检测信号的处理与CD唱机都是相同的，因此，现在的VCD都兼容CD，即在VCD机上可以播放CD光盘。

2、VCD的外形结构如图5-1所示。,图5-1 VCD外形结构,图5-2 VCD影碟机的典型结构,1机芯部分 2伺服电路 3数字信号处理电路,图5-3 数字信号处理器的组成,4系统控制电路 5MPEG-1音频、视频解码电路 6PAL/NTSC编码器 7音频电路,图5-4 MPEG-1解码电路的基本组成,5.1 预测编码,5.1.1 预测编码的基本内容预测编码是基于图像数据的时间和空间冗余特性，用相邻的已知像素（或图像块）来预测当前像素（或图像块）的取值，然后再对预测误差进行量化和编码。,这些相邻像素（或图像块）可以是同行扫描的，也可以是前几行或前几帧的，相应的预测编码分别称为一维、二维和三维预测

3、，其中一维和二维预测是帧内预测，三维预测是帧间预测，即在时间轴上用前一帧的像素（或图像块）对后一帧的像素（或图像块）进行预测。,预测编码的关键在于预测算法的选取，这与图像信号的概率分布很有关系，实际中常根据大量的统计结果采用简化的概率分布形式来设计最佳的预测器，有时还使用自适应预测器以较好地刻画图像信号的局部特性，提高预测效率。,预测编码旨在去除相邻像素之间的冗余度。帧间预测编码主要利用活动图像序列相邻帧间的相关性，即图像数据的时间冗余来达到压缩的目的，它可以获得比帧内预测编码高得多的压缩比。,5.1.2 预测编码的类型,预测编码分线性预测和非线性预测两类，线性预测编码又称为差分脉冲编码调制

4、，即DPCM（Differential Pulse Code Modulation）。 DPCM系统又称预测量化系统。,图5-5 DPCM系统的方框图,5.1.3 预测器,预测器是DPCM系统的关键。自适应预测器有多种形式。用的较多的一种是开关型自适应预测器。,这种预测器首先用一定的判据检查被预测抽样附近图像样值取值的特点，根据判断的结果把其划归到不同类型的图像区域中去，对应于每一种类型的图像区域再分别使用一个与其统计特性相适应的预测器预测。,因此，开关型自适应预测实际上包含一组固定系数预测器，工作时，对于被预测的抽样，从这一组预测器中找出一个与其相适应的预测器预测。,采用固定系数的预测器

5、实际上是一个前提条件，即假设图像信号在图像中的各个局部都具有相同的统计特性。,如果这一假设成立，则预测器在图像中的各种区域都能表现出很好的预测性能。但是，实际的图像信号并不满足这种假设，属于不平稳信源。,在一幅图像中，内容变化缓慢的平坦区、细节丰富的纹理区、亮度突变的边缘和轮廓区分别具有不同的统计特性。,因此，固定系数的预测器一般只在图像的平坦区具有较好的预测性能，而在轮廓、边缘及纹理区往往造成大的预测误差。,为了克服这一困难，进一步提高预测性能，可以采用自适应预测器，自适应预测器的思想是根据图像每一局部的特点，自适应地变更预测公式中的预测系数，尽可能地使预测公式随时与被预测样值附近图像局部

6、的统计特性相匹配，从而避免出现过多的大的预测误差，提高预测准确性。,5.1.4 后向预测和双向预测,前向预测方式就是用K1帧来预测K帧图像。如果待预测的子块是在K1帧，而搜索区域处于K帧之内，也就是从后续的K帧图像预测前面的K1帧图像，这种方式称为后向预测。,图5-6 双向预测示意图,图5-7 I、P和B图像的依赖关系,5.1.5 像素块预测,MPEG编码时，先将一帧图像分割成若干横条，每一横条称为一片，在625行的PAL制中，每帧图像切成18片，在525行的NTSC制中，每帧图像切成15片。每一片再纵向切割成22块，这些块称为宏块或大块，它是MPEG标准的图像处理基本单元。,每个宏块中的

7、彩色图像，可以用一个亮度信号Y和两个色差信号Cb和Cr来表示，由于人眼对亮度信号敏感高于色度信号，因而对每个宏块的亮度信号再平均分成4个像块，每个像块在水平方向分成8个像素，垂直方向也分成8个像素，则每个像块可分成64个像素，而两个色差信号Cb、Cr宏块不再分成像块，而是直接分成64个像素，如图5-8所示。,图5-8 MPEG图像的格式,1帧内（Intra）预测 2帧间预测（1）预测时所用块的大小可变（2）更精细的预测精度（3）多参考帧（4）抗块效应滤波器,5.1.6 量化与编码,由于图像信号的强相关性，DPCM系统的预测误差在统计上有一个明显的特点，即它的概率分布高度集中在0及其附近

8、的一个不太大的范围内，随着误差绝对值的增加，出现概率迅速下降，图5-17中粗实线所示是实测的预测误差概率分布，细实线表示理想的拉普拉斯分布。,通过前面的分析知道，如果把预测误差不经量化、精确地传到接收端，可以无失真地复原PCM原始信号。这样的编码方式叫做信息保持型预测编码，属于纯碎的冗余度压缩编码，在图像数据压缩过程中并不丢失任何信息。,但是，主观实验表明，对于由人眼观看的电视图像来讲，预测误差没有必要绝对精确地传到接收方，可以对它再经过一次量化，适当降低精确度，从而获得进一步的码率压缩。,这样，虽然由于量化误差的引入，造成图像一定程序的客观失真，但是如果能够把量化误差限制到主观视觉不能觉察

9、的程度，则并不影响图像的主观质量，所以量化器是利用主观视觉特点，挖掘压缩潜力的工具。,图5-9 预测误差概率分布,图5-10 非均匀量化示意图,5.1.7 具有运动补偿的帧内插,1运动位移估值电视信号的帧内编码是利用图像信号的空间相关性实现信息压缩，而帧间编码则是利用图像信号在时间轴上的相关性来实现信息压缩。,统计测量表明，当景物不含剧烈运动、不发生场景切换以及摄像机不做明显运动如推镜头、摇镜头时，电视信号的帧差信号（相邻帧间空间位置对应的像素差值）比帧内相邻像素间的差值信号具有更为尖锐的、以0为中心的Laplace分布，即表现出更强的相关性。,可视电话、电视会议由于场景中主要是不多的人物活

10、动，其活动范围和运动速度均不大，因此与广播电视信号相比，其帧间相关性更强些。,图5-11 运动物体的帧间位移示意图,在电视信号编码方面，运动位移估值的两个主要应用是运动补偿帧间预测和运动自适应帧内插。,图5-12 运动自适应帧内插,2块匹配运动位移估值,实际物体的运动是十分复杂的三维运动，既有平动，又有转动，如果再考虑到物体的非刚性和运动中光照的变化，将使运动模型的建立和运动参量的估值变得十分复杂。,在电视图像编码中，由于实时运算的要求，在目前所采用的运动估值算法中仅考虑物体运动在电视画面内的平动部分。,在图像编码领域目前使用的运动估值算法有块匹配法、像素递归法、相位相关法以及针对由摄像机运动

11、引起图像全局运动的全局运动参数估值等。,其中块匹配法是最常用的一种方法，在活动视频编码的国际标准H.261、MPEG-1、MPEG-2中，实际都采用块匹配法做运动估值。,图5-13 MN像块与搜索区的关系示意图,3块匹配法的快速搜索,全搜索法是最细致的搜索方法，即在搜索区内逐点搜索，每搜一点计算一次MAD，当MAD达到最小值时，求得最佳匹配像块。全搜索法需要计算MAD的次数是(M+2dm)(N+2dm)，当图像空间分辨率高、运动速度快、需大范围搜索时，其运算量是相当大的，为了实时运算，必须采取并行处理。,为了减少搜索次数，提出了多种快速搜索方法，如三步法、正交搜索法、共轭方向法、二维对数法等

12、。,这些快速搜索算法的共同之处在于它们把使准则函数（例如MAD）趋于极小的方向视同为最小失真方向，并假定准则函数在偏离最小失真方向时是单调增加的，即认为它在整个搜索区内是(i，j)的单极点函数，有唯一极小值，而快速搜索是从任一猜测点开始的最小失真方向进行的。,因此，这些快速搜索算法在实质上都是统一的梯度搜索法，所不同的是搜索路径和步长有所区别。,4分级搜索,与全搜索相比，快速搜索的运算量显著减少，特别是随着搜索范围的增大，这一效果愈加明显。,但是，实验表明，在运动估值的质量方面（这可以由估值所得运动矢量场的连续性判断），快速搜索较全搜索仍有一定差距，因此又提出了分级搜索方法，在减少运算量的同时

13、，力求接近全搜索的效果，得到更近似真实的运动位移矢量。,在分级搜索方法中，先通过对原始图像滤波和亚抽样得到一个图像序列的低分辨率表示，再对所得低分辨率图像进行全搜索。,由于分辨率降低，使搜索次数成倍减少，这一步可以称为粗搜索，然后再以低分辨图像搜索的结果作为下一步细搜索的起始点。在细搜索时，搜索范围缩小很多，因此搜索次数也应减少。经过粗、细两级搜索，便得到了最终的运动位移矢量估值。,图5-14 1/2像素精度,5.2 变换编码,变换编码（Transform Coding）的基本思想是：考虑消除图像数据空间相关性，将原始数据变换到另一个表示空间（数学域），使数据在新的空间上尽可能相互独立，而

14、能量更集中，并且使图像数据在变换域上最大限度地不相关。,尽管图像变换本身并不带来数据压缩，但由于变换后系数之间的相关性明显降低，图像的大部分能量只集中到少数几个变换系数上，采用适当的量化和熵编码可以有效地压缩图像的数据量。,图像经某些变换后，系数的空间分布和频率特性有可能与人眼的视觉特性匹配，因此可以利用人类视觉系统的生理和心理特点来得到较好的编码系统。,变换编码通常是将空间域相关的像素点通过正交变换映射到另一个频域上，使变换后的系数之间的相关性降低。数据变换后在频域上应满足：（1）所有的系数相互独立；（2）能量集中在少数几个系数上；（3）这些系数集中在一个最小的区域内。,5.2.1

15、变换编码的基本原理,1变换的意义变换编码是有失真编码中应用最广泛的一类编码方法，与预测编码一样，均为通过去除信源序列的相关性来达到数据压缩的目的。,与预测编码的不同之处在于，预测编码是在空间域或时间域内进行的，而变换编码则是在变换域（频率域）内进行的。,变换编码的基本原理就是将原来在空间域或时间域内描述的信号，变换到正交空间中去，用变换系数来表示原始图像，并对变换系数进行编码。,尽管变换本身并不带来数据压缩，但由于变换后信号的能量大部分集中于少数几个变换系数上，删去对信号贡献较小（方差小）的系数，就可以达到有效压缩的目的，并且不会引起明显的失真。,在数据压缩的一般步骤中，利用映射变换来实现对

16、数据的建模表达，就称为变换编码。其中映射变换是把原始信号中的各个样值从一个域变换到另一个域，然后针对变换后的数据再进行量化（二次量化）与编码操作。,接收端首先对收到的信号进行解码和反量化，然后再进行反变换以恢复原来信号（在一定的保真度下）。,映射变换的关键在于能够产生一系列更加有效的系数，对这些系数进行编码所需的总比特数，要比对原始数据直接编码所需的总比特数少得多，使数据率得以降低。,映射变换的方法很多，一般是指函数变换法，而常用的又是正交变换法。这样有可能使函数的某些特性变得明显，使问题的处理得到简化。,在图像数据压缩技术中，正交变换编码（以下简称变换编码）与预测编码一起成为最基本的两种编码方法。人们最熟悉的是傅里叶变换。,2变换原理,图5-15中有相邻两个采样值X和Y，每一样值采用3比特量化编码，即有8个量化幅度等级，那么这两个采样值的组合共有88=64种。横坐标表示X的8种可能等级，纵坐标表示Y的8种可能等级。,考虑到样值的相关性X和Y同时出现相近数值（量化幅度）的可能性最大。因此合成的组合大部分会落在图中像叶子一样的范围里。

展开阅读全文

数字音视频技术 中国通信学会普及与教育工作委员会推荐教材 教学课件 PPT 作者 解相吾 解文博 第5章 视频压缩编码

数字音视频技术中国通信学会普及与教育工作委员会推荐教材教学课件 PPT 作者解相吾解文博第5章视频压缩编码