图像与视频编解码技术-revised

资源描述

《图像与视频编解码技术-revised》由会员分享，可在线阅读，更多相关《图像与视频编解码技术-revised（40页珍藏版）》请在金锄头文库上搜索。

1、目录摘要2第一部分概述3一、图像/视频编码的必要性与可行性31.编码的必要性32.编码的可行性3二、图像/视频编码的关系4三、图像/视频编码的评估4第二部分静止图像编解码技术6一、静止图像编解码中的主要方法与技术61.熵编码62.源编码83.量化10二、小波图像编码与分形图像编码111.小波图像编码112.分形图像编码13三、国际标准JPEG与JPEG2000141.JPEG142.JPEG200015第三部分视频编解码技术18一、视频编码国际标准181. MPEG-1182. MPEG-2203. MPEG-4204. MPEG-7与MPEG-21225. H.261236. H.2

2、63247. H.26424二、视频编码中的一些特殊技术301.运动估计技术302.差错纠正技术32第四部分与手持设备相结合的视频编解码35一、无线网络环境35二、手持移动计算设备的特点36三、视频国际标准之间的比较与相关思考36参考文献38摘要视觉是人类获取信息的主要途径，图像与视频在人与计算机的交互过程中扮演着重要的角色。随着编解码技术的不断发展，与图像和视频相关的电子产品正逐步进入普通人的生活并变得越来越不可或缺。近年来，以手机为代表的手持移动计算设备正日益成为普通人工作生活中的一部分，越来越多的用户希望能够通过手机点播视频节目甚至是进行可视通话。为满足这些需求必须去研究与手持设备相关

3、的视频编解码问题。本文是对视频编解码学习的一个总结，主要介绍了视频编解码和与其关系十分密切的图像编解码中的相关技术与国际标准，其中重点介绍了新的视频国际标准H.264中的技术方法与特性，并在最后对手持设备上视频编解码的特殊性以及视频编解码技术可能的发展方向做了一些思考和探讨。关键词：视频编解码，图像编解码，H.264，手持设备第一部分概述一、图像/视频编码的必要性与可行性1.编码的必要性21世纪的人们面临的是一个信息化的社会。数字化后的信息，尤其是数字化后的图像和视频信息具有数据海量性，这给信息的存储和传输造成了较大的困难，成为阻碍人类有效的获取和使用这此信息的瓶颈问题之一。因此，研究和开发

4、新型有效的多媒体数据压缩编码方法，以压缩的形式存储和传输这些数据将是最好的选择。原始彩色图像本身数据量相当巨大，以一幅普通的1024*768的图片为例，如果对RGB三个分量都进行了256级量化，占用一个字节，就是说使用24位bmp位图格式而完全不进行压缩的话，其数据文件大小为1024*768*24=18Mbit。再以陆地卫星（Land sat3）为例子，其水平、垂直分辨率分别为2340和3240，四波段采样精度7位，它的一幅图像的数据量为2340324074=212Mbit，按每天30幅计每天数据为21230=6.36Gbit，每年的数据量高达2300Gbit。这么大的数据量无疑给存储器的存

5、储容量、通信干线的信道传输率以及计算机的运算速度都增加了极大的压力。单纯用扩大存储容量，增加通信干线的传输率是不现实的，数据压缩是行之有效的方法。2.编码的可行性有意义的、可被人理解的图像中存在着很多冗余信息，因此对图像/视频进行数据压缩是有可能的。通过人们多年的研究与实践证明，这种冗余不仅存在而且占了原始数据中的绝大部分。也就是说，通过精心设计压缩算法，人们可以用极少量的信息精确表示原始的海量信息。图像/视频中的冗余信息主要包括统计冗余、结构冗余、知识冗余和视觉冗余等几类：l 统计冗余：统计冗余包括信息熵冗余、空间冗余和视频中的时间冗余。在把图像看成完全无意义的比特流后，按照信息论的有关原理

6、，对该比特流只需按其信息熵的大小分配相应比特数即可完全精确的表示之。l 结构冗余：在有些图像的部分区域内存在着非常强的纹理结构，或是图像的各个部分之间存在有某种关系，例如自相似性等，这些都是结构冗余的表现。l 知识冗余：在有些图像在包含的信息与某些先验的基础知识有关，例如在一幅人头部特写的图像中，头、眼、鼻和嘴的相互位置关系属于一般常识，这种冗余称为知识冗余。l 视觉冗余：人类的视觉系统对于图像的注意是非均匀和非线性的，并不是对于图像中的任何变化都能感知。这种由于人眼特性产生的冗余称为视觉冗余。上述各种形式的冗余，是压缩图像与视频数据的出发点。图像与视频编码的目标就是要尽可能消除这些冗余信息，

7、以减少表示图像与视频所需的数据量。二、图像/视频编码的关系图像编码与视频编码有着非常密切的关系。图像编码是视频编码的基础，视频可以看成是一个连续的静止图像的序列，研究如何对静止图像进行有效的编码对视频编码的研究有着至关重要的作用。二者在技术上有很大的交融，静止图像压缩中的方法和思想在视频压缩中也经常会用到。当然，由于多出了一个时间维，视频压缩技术又有着不同于静止图像压缩的独特之处。因此本文将先在第二部分中对静止图像编码技术进行总结，然后再以此为基础，在第三部分总结视频编码技术。三、图像/视频编码的评估如何评估一个图像/视频编码方案的优劣，是图像/视频编码中一个非常基本又相当重要的问题。在图像编

8、码中，比较重要的参考指标是压缩率和解码质量。压缩率是原始数据与编码后的码流文件大小的比值，在保证相同解码质量的前提下，一个编码方案的压缩率越大就说明该编码方案越有效率。解码质量通常分为客观质量与主观质量两种。主观质量是人们对解码图像质量的主观感受，其测量过程需要进行心理学实验。然而由于人对一幅图像的主观感受受到文化、情绪等多种因素的影响，其测量结果通常难以进行比较，另一方面心理学实验需要花费较多的人力物力，因此在实践中，主观质量通常是作为一种辅助性的参考指标出现。客观质量是通过相关的计算公式计算得到的指标，具有易于计算、易于比较的特点，因此在实际的研究工作中被广泛的用作编码方案的评估指标。但另

9、一方面，客观质量的计算有更加关注整体而忽略细节的特点，因此虽然在大多数情况下可以与主观质量一致，但仍存在不少二者相悖的情况。在中有对此改进的探讨，但由于计算公式变得相对复杂，目前少有人采用。对图像的客观质量评估，最为常用到的是均方误差MSE与峰值信噪比PSNR，其计算公式如下：均方误差MSE(Mean Square Error)MSE=，其中M,N分别为图像的水平与垂直方向的大小，fij和fij分别表示原始图像和解码图像上第i行第j列像素的取值(灰度级)。峰值信噪比PSNR(Peak Signal Noise Ratio)，其中B为图像灰度级位数，2B-1即为图像的灰度级数量。在视频编码的评估

10、中，除用到以上图像编码评估的指标外，还比较关心视频编解码速度，一般用帧/秒计量。在1中有对视频编码中画面清晰度和画面流畅度的客观计算的讨论，但实际研究中，很少有人采用。如何快速有效的计算评估图像/视频解码质量，使客观标准尽可能与人们的主观标准相一致，本身就还是一个还没有完全解决好的问题。由于这个问题并非本文所要讨论的内容，因此不在这里进一步论述。第二部分静止图像编解码技术这一部分将主要分为三方面来论述，首先总结在静止图像编码中通用技术，其后总结一下有别于传统基于DCT变换的比较经典的图像编码方法，主要是小波图像编码与分形图像编码，最后对静止图像编码的国际标准进行一些介绍。一、静止图像编解码中

11、的主要方法与技术图像视频编码方法可以大体分为熵编码、源编码与混合编码。熵是具体数据的平均信息量，定义为在不丢失信息的前提下，描述该信息内容所需的最小比特数。熵编码是纯粹基于信号统计特性的编码方法，是一种无损编码。其基本原理是给出现概率较大的符号一个短码字，而给出现概率较小的符号一个长码字，这样使得最终的平均码长很小。一个精心设计的熵编码器，其输出的平均码长接近信源的信息熵，即码长的下限。源编码用于能够把原始数据中的相关数据与不相关数据区分开的场合。该方法要考虑原始数据的语义，通过消除不相关数据以达到对原始数据流的压缩。与熵编码不同，源编码常常是有损编码，原始数据流与已编码的数据流相似但不相同。

12、混合编码是熵编码和源编码方法的组合。现有的图像视频编码方法大多都是混合编码方案。1.熵编码常用的熵编码有游程编码(RLC, run-length coding)、Huffman编码、算术编码和字典编码等。(1)游程编码当已被采样的图像视频数据拥有相同字节序列时，可以采用更紧密序列来代替这些相同字节序列，从而实现压缩，这就是游程编码。游程编码经常用于压缩采样量化后出现的大量零系数。例如对于0串出现概率很大的数串“0，0，0，0，0，0，0，0，0，12，0，0，0，0，0，25，0，0，0，1”可以用某种流程编码压缩为“0，9，12，0，5，25，0，3，1”(2)Huffman编码Huffma

13、n编码过程可以用二叉树说明。需要被编码的字符用树的叶节点表示，每个节点有一个权重p，p表示的是该字符的出现概率。依次选择概率最小的两节点来构成中间节点，直到形成根节点，二叉树的构造完成。之后，所有树枝都被赋上1或0，各输入字符的Huffman编码就是从根到叶节点路径上的数字标志序列。例如，字符集为a,b,c,d,e,f,g，已知相应的各字符出现机率为 5%, 5%, 10%, 15%, 15%, 20%, 30%，则Huffman编码过程图所示：图1 Huffman编码过程示例最终码本为：a:0000 b:0001 c:001 d:100 e:101 f:01 g:11理论上可以证明，Huff

14、man编码是一种最优编码。(3)算术编码算术编码与Huffman编码一样，是最优编码方案，即已编码数据的长度都是最小的。算术编码的基本原理是任何一个数据序列均可表示成0和1之间的一个间隔，该间隔的位置与输入数据的概率分布有关。出现概率大的数据序列会对应到一个相对较宽的区间中，从而可以用更短的二进制位表示出该区间。有关实验数据表明，在未知信源概率分布的大部分情形下，算术编码要优于Huffman编码。算术编码过程如下：C表示子区间起始位置，A表示子区间宽度，该宽度正好对应已输入符号串的出现概率。算法开始时，初始化C=0，A=1。用LPS表示0,1中出现概率较低的一个，其出现概率为Qe；用MPS表示

15、0,1中出现概率较高的一个，其出现概率为Pe=1-Qe。当低概率符号LPS到来时，C=C，A=AQe当高概率符号MPS到来时，C=C+A*Qe，A=APe=A（1- Qe）这里将举一个例子来说明算术编码的过程。设“0”为小概率符号LPS，其概率Qe=(0.001)b=(1/8)d ；“1”为大概率符号MPS，其概率Pe=(0.111)b=(7/8)d。我们将对输入串“11011111”进行算术编码。输入符号C=C(输入0)C=C+AQe(输入1）A=AQe(输入0)A= APe(输入1)10.0010.11110.0011110.11000100.0011110.00011000110.0011111100010.00010101011110.0100000110111110.00010010110000110.100010000010110010.00010000011010011110.0100011000100011011110.00001110010111000100110.010001111110111100

展开阅读全文