h264中的运动估计及其优化

资源描述

《h264中的运动估计及其优化》由会员分享，可在线阅读，更多相关《h264中的运动估计及其优化（61页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文 H.264中的运动估计及其优化姓名：王家军申请学位级别：硕士专业：机械设计及理论指导教师：周培源 20060430 华华中中科科技技大大学学硕硕士士学学位位论论文文 I 摘摘要要在下一代视频编码标准的角逐中，H.264 逐渐脱颖而出，更高的压缩率以及网络传输中更强的抗抖动能力是其受青睐的主要原因。H.264 在获得高性能的同时，也造就了其高复杂性。为了提高编码速度，需要对其进行优化。H.264 中，运动估计是运算量最大的一部分。研究结果显示，对 H.264，单帧参考，运动估计占总运算量的 70%； 5 帧参考，这个比例

2、能达到 90%。本文重点研究了 H.264 中运动估计部分的优化。论文首先给出了课题的背景、来源以及研究内容；然后介绍了 H.264 视频编码标准，分析了其先进技术特点，比如多种帧内预测模式、可变尺寸块大小的运动估计与补偿、多帧参考、1/4 像素精度运动估计、44 整数变换等；接下来，在详细分析现有块匹配算法的基础上，提出了一种新的快速块匹配算法ACPS，该算法具有自适应的特点，能够根据视频序列的运动剧烈程度自动调整，因此能快速搜索到物体的运动；最后，提出并实现了一套运动估计优化方案，该方案在整像素搜索中使用 ACPS 算法，在亚像素搜索中也改用快速算法，并在运动估计流程中加

3、入阈值判决。选用的测试软件为中国视频编码自由组织联合开发的 H.264 视频编解码器T264。测试结果表明，在不明显降低压缩率和视频质量的前提下，相对原有使用钻石形搜索法（DS）且流程未经优化的运动估计，优化后的速度提高了一倍多。关键词：关键词：H.264，视频编码，运动估计，优化华华中中科科技技大大学学硕硕士士学学位位论论文文 II Abstract In the competition for the next generation video coding standard, H.264 is getting more and more attention

4、 for its high compression ratio and its stabilization when transmitting over network. The good performance of H.264 is coming with the high complexity. In order to improve coding speed, it is need to optimize the codec. In video coding, motion estimation takes most of the time. Some results show tha

5、t, for one reference frame, motion estimation takes 70% of the whole time; as for five reference frames, it ups to 90%. This thesis focused on optimizing the motion estimation part of H.264. At first, H.264 and its advanced technical feature was introduced, such as multiple intra prediction modes, v

6、ariable block size motion estimation, more than one reference frame prediction, 1/4-pixel precision motion estimation, 44 integer transform, etc. Next, based on analyzing existing block matching algorithms, a new fast block matching algorithm, called adaptive cross pattern search (ACPS), was brought

7、 forward. This algorithm is adaptive, so it is very fast when searching an objects motion. Finally, an optimizing scheme was proposed. This scheme uses ACPS in integer-pixel motion search and new fast algorithm in sub-pixel motion search, and adds threshold to motion estimation flow. The test softwa

8、re is T264, and the result shows that, comparing with original motion estimation, coding speed is improved more than one time without obvious degradation in compression ratio and video quality. Key words: H.264, video coding, motion estimation, optimizing 独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的

9、研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密，在_年

10、解密后适用本授权书。不保密。 (请在以上方框内打“”) 学位论文作者签名：指导教师签名：日期：年月日日期：年月日本论文属于华华中中科科技技大大学学硕硕士士学学位位论论文文 1 1 绪绪论论 1.1 引言引言据研究统计，人类接收的信息，大约有 70%是通过视觉获得的。与语音和文字信息相比，视频/图像信息具有信息量大、更直观和更确切的特点，因而具有更为广泛的实用性和更高的使用效率，对人们的生活和工作、生产和军事都非常重要。仅以 IT 产业发展最快的移动通信为例，其承载的业务也正从 2G 的话音发展到 3G 的多媒体应用。数字视频具有海量数

11、据的特点。数据量巨大是数字视频的固有特征，以 CIF 格式的 24 位真彩色视频图像为例，每帧的数据量为 35228824=2.43Mbits，当帧率为 30fps 时，每秒的数据量高达 2.4330=73Mbits，对于 HDTV 每秒的数据量更是高达 1000Mbits。随着数字化技术和网络应用的发展以及视频会议、视频电话、数字视频广播（DVB）、视频点播（VOD）、流媒体、数字图书馆、远程教育、远程医疗等宽带多媒体业务的开展普及，多媒体数据将以前所未有的规模“爆炸性” 增长，这无疑给数据的存储和传输带来了巨大困难，因此必须对海量的多媒体数据进行高效的压缩编码，并以压缩的

12、格式进行存储和网络传输。视频信息巨大的数据量，使得数据间存在高度的相关性，而数据相关性会引起信息冗余。视频编码技术本质上就是要尽量剔除原始信号中的各种冗余信息。视频信号中存在的冗余包括空间冗余、时间冗余和信息熵冗余。因为信息熵冗余和空间、时间冗余都取决于视频数据的统计特性，所以都被统称为统计冗余。除此之外，视频序列中还包括以下几种冗余信息：结构冗余，有些图像的纹理区，图像的像素值存在着明显的分布模式，例如方格状的地板图案；知识冗余，指图像中包含的信息与某些先验的知识有关，比如包含有人脸的视频图像中，头、眼、鼻和嘴等之间的相互位置信息就是冗余信息；视觉冗余：很多业务中，由于重建

13、视频信号的最终接收者是人眼，充分利用人眼视觉特性，可以达到提高压缩比的目的，这是因为人类视觉系统（HVS）并非完美无缺，编码方案可以恰当利用人类视觉系统的一些缺点，得到更高的压缩比。视频信息中存在的数据冗余正是视频编码的基础。华华中中科科技技大大学学硕硕士士学学位位论论文文 2 1.2 国内外研究概况国内外研究概况 1.2.1 视频编码技术视频编码技术视频编码技术已经发展出了第一代和第二代。基于帧、块、像素的编码称为第一代视频编码技术；为了弥补第一代视频编码技术中没有充分利用人眼视觉特性的缺陷，第二代视频编码采用基于非像素的表征方法。目前，第二代视频编码技

14、术是视频编码中最为活跃的一个领域，具有很好的应用前景，但具有实用价值的仍然是第一代视频编码技术。 1. 第一代视频编码方法第一代视频编码方法传统的视频压缩编码以香农信息论为出发点，以概率统计模型来描述信源，编码实体是像素或像素块。这种基于数据统计的、以消除视频数据相关冗余为目的的第一代视频编码技术获得了巨大的成功。MPEG-1、MPEG-2、H.261、H.263 以及最新的 H.264 等压缩编码标准就主要采用了第一代视频编码技术。第一代视频编码器的框架称为混合视频编码框架（图 1-1），它混合了运动补偿预测、变换编码、量化扫描以及熵编码等技术。首先，通过运动补偿预测得到当前

15、编码帧的预测帧；然后，对两帧的差值作变换编码以及量化扫描；最后，再进行熵编码。运动补偿预测降低了时间冗余度，而变换编码则降低了空间冗余度。图 1-1 混合视频编码框架华华中中科科技技大大学学硕硕士士学学位位论论文文 3 熵编码（熵编码（entropy coding）：）：熵编码是纯粹基于信号统计特性的编码方法，它是一种无损编码，解码后能无失真地恢复图像。常用的熵编码有游程编码、霍夫曼编码与算术编码 3 类。变换编码（变换编码（transform coding）：）：变换编码是将空域相关的像素点通过变换映射到另一个正交矢量空间（变换域或频域），降低变

16、换后的系数之间的相关性。常用的变换有离散余弦变换、傅立叶变换以及近年来受到广泛关注的离散小波变换等。预测编码（预测编码（predictive coding）：）：预测编码可以在一幅图像内进行（帧内预测编码），也可以在多幅图像之间进行（帧间预测编码）。预测编码实际上是基于图像数据的空间和时间冗余特性，用相邻的已知像素（或图像块）来预测当前像素（或图像块）的值，然后再对预测误差进行量化和编码。预测编码分为线性预测（DPCM）和非线性预测两大类。帧内 DPCM 的编码压缩比很低，很少独立使用。帧间预测编码主要是利用视频序列相邻帧间的相关性，即图像数据的时间冗余来达到压缩的目的，可以获得比帧内预测编码高得多的压缩比。预测编码的主要方

展开阅读全文

h264中的运动估计及其优化

最新文档