基于全局运动估计的全景图生成算法

资源描述

《基于全局运动估计的全景图生成算法》由会员分享，可在线阅读，更多相关《基于全局运动估计的全景图生成算法（9页珍藏版）》请在金锄头文库上搜索。

1、基于全局运动估计的全景图生成算法赵学军贺玉文杨士强（清华大学计算机科学与技术系人机交互与媒体集成研究所北京100084）摘要：本文介绍了一种利用全局运动估计生成全景图的方法。全局运动估计是检测视频序列中所包含背景目标的整休运动，这种运动通常是由视频拍摄过程中摄像机的运动所造成的。因此，目前全局运动估计所采用的模型大部分都基于摄像机的运动模型，并根据具休应用进行了相应的简化。全景图是利用全局运动估计的参数对视频序列中的背景目标进行变换和拼接而成的静态图像，它是对视频序列或镜头中背景内容的概括表示。全景图可以应用在视频压缩编码和基于内容的检索方面。在MPEG-4视频压缩编码方案中，对背景

2、目标的全景图单独采用sprite编码方法，可以提高视频汗缩编码的性能和汗缩比；在对视频内容的表示方面,MPEG-7定义了视频镜头的全景图描述方案，和传统的基于关键帧的镜头表示方法相比, 全景图可以更有效地表示整个视频镜头的信息。实验部分分别利用MPEG-4和MPEG-7的相关测试序列对本文所提出的全景图生成方法进行了测试，实验结果表明，对于仅包含背景目标运动的视频序列，采用基于仿射模型的全局运动估计方法所生成的全景图的效果较好, 当序列中包含前景目标运动时，如果采用序列提供的形状位图，也能够取得较好的效果。关键词：全局运动估计，全景图，仿射模型，spri忙编码，视频镜头1前吞全局运动

3、表现为视频序列中所包含背紮H标的整体运动，这种运动通常是由于视频拍摄过程中摄像机的运动所造成的。全局运动是视频序列Z间时间相关性的表现，往往较其它视频特征更能够表达序列的高层语义信息|5,|6,|78,0全局运动估计是一种基于模型的运动估计方法，这种估计方法由视频序列中相邻帧的图像数据计算得到一组描述图像点整体运动的参数集合，即全局运动向量，12131o全局运动估计在低码率视频压缩编码和基于内容的检索方瓯取得了广泛的应用。忖前使用较多的全局运动佔计模型主要有六参数仿射模型和八参数透视模型，这两种模型建立的基础部是依据摄像机的运动模型，并对模型进行了相丿应的简化，其中六参数仿射模型

4、是忽略了场景深度而近似得到的。He提出了一种基于特征梯度的鲁棒性全局运动估计算法，该算法利用图像的时间和空间的变化梯度作为参数估计运算中的特征，提高了计算的效率，并且使算法具有一定的鲁棒性。Smolic给出了全局运动估计的另外一种运动估计方法：光流法，并采用分层算法依次获得平移、仿射和更高阶的运动参数。木文采用1中介绍的基于仿射模型的全局运动估计算法。全景图是利用全局运动估计参数对视频序列中的图像进行拼接而成的静态图像。全景图的尺寸要比单帧图像大很多，它包含了整个视频片断的大部分信息。在MPEG-4中，由视频序列的背景图像拼接成的全景图也称为spriteo全景图的生成一般包括以下步

5、骤叫对前示两帧图像进行全局运动估计，获取全局运动参数向最；利川佔计参数向量对示一帧图像作坐标变换，将变换示的图像按像素位叠加或拼接到当前已生成的全景图中；全景图中像素点的值可以采用叠加点亮度值的算术平均，或计数平均；当有形状位图存在时，还需要考虑图像像素与形状位图像索Z间的逻辑操作。全景图可以应用到MPEG-4的sprite编码方法中，这是针对视频中背景运动的一致性的特点而提出的一种低码率编码方法。sprite编码方法对背呆全呆图、前呆目标、运动参数以及全局运动补偿麻的残差进行单独编码，因此可获得较高的编码效率。在视频内容分析与检索方面，利用全景图作为视频镜头的表示方法，可以更全

6、面、详尽地描述整个视频镜头的内容信息，这比传统的采用以关键帧表述的方法的效果要好，因此MPEG-7中增加了对视频镜头的全景图描述。另外，全局运动佔计参数可以作为运动特征来描述视频内容， MPEG-7中已经将参数运动作为视频描述与检索的一个基木特征写入标准草案中。本文第二部分介绍全局运动估计方法和基于全局运动估计的全景图的生成方法;第三部分利用全局运动估计算法对MPEG提供的部分测试序列做了全景图的生成实验；第四部分对本文介绍的方法进行总结和讨论。2全局运动估计及全景图生成方法2.1全局运动估计方法木节简单介绍全局运动估计的基木原理和基木方法，更详细的算法见1。全局运动估计是基于特定的运

7、动模型实现的，运动模型的形式实际上是对视频运动方式的数学描述。全局运动估计是通过视频序列前后两帧图像数据的变化，计算出表示所选运动模型的参数的过程。常用的运动模型主要有以下儿种方式：(1) 平移模型：u(x,y) =a)+x,v(x, y) = a2 +y(2) 旋转、放缩模型：u(x,y) +a3x+a4y, v (x, y) = a2 - a4x + a3y(3) 仿射模型：u(x, y) =a, +a3x+a4y, v(x, y) = a2+a5x+ a6y(4) 透视模型：u(x, y) =(a! +a3x+a4y)/(l + a7 x+a8y) v(x, y) =(a, +a3

8、x+a4y)/(l + a7x + a8 y)(5) 双二次模型：u(x, y) =aj +a3x +a4y+ a7 xy + a9x2 +aloy2 v(x, y) =a2 +asx+a6y + a8xy + aHx2 +apy2如果视频序列符合所选甬的运动模型，则序列内的所有图像点均应满足下述关系式：7(x,r) = /(x-u(x),r-/)其中X代表图像点坐标，ll(x)表示所采用的运动模型，可表示为U(x) = U(x,pm ),其中P,n 为全局运动向量，/(x,r)表示f时刻图像中X点的强度，x-ii(x)表示在当前运动模熨下， X点的位移映像坐标，因此7(x-u(x),r -/

9、)是t-1时刻图像映像点的强度。全局运动参数估计的过程是通过时刻/和/-/的图像估计模型参数pm ,使得满足上面的定常条件。但在通常情况下，由于视频内容的复杂性和噪声的影响，所选用的运动模型很难严格满足上述条件，因此，对参数Pm的估计问题往往转换为求解当目标函数(u) =- /(X - u(x),r - 7)2(1)X取最小值时Pm的取值。由于全局运动估计问题木身具有不适定性，因此估计算法的收敛点可能不为全局最优，为了增加算法的鲁棒性，1中采取以下方法：(1) 采用多分辨率分层估计算法增加算法的效率和鲁棒性。首先在较低分辨率时获得平移参数(也卫2)的粗略值，并以此作为下一层较高分辨率时

10、目标点的初始搜索方向，可有效防止算法发散或收敛到局部最优点。（2）选取序列的时间和空间梯度特征点作为运算集合，并根据特征点的统计特性选取运算点，可减小计算规模，加快算法的收敛速度，同时保证算法具有一定的的鲁棒性。（3）对全局运动补偿的残差进行肓方图统计，根据统计规律去除残差较大的特征点参与下一步迭代运算，消除由于特征点中存在较多前景点或噪声而产生的估计误差，也可减小由于模型木身的缺陷所造成的影响。（4）采用Levenberg-Marquadet算法求解最优估计值，加快算法的收敛速度并提高计算精度。2.2全景图的生成算法视频序列的全景图可利用全局运动参数生成，生成全晟图的效果取决于全局运

11、动估计算法的有效性，即序列的运动特征（平移、旋转、放缩）是否能够通过全局运动估计参数来表述。全景图的生成实际上是图像点的坐标变换过稈。如果运动模型采用仿射模型，则VX+ILd_a56 _y_上式中，表示平移分量，卫6表示放缩分量，為，。5表示旋转分量。生成全景图时，首先确定全景图坐标系，取序列第一帧图像坐标的原点作为全景图坐标系的原点（兀（）,儿），并以第一帧图像作为全景图生成时的参考帧（图1所示）。（2）的矩阵表达式为X=RX + T（3）其中X = （x, y）T , X = （xyT ,分别表示坐标变换前后图像点的坐标；a4a6T =(6/1,6Z2)r分别代表运动参数的放缩、旋

12、转和平移矩阵。(xO, yO)YOffsetXOffset第i帧图像（参考图像）d1Framelleight全景图,FrameWidthl图1全景:图坐标系定义R“为序列第丿-1帧之间的全局运动参数，则有成立。根据上式可递推得到第帧图像相对于第一帧图像的运动参数RnJ,TnJ,并由此可将序列中的每一帧图像逐次变换至全景图的坐标系中。全紮图的生成过程可以川图2表示。坐标变换变换图像当前输入图像金局运动估计全局运动估计参残差位图图像合成全景图形状位图位计数器输入位图图2全景图生成流稈全景图生成可分为以下五步：（1）首先指定全景图高度MosaicHeiht及宽度MosaicWidth,然后确定全

13、景图坐标系，定义坐标系原点（x0,y0）,图1中X。於刃，怡於刃分别表示点（勺，）。）相距全景图在内存映象中起始地址坐标，在生成算法中，可初始定义：Xoffset = （MosaicWidth - FrameWidth） / 2Yoffset = （MosaicHeight - FrameHeight）l2只冲FrameHeight, Frame Width分别表示序列图像的高度和宽度，初始全景图S仅包括序列第一帧图像。定义全景图计数矩阵C,用来保存全景图中每一像素点被叠加的次数，初始化矩阵的所有元素值均为Oo（2）输入视频序列图像，采用前面介绍的全局运动估计方法，计算当前输入帧与前一

14、帧图像的全局运动参数R，,Tnn_,并根据递推式（4）计算当前帧相对于第一帧的运动参数R.i，Tnlo当视频序列小包含前景目标运动时，计算过稈可以输入前景目标的形状位图信息，去曲前景点对估计参数的影响。（3）运用参数RnJ,Tnl对当前帧的图像点进行仿射变换，得到图像同时根据X. 的像素点对计数矩阵的相应元素计数：C（x） = C（x） + 1,xg Xn。对于超出预先定义的S边界的像素点不予考虑。（4）图像合成。将变换后的图像叠加到当前的全景图Sn中：以计数矩阵C的相应元素作为权值，将变换图象Xn与当前全景图作加权平均而获得新的全景图Sn+1,即：S+i =（CnSn+Xn）/（C

15、n+l）其中Sn+i，Sn分别表示第和第+1步时全景图的像素值，J为计数矩阵元素，表示像素的权重。如果考虑形状位图，只需将与形状位图对应的人点舍去，C并不计数。（5）重复前面（2）至（4）步，肓至完成对整个图像序列的拼接，最终得到的S （N 为序列帧数）即为全景图。3实验结果我们采用ISO/IECWG11提供的测试序列对上述算法作了全景图的生成实验，表1是选用的测试序列,部分实验结果如图3、4、5、6所示。表1测试序列序列名称全局运动方式序列来源序列格式1. Stefan摇拍(Panning)MPEG-4SIF / 2402. Coastguard跟踪(Tmcking)MPEG-4CIF / 1203. Church俯仰(Tilting)MPEG-7 #CD14CIF / 12()4. Parliament摇拍(Panning), 俯仰(Tilting)MPEG-7#CD14CIF / 88(a)第1帧第100帧(c)第18()帧(d)全景图图3 Stefan测试序列及全景图第1帧(b)

展开阅读全文

基于全局运动估计的全景图生成算法

最新文档