现代信息检索课程报告

资源描述

《现代信息检索课程报告》由会员分享，可在线阅读，更多相关《现代信息检索课程报告（11页珍藏版）》请在金锄头文库上搜索。

1、本科学生课程报告课程名称：现代信息检索报告名称：基于内容的视频信息检索系统开课学期： 2012至 2013 学年 02 学期选课班级：选课B01班报告人： * 学号： * 完成时间： 2012 年 5 月 30 日基于内容的视频信息检索系统*（江西财经大学信息管理学院 *班）摘要: 本文从基于内容的视频信息检索技术的发展历史出发，对基于内容的视频检索系统的技术要点及主要的功能模块进行了讨论和分析，并说明了当今技术存在的缺陷，最后提出了以后可能的商业应用的发展方向。关键词: 基于内容的视频信息检索; 镜头边缘检测; 关键帧提取; 特征描述1 引言1.1 背景伴随着信息时代的到来，计算机技术

2、和网络技术的发展，海量的信息在全球被采集、传输、流通和应用。特别是数码照相机、数码摄像机等数字化产品的出现，让图像和视频进一步成为人们喜闻乐见的信息交流方式。据统计，人类获取的信息80%是通过视觉获取的，而其中视频信息直观、生动，是人类生活中最有效的交流方式，而这对我们管理视觉信息的方法提出了更高的要求。例如，在公安部门查看犯罪现场的录像时，办案人员查找某些镜头来确认犯罪人员的出现和离开时间，在没有行之有效的视频信息检索方法的情况下，就需要有经验的办案人员到录像库逐一搜寻视频的拷贝，然后花上数小时人工来回浏览录像，查找和选定要用的特定镜头，工作效率很低。所以对于高效的视频检索系统，必须具备视

3、频自动检索功能。视觉信息有其自身的特点那就是数据量大，抽象程度低，所以视觉信息膨胀带来的问题也非常严重，也正是由于这种情况，很多视频信息因无有效的检索技术导致信息无法及时处理而浪费，特别是在竞争激烈的当今，如何有效的描述视觉信息、如何实现基于内容的信息检索成为各部门的研究热点。1.2 技术概要在基于内容的信息检索中，基于内容的视频信息检索必将成为科研人员必须解决的问题之一。文献1介绍了基于内容的视频信息检索实现的基本方法，通过对非结构化的视频数据进行结构化分析和处理，采用视频分割技术，将连续的视频流划分为具有特定语义的视频片段镜头，作为检索的基本单元，在此基础上进行代表帧的提取和动态特征的提取

4、，形成描述镜头的特征索引：依据镜头组织和特征索引，采用视频聚类等方法研究镜头之间的关系，把内容相近的镜头组合起来，逐步缩小检索范围，直至查询到所需的视频数据，按照用户要求返回给用户。其中镜头检测技术、镜头聚类技术、视频数据库组织和索引技术、基于运动特征的视频检索技术、面向查询的特征提取和匹配技术及显示和交互技术是视频检索中的关键技术，如何处理好这些问题，直接关系到视频检索系统的性能，这也是当今的研究热点问题。1.3 商业运用在当今的时代，视频检索系统在商业上渐渐得到青睐，正如新闻报道“视频搜索精准竞速技术元年开启2”所阐述的那样，当今越来越需要准确的检索视频，我们将迎来一个新的技术元年。视频

5、信息检索技术将在各个行业上得到运用，不管是安防还是破案又或者是广告的投放，这都将会是一个新的市场，随着视频信息检索技术的成长，“海量视频检索离安防监控还有多远？3”将不再遥远，正确的应用该技术，将为我们的安防提供更可靠的支持。新的广告投放方式“有趣的视链技术4”将变成主流，而与之对应的的新的营销方式“视链广告打开视频营销新空间 5”将改变大家以往的思维模式。可以这么说，当今的视频行业的发展，催出视频信息检索技术的发展，同时也将影响着该技术在商业上的运用，其产生的价值和展现出的市场前景，将值得期待。2 基于内容的视频信息检索系统下图是基于内容的视频检索系统的工作框架图6图1 基于内容的视频检索系

6、统工作框图我们可以看出，用户使用可视化的界面操作，可选择三种不同的方式进行检索，如范例查询、文字查询、视觉浏览等。用户通过一个关键字或者关键内容的键入，系统根据此查找多维索引，通过在线的数据库的匹配，自动提取特征，这种特征可以使纹理、图像颜色、物体形状等等。然后通过在线的相似度匹配可以得到用户需要的信息。离线时，可以通过标引员进行手工的标引。其主要特点如下：( 1) 基于内容的检索直接对视频数据库中的图像、视频、音频内容进行分析，抽取特征和语义。对视频信息的描述更加具体、客观和全面。利用这些内容特征建立索引进行检索准确率会大大提高。( 2) 基于内容的视频信息检索为我们提供了更多的视频内在信息

7、，比如视频段的运动活动性、摄像机运动方式或者是关键帧的主颜色、纹理特征等重要信息，并且这些信息都可以作为视频信息的特征值进行匹配查询。( 3) 基于内容的视频信息检索为我们提供了多样灵活的检索方式。我们既可以上载一段关于日出的视频或是仅仅上载一幅有关日出的图像，来查找视频数据库中与日出相关的视频信息，也可以通过一幅手工画出的日出草图对视频数据库中的视频信息进行查询，这些查询方式在传统的检索系统中是无法想象的。3 基于内容的视频检索系统的实现方式3.1视频信息的特征一、关键帧关键帧是计算机动画术语，帧就是动画中最小单位的单幅影像画面，相当于电影胶片上的每一格镜头。在动画软件的时间轴上帧表现为

8、一格或一个标记。关键帧相当于二维动画中的原画,指角色或者物体运动或变化中的关键动作所处的那一帧7。关键帧与关键帧之间的动画可以由软件来创建，叫做过渡帧或者中间帧在一组连续运动的镜头中，通过分析每个镜头的光流量，找到的变化最小的那个镜头。这便是关键帧。在视频信息中，人们常用关键帧来标识场景、故事等高层语义单元。二、镜头影视中所指的镜头，并非物理含义或者光学意义上的镜头，而是指承载影像、能够构成画面的镜头。镜头是比帧更高级的视频基本单元，镜头是组成整部影片的基本单位。若干个镜头构成一个段落或场面，若干个段落或场面构成一部影片。因此，镜头也是构成视觉语言的基本单位。它是叙事和表意的基础。在影视作品的

9、前期拍摄中，镜头是指摄像机从启动到静止这期间不间断摄取的一段画面的总和；在后期编辑时，镜头是两个剪辑点间的一组画面；在完成片中，一个镜头是指从前一个光学转换到后一个光学转换之间的完整片段8。三、切换它是镜头间最常见的过渡方式, 表现为在相邻两帧间发生突变性的镜头转换。四、视频段落在时间上连续的镜头是相关的, 因为这一组镜头是一个情节。显然, 视频段落是一种比镜头具有更高抽象层次的结构。3.2 实现方式基于内容的视频信息检索系统主要通过以下三种方式实现：(1) 基于图象的方式：将视频资料进行镜头检测和关键帧提取后，用镜头的关键帧来代表镜头。通过对关键帧的特征提取( 如: 纹理、直方图等) 以及手

10、工注释的方法来实现对视频信息的内容描述。在检索端通过对视频信息关键帧的匹配来实现对视频信息的检索。在前面提到的视链广告便是其中应用之一。图2 视链技术的实现(2) 基于视频的特有信息: 先将视频信息中包含的视频特有信息( 如: 主运动方向、运动矢量等) 提取出来，然后用一定的算法对提取出的数值进行处理，将得到的数据作为视频资料的内容描述。检索端通过对特征数据的匹配来实现视频信息的检索。(3) 图象和视频的特有信息相结合: 具体思路就是将方法( 1) ( 2)有效的结合起来实现视频信息的检索。4 检索系统的模块功能和相关技术视频信息检索就是对视频信息的处理和加工，而基于内容的视频信息检索系统

11、的主要结构如下图所示。我们可以看出，这个系统主要实现特征的发现，相似性比较，最后访问数据库得到用户所要的返回结果。而从对视频信息处理流程的角度，视频信息检索主要分成三个部分: 视频的预处理、镜头处理和视频描述，下面将针对这三个部分展开讨论。4. 1 视频预处理视频预处理部分其实只包括一个功能：读入视频资料，但是这部分的功能也是很重要的。在当今的时代，由于监控设备行业的门槛比较低，所以各种公司并存，而每个公司所使用的录像存储格式又各不相同，用的播放器也是五花八门的，这就给读取视频带来一定的困难，这也是首先必须解决的问题，概括起来只有一句话: 载入各种格式的视频资料，并将视频资料上载到视频资料数

12、据库中。这一部分存在着很大的技术障碍，必须解决视频的存储格式、编码问题。视频资料的载入基于内容的视频信息检索，首先要面对的是海量的信息量，这种海量不仅仅体现在其容量大得惊人，也同样体现在视频的格式编码不尽相同、良莠不齐。根据百度百科资料9显示光视频的大的编码分类就有多达9种，各种编码的方式也不同。为了能将如此多种类的视频资料读入到数据库中进行处理，预处理部分必须具备以下功能:(1) 将模拟信号数字化，压缩数字化后的数据并进行存储。(2) 对应于每一种格式的数字信号都要有相应的解码器进行解码。(3) 为了对视频信号做进一步的处理，例如存储、格式转换，预处理模块要具有相应的编解码和转码功能。

13、4. 2 镜头处理在基于内容的视频信息检索系统中镜头处理是最重要的一部分，只有利用了视频资料所包含的特有的视频信息才能使检索系统得到更加符合人们需求的检索结果，而大部分视频特有信息正是在这部操作中被提取出来。镜头处理部分完成的功能是将视频资料分割成镜头并进行相应的处理，这部分包括: 镜头检测、关键帧提取和视频聚类。4. 2. 1 镜头检测正如我之前分析的，视频主要由一个个镜头连接而成。镜头实际上是一段时间的视频信号，在这段时间内，摄像机可以由各种运动及变焦等操作，但没有摄像机信号的中断，因此，一段镜头内的图像不会有大的变换。故而镜头既能反映出这段视频拍摄时的特征信息，也能反映后期制作中所加入的

14、编辑信息，所以一般认为镜头是视频的基本物理单元。首先要做的就是确定一个镜头的开始和结束，自动地实现镜头的分割，形成最基本的索引单元，我们称之为镜头的边界检测。在此之前我们需要了解，镜头之间的基本切换方式，这是对镜头进行边缘检测的首要条件，常见的切换方式有：突变(切变) 和渐变（如叠化、淡入、淡出等）。镜头边界检测方法可分为模板匹配法、直方图法、基于边缘的方法和基于模型的方法等。此外在面对不同的视频格式，如数字视频、模拟视频抑或压缩与非压缩视频时，又要考虑更多的因素，这里面也涉及了更多的技术。4. 2. 2 提取关键帧帧是构成镜头的基本部分，而关键帧又是一个镜头序列中包含这个镜头最重要信息的代表

15、帧，其基本上能够代表这个镜头反映的所有的信息，进而我们可以将对镜头的检测和提取，变成对帧的处理，因为在对帧的处理技术，已趋于完善，各种理论也详尽。这样便巧妙的实现了转换。随着而来的问题是，如果去确定一个镜头的关键帧，成为了一个难点。通常我们要求关键帧必须具备以下的几个条件：（1）关键帧必须能够准确完整地反映镜头的主要事件；（2）为了便于后期的数据处理，我们提取的关键帧数据量应尽量少且不宜太复杂。在文献10中提及了几个关于关键帧的选取方法，其介绍了比较经典的有帧平均法和直方图平均法。这些方法对于提取关键帧有着可观的作用。(1)帧平均法其基本思想是从镜头中抽取所有帧在某个位置上像素值的平均值，然后将镜头中该点位置的像素值最接近平均值的帧作为关键帧(2)直方图平均法将镜头中所有帧的统计直方图取平均，然后选取与该平均直方图最接近的帧作为关键帧。但是不管是哪种方法，都存在着一定的缺点。4. 2. 3 视频聚类在对镜头进行分析后，我们主张进行视频的聚类。之所以进行视频的聚类，主要是基于以下的考虑。首先，一段视频可能很大，包含了很多个镜头，如果单一的对每一个镜头都进行分析，那将会是很大的工作量，不仅如此，单一的处理镜头，也将会失去视频的时间性、运动性和连续性。但是如果将

展开阅读全文

现代信息检索课程报告

最新文档