研究方法论课程论文

资源描述

《研究方法论课程论文》由会员分享，可在线阅读，更多相关《研究方法论课程论文（6页珍藏版）》请在金锄头文库上搜索。

1、.word可编辑.基于语义的图像自动标注与检索研究摘要：随着多媒体和网络技术的迅速发展，图像数据不断扩大。如何有效的利用这些大量的图像，成为人们面临的一大难题。如何通过图像标注和检索来高效的利用图像资源，一直以来都是计算机领域的热点问题。然而最近的研究表明在基于内容图像检索和人类对于图像语义的理解之间仍然存在非常大的偏差。因此，在这个领域的研究逐渐转变成解决低层次图像特征和高层语义特征之间的“语义鸿沟”。因而基于语义的图像标注和检索技术是图像发展的必然，它融合了以往的许多图像检索的技术，建立图像的语义标注和检索机制势在必行。关键字：图像标注，图像检索，图像语义检索，语义鸿沟中图法分类号：TP3

2、91.431 文献标志码：AAutomatic image annotation and retrieval system based on semanticKe Shanwuschool of computer science, Central China Normal University, Wuhan 430070,China;Abstract: with the rapid development of multimedia and Internet technology, image data is continually expanding. How to effectively

3、use a broad array of images becomes a major problem facing the people. How to efficiently by image annotation and retrieval using image resources, has always been a hot issue in the field of computer. However, recent studies have shown that in content-based image retrieval and humanitys understandin

4、g of image semantics still exist the very large deviations. Therefore, research in this field gradually transformed into solving low-level features and high-level semantics between semantic gap. Image annotation and retrieval based on semantic technology is the inevitable image, it combines many pre

5、vious image retrieval technology, it is imperative to establish mechanism for semantic annotation and retrieval of images.Keywords: image annotation, image retrieval, image semantic retrieval, semantic gap. 专业.专注 .0 引言随着计算机处理能力日益增强，因特网(Internet)技术的广泛普及和网络宽带不断提高，大量的包括数字、文本、图形、图像、动画和视频等多媒体信息不断产生。图像时对客

6、观对象的一种相似性、生动性的描述或写真，它包含了被描述对象的有关信息，是人们最主要的信息源之一。数字化技术给人们带来了极大的方便，但同时，也面临着如何有效地针对海量数据进行分析，存储和检索的问题。对于图像信息而言，这些数据汇聚为一个海量图像数据库，如何从这些海量数据中搜索人们感兴趣的信息并有效利用这些信息依然是公认的难题。为了满足人们对图像的使用与检索需求，自20世纪90年代起，基于内容的图像检索(content-based image retrieve)系统应运而生。基于图像的内容如颜色、形状和纹理等特征来检索图像的技术(CBIR)应运而生，研究者已经开发了许多基于内容的图像检索系统，如Ph

7、otobook1，QBIC2，Virage3等。CBIR 的主要思想是根据图像的颜色、形状、纹理等底层特征建立图像的特征向量库，检索时对用户输入的图像作底层特征提取，再到图像的特征向量库进行查找，将最匹配图像输出。这些图像检索系统主要是检索与查询图像视觉上相近的图像，但是由于图像的底层特征与高层语义之间的不一致性，所以它们并不能很好地揭示图像内在的本质，图像深层的语义内容不能得到很好的反映。早期的图像检索系统基本上是利用图像的颜色、形状、纹理等底层特征进行相似性比较检索。然而图像的底层特征，并不能很好地揭示其内在的本质。图像的概念层语义信息没有得到表达。由于在传统的基于内容的图像检索(CBIR

8、)中，计算机通过底层特征匹配得到的图像与用户对图像信息的理解存在着不一致。人们所感知到的图像与用底层特征来表述的图像之间有着很大的差距。人们看一幅图像，不仅仅会看到图像的颜色、形状、纹理之类的视觉特征，还会看到图像底层特征后面的语义和情感，这是在 CBIR 系统中无法很好描述出来的高层图像语义，即在图像的语义和底层特征之间存在着“语义鸿沟”。由于图像的底层特征与高层语义之间的不一致性，所以它们并不能很好地揭示图像内在的本质，图像深层的语义内容不能得到很好的反映。因此我们需要对图像进行语义解释，在图像中加入高层语义特征，这样才能使计算机更好的理解图像。而图像的标注词能够很好地表达出图像的内在含义

9、，它能够缩小底层特征和高级语义之间的“语义鸿沟”。因此，基于语义的图像标注和检索越来越受到人们的重视，越来越多的研究人员投入了这方面的工作。通过基于语义的图像标注，给图像附加上语义层次上的信息，能使图像检索更加的有效。在早期的研究中，图像检索的主要方式有两种：基于文本的图像检索和基于内容的图像检索。基于文本的图像检索是通过手工对图像进行文本注释，使图像与文本建立关联，然后用成熟的文本检索技术与进行图像检索。这种检索方式存在很多问题，首先用手工标注图像工作量太大；其次，个人对图像的理解具有主观性，有时可能存在截然不同的理解，这使得基于手工标注的图像检索系统的效率很低。因此，传统的基于文本的图像

10、检索已不能完全满足人们的要求。1 研究现状传统的基于语义的图像标注方法主要分为三大类：利用机器学习中的算法在图像特征与图像的文本词语之间建立联系；利用统计转换模型在分割后的图像块与文本词语之间建立对应关系；采用分类方法实现图像标注。在第一类方法中，首先利用机器学习算法在图像特征与图像的文本词语之间建立联系，然后用这些学习到的相关性去预测一些未知图像的文本词语，作为对图像语义内容的描述，典型代表是Co-occurrence模型4。这类模型把图像标注看作是从视觉特征到文本关键词的转换过程。第二种方法是利用统计转换模型在图像的分割块和文本之间建立对应关系5，代表模型是LDA(Latent Diric

11、hlet Allocator)6和Correspondence LDA7。这类模型的性能在很大程度上依赖于图像分割的质量。采用分类方法也可以实现图像标注。分类方法把每一个标注词语（或者每一个语义分类）看作一个独立的类别，然后为每一个文本关键词创建不同的图像分类模型。这个方法的典型代表是ALIPS(automatic linguistic indexing of picture)8。在ALIPS模型中，假设训练图像集合是已经分类好的，并且每一个类别用一个二维的多级隐马尔可夫模型 (Hierarchical Hidden Markov Model, HHMM)进行建模。但是，这类模型的缺点是它假设

12、标注文本在语义上是相互独立的，这个假设没有实际意义。在很多情况下，图像和文本文档对用户查询来说都是有意义的，如在 Web 搜索环境下。在这些情景下，多模态(Multimodal)图像检索有较为广阔的发展前景，如利用文本信息来提高图像的检索性能，满足用户的查询要求。人对图像的高层语义特征的理解可以利用文本描述出来。但是每个用户对图像语义的主观理解不尽相同，这大大增加了获取高层语义特征的难度9。如果没有一个标准的方法用来描述人对图像的理解，那么基于语义的检索系统就不会具有较好的检索性能。MPEG-7，又叫多媒体内容描述接口，旨在解决对多媒体信息进行标准化描述的问题，并将描述信息与多媒体内容相联系

13、。MPEG-7标准采用XML文档存储描述信息，目前XML己经成为数据描述和交换的标准，因此针对XML的半结构化特性，可以获得比传统图像检索方法更好的检索效果。2 图像检索的进展图像等多媒体信息急剧膨胀,推动了图像检索技术的不断发展。传统的检索技术,如基于文本的图像检索,己不能完全满足人们的要求,基于内容的检索方式的出现,解决了人们对图像视觉特征所代表的特征语义,但不能完全解决高层语义的图像检索。而人们更渴望获取高层语义内容,如两个队进行篮球比赛,人们关注的是各队的表现和球艺水平,而不是颜色、纹理等视觉特征。图像所蕴含的高层语义与底层特征之存在着较大的差距,这个巨大的差距影响了基于内容的图像检索

14、的效果,因而建立图像的语义表示和检索机制势在必行。图像检索涉及了数据库管理、计算机视觉、图像处理、模式识别、信息检索和认知心理学等诸多学科。考虑到计算机视觉和模式识别的发展水平,目前图像检索系统的高性能还必须建立在人机交互的基础上。图1是一种可能的图像检索系统结构。图像特征分析与提取查询检索需求检索机制用户界面检索图像用户结果命中记录反馈图1 图像检索模型结构Fig.1 Structure of image retrieval model2.1基于文本的图像检索早期的图像检索技术主要是基于文本的图像检索10,它是通过手工对图像进行文本注释,使图像与文本建立关联,用成熟的文本检索技术来进行图像

15、检索。但这种检索方式存在很多问题,首先用手工标注图像工作量太大,需要采用自动化或者半自动化的注释方式;其次,个人对图像的理解可能不一样,容易产生歧义,有时存在截然不同的理解,这也使得手工注解存在很大问题:再者,人们对图像的需求不仅仅是图像本身,还应包括图像所包含的更深层次的语义。一般来说,基于文本的图像检索过程可以用图2表示:输出检索匹配输入关键词结果图像库标引库图2 基于文本的图像检索过程fig.2 Text-based image retrieval2.2 基于内容的图像检索进入20世纪90年代后,随着多媒体检索技术的发展与广泛应用,早期的文本检索技术已不能满足用户的需求。人们迫切需要一种新技术来进行图像检索。基于内容的图像检索11应运而生。CBIR是指根据媒体和媒体对象的内容及相互关系进行检索。它的研究目标是利用循序渐进的学习方法自动识别或理解图像的重要特征。当前,基于内容的图像检索可以直接从图像信息源中获得视觉内容特征,如颜色、纹理、形状等来判断图像之间的相似性。CBIR需要利用图像处理、模式识别、信息技术等领域知识来实现图像内容特征的提取、表示和检索。现在CBIR己成功地应用于许多领域,如指纹与头像识别、商标检索等。图3为基于内容图像检索的一个检索模型。用户用户界面检索特征提取图像资源

展开阅读全文

研究方法论课程论文

最新文档