基于lucene的图像搜索

上传人:E**** 文档编号:118150474 上传时间:2019-12-11 格式:PDF 页数:58 大小:296.98KB
返回 下载 相关 举报
基于lucene的图像搜索_第1页
第1页 / 共58页
基于lucene的图像搜索_第2页
第2页 / 共58页
基于lucene的图像搜索_第3页
第3页 / 共58页
基于lucene的图像搜索_第4页
第4页 / 共58页
基于lucene的图像搜索_第5页
第5页 / 共58页
点击查看更多>>
资源描述

《基于lucene的图像搜索》由会员分享,可在线阅读,更多相关《基于lucene的图像搜索(58页珍藏版)》请在金锄头文库上搜索。

1、中南民族大学 硕士学位论文 基于lucene的图像搜索 姓名:黄均乐 申请学位级别:硕士 专业:计算机应用技术 指导教师:段汕 20080525 I 摘摘 要要 随着计算机的发展,信息量日益膨胀,在庞杂的信息中获取自己想要的 信息变得日益复杂,特别是在搜索本机和网络图像的过程中。 针对以上的难题,基于 Lucene 图像搜索系统使用优秀的搜索引擎 Lucene 作为二次开发平台,在此平台上进行二次开发。本系统搜索图像前 需要对图像建立索引,索引的对象为从图像中抽取的信息,根据图像的来源 不同,系统把图像分为本机图像和网络图像,本机图像信息提取使用 java 平台二次开发提取,网络图像信息提取需

2、要使用 HTML Parser 二次开发提 取,在获取信息后使用 JE 分词对提取的信息进行中文分词后索引。系统使 用 SWT/JFace 二次开发实现 UI 显示界面。 本文的主要工作包括:使用 SWT/JFace 平台二次开发 UI 界面;提取图像 信息:本机图像名称、大小、宽度、高度和网络图像 URL 地址、名称、格 式、上下文信息;使用 JE 分词对获取的图像信息进行分词;使用 Lucene 进 行二次开发,对分词后的图像信息进行索引并对索引进行优化;确定图像搜 索的范围,对 Lucene 进行二次开发搜索图像。 本系统的特点:使用优秀的开源搜索引擎 Lucene 进行二次开发;使用

3、HTML Parser 二次开发提取网络图像信息;实现对本机和网络图像搜索;搜 索效率高;具有良好的定制性和扩展性,根据实际搜索情况定制图像搜索范 围。 本系统的实现是基于 Java 平台来实现,在实验的基础上对其性能进行 测试和分析,在理论上和技术上是可行的,对于定制图像搜索应用研究具有 一定的价值。 关键词 关键词 SWT;Lunene;中文分词;中文分词;HTML Parser Abstract With the development of computer, the information increase explosively. Its complex thing to find

4、 some information that we want in the so much information, especially in image search. In view of the above difficult problem, the article realize the image searches based on locality and the network image searching. The image search uses some technologies such as Lucene, HTML Parser, xml, SWT/JFace

5、 and so on to realize the system. The image searcher can search the local image and net image. In this article, something needed to do: the first task is using SWT/JFace to realize the UI part which is the loader of the image seach.The second task is extracting local image information, such as image

6、 width、height、image name、path, and extract net image information, such as url ,web site, the context of image. The third thing is using Chinese participles tools to participle image information, then create information index using Lucene. The last task is searching image in some scope using Lucene.

7、The experiment is gonging on Java platform. On the base of test, theres some data to test and analysis. In the point of theory and technology, Image search based on Lucene is feasible and valuable of the custom image search. Keywords: SWT;Luene;Chinese participle;HTML Parser 中南民族大学中南民族大学 学位论文原创性声明学位

8、论文原创性声明 本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所 取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任 何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡 献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的 法律后果由本人承担。 作者签名: 日期: 年 月 日 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文 被查阅和借阅。本人授权中南民族大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索,可以

9、采用影印、缩印或扫描等复制手段保存 和汇编本学位论文。 本学位论文属于 1、保密,在_年解密后适用本授权书。 2、不保密。 (请在以上相应方框内打“” ) 作者签名: 日期: 年 月 日 导师签名: 日期: 年 月 日 中南民族大学硕士学位论文 1 第1章 绪论 1.1 、论文研究背景 目前图片搜索主力为 2 大主力,百度和 Google。百度和 Google 图片搜 索可以依据图片文件名称、图片大小(大、中、小) 、图片文件格式(jpg、 png、gif) 、图片颜色、网站地址来搜索。百度和 Google 两大搜索引擎搜索 的图片主要是针对于网站图片搜索,搜索的图片都是搜索引擎网络爬虫获取

10、网络图片并对其信息进行索引,然后使用搜索引擎进行搜索。两大搜索引擎 不能对客户端的计算机中的图片进行搜索。在此背景下,我提出了基于开源 搜索引擎 Lucene 的图像搜索。 Lucene 是一个信息检索的函数库(Library),用户可以基于它开发出各种 全文搜索的应用。它是一个全文检索引擎的架构,提供了完整的查询引擎、 索引引擎及部分文本分析引擎(英文与德文两种西方语言)。作为一个开放源 代码项目,Lucene 从问世之后,引发了开放源代码社群的巨大反响,它不 仅能用来构建具体的全文检索应用,而且可被集成到各种系统软件中,其中 包括 IBM 的一些大型项目。Lucene 作为一个优秀的全文检

11、索引擎,其系统 结构具有很强的面向对象特征。首先是定义了一个与平台无关的索引文件格 式,其次通过抽象将系统的核心组成部分设计为抽象类,具体的平台实现部 分设计为抽象类的实现。此外与具体平台相关的部分比如文件存储也封装成 类,经过层层的面向对象式的处理,最终达成了一个低耦合高效率,容易二 次开发的检索引擎系统。Lucene 搜索的过程如下: (1) 从源文件中提取字符串。对源中字符串的提取需要通过程序来实 现; (2) 对从源提取的字符串进行索引。在对从源提取的字符串进行索引的 时候需要决定那些是需要进行索引、分词、存储。其中分词在 Lucene 搜索 2 中起着非常重要的作用,搜索结果的好坏往

12、往取决于分词的好坏。英文分词 是相对简单的分词,而对于中文来说是比较复杂的,现在已经有成熟的中文 分词系统,比如中科院的分词和 JE 分词系统; (3) 通过关键字进行搜索,并显示结果。搜索结果的好坏取决于搜索引 擎对内容的索引,Lucene 索引是针对于字符串,图像文件也可以被搜索。 1.2 、论文选题的理由以及意义 基于Lucene的图像搜索是建立在Lucene搜索引擎之上,Lucene是基于 java、perl、c+的一个开源搜索引擎,在Linux平台和Windows平台下都可以 应用,具有跨平台的特性。同时Lucene的开源性让我们可以扩展搜索功能, 目前有许多公司都有成功利用Luce

13、ne做企业搜索引擎的案例。Lucene用于做 索引的是字符串,它提供了底层的API函数,使用字符串作为索引对象,对 字符串索引后便可搜索。 1.3 、国内外研究现状及趋势 在图像搜索方面,Google 是排在第一位,其搜索是基于图像文件名称 和图像大小、类型、颜色搜索。Impression 图像搜索是现在比较新的一种图 像搜索,它采用了全新的用于多媒体信息的检索方式。通过对现有媒体形式 的特征研究,它可以很轻易的实现图片、音乐乃至电影内容的图像检索甚至 语义识别。它采用当前学术界最先进的基于视觉内容的多媒体信息检索技 术,使其可以精确地从用户提供的图片样本中提取出用户真正感兴趣的视觉 特征乃至

14、语义特征,并以此特征作为检索的标准,从而挖掘出用户真正希望 得到的图片。 国内图像搜索中百度处在领头羊的位置,同时还有新浪图像搜索、PC home 图像搜索引擎、Want2 网图搜索引擎,除此之外还有 CGCL 实验室的图像 搜索,此搜索引擎除了具有现有图像搜索引擎所具有的基于文本的图像搜索 功能以外,还具有其它搜索引擎所没有的基于示例图像的图像搜索功能,是 中南民族大学硕士学位论文 3 一种比较新的搜索引擎。 1.4 、本文的主要工作 本文的主要工作为提取本机和网络图像信息;使用 JE 分词对提取的图 像信息进行分词;使用开源 Lucene 进行二次开发,其中包括索引的建立、 图像搜索范围界

15、定、图像搜索、索引优化;使用 SWT/JFace 进行界面设计 与实现;整合各种技术对系统进行设计和实现。 1.5 、论文的创新点 使用优秀的开源搜索引擎 Lucene,在此平台上进行二次开发;对 HTML Parser 进行二次开发提取网络图像中上下文信息从而实现对网络图像 上下文信息搜索;图像搜索范围为本机和网络图像;本搜索引擎是桌面搜索 软件的应用,提高本地图像搜索效率;本搜索引擎具有良好的定制性和扩展 性,可以根据实际搜索情况来定制图像搜索范围。 1.6 、章节结构 本课题主要重点是研究基于 Lucene 图像搜索应用技术实现。论文分为 五章介绍课题工作,具体安排如下: 第一章 引言部

16、分,主要对介绍了目前图像搜索引擎并对其进行评价, 针对其缺点提出了课题研究的重要意义。 第二章 基于 Lucene 图像搜索的相关技术分析,介绍了基于 Lucene 实 现需要的相关技术并对各技术进行分析。 第三章 基于 Lucene 图像搜索的系统实现,提出了图像搜索的设计思想 并对系统进行实现。 第四章 基于 Lucene 图像搜索测试和性能分析,对本地、网络图像资源 进行搜索比对其性能进行分析。 4 第五章 结论与展望。 中南民族大学硕士学位论文 5 第2章 基于 Lucene 图像搜索的相关技术分析 2.1 、Lucene 图像搜索 UI 界面技术分析 软件界面是人与计算机之间的媒介。用户通过软件界面来与计算机进行 信息交换。因此,软件界面的质量,直接关系到应用系统的性能能否充分发 挥,能否使用户准确

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号