基于PHP的图片搜索引擎

资源描述

《基于PHP的图片搜索引擎》由会员分享，可在线阅读，更多相关《基于PHP的图片搜索引擎（54页珍藏版）》请在金锄头文库上搜索。

1、简易图片采集器以及搜索引擎的实现摘要：因特网上的信息浩瀚万千，而且毫无秩序，所有的信息像汪洋上的一个个小岛，网页链接是这些小岛之间纵横交错的桥梁，而搜索引擎，则为用户绘制一幅一目了然的信息地图，供用户随时查阅。搜索引擎指自动的从因特网上搜集信息，经过一定整理后，提供给用户进行查询的系统。它利用称为网络蜘蛛的自动搜索机器人程序来搜集信息；通过建立索引来整理信息；最后，当用户向搜索引擎发出查询时，搜索引擎接受查询并向用户返回资料。本设计采用PHP、C+和HTML语言，MySQL数据库，并利用网络爬虫、分词、倒排查找、模式识别、求解颜色分布直方图等搜索引擎常用技术实现的一个简易的搜索引擎系统。该系统

2、实现了如下功能：基于关键字搜索图片和基于图片的颜色来搜索图片。该系统已投入实际使用并运转正常。关键词：搜索；关键字；颜色 Simple picture collector as well as the realization of search engineInformation security HaihuaYuan Teacher： ZuxiongDaiAbstract: The information on the Internet are vast million, and there is no order .All information as a vast expanse of

3、water on the island,but the web links are the criss-crossing bridges between these islands ,and the search engine for users to draw a clear map of the information for users to access. Search engine is the automatic collection of information from the Internet,which is made available to the users quer

4、y the system after some sorting out. It uses the Web Spider automatically search Robot program to collect information;and through the establishment of the index to collate information; finally, when the user issued a query to the search engine, the search engine accept the query and return of inform

5、ation to users.This design uses the PHP, C+,and the HTML languages, MySQL database,and uses a lot of commonly used search engine technologies such as Web Crawler、Segmentation、Inverted index、Pattern Recognition、Solving the color distribution histogram and so on,to achieve a simple search engine syste

6、m。The system functions to achieve the following：Keyword-based search pictures and images color-based search for images.The system has already been put into practical use and operating normally.Keywords: Search;Keyword;Color目录前言1第一章国内外研究现状- 2 -1.1 信息获取与搜索引擎- 2 - 1.1.1 搜索引擎发展历史- 2 - 1.1.2 搜索引擎的分类- 3

7、-1.2 网络蜘蛛- 4 - 1.2.1 网络蜘蛛的基本原理- 4 - 1.2.2 网站与网络蜘蛛- 6 -1.3 倒排索引- 7 - 1.3.1 倒排的定义- 8 - 1.3.2 倒排的特点- 8 -1.4 分词技术简介- 9 - 1.4.1 为什么需要分词- 9 - 1.4.2 中文分词的算法- 10 - 1.4.3 中文分词和搜索引擎- 11 -1.5 用OpenCV库求解图像颜色分布直方图- 12 - 1.5.1 什么是OpenCV- 12 - 1.5.2 求解图像颜色分布直方图实例- 13 -第二章搜索引擎运行环境的搭建- 17 -2.1 php 的安装与调试- 17 -2.2 ap

8、ache 的调试和整合（修改httpd.conf文件）- 17 -2.3 可能的问题- 19 -2.4 opencv 开发环境配置- 19 -第三章系统分析与设计- 20 -3.1应用环境- 21 -3.2 需求分析- 21 -3.3 总体设计和模块分析- 22 - 3.3.1 网络爬虫（蜘蛛）模块的详细设计- 23 - 3.3.2 求解图像颜色直方图模块详细设计- 27 - 3.3.3 Getimage模块详细设计- 29 -i 3.3.4 Index模块的详细设计- 33 -第四章系统实现- 39 -4.1 后台功能实现- 39 -4.2 客户端系统界面实现- 43 -第五章系统测试

9、- 45 -5.1 测试方案- 45 -5.2 测试结果- 46 -5.3 结果分析- 46 -总结- 48 -致谢- 49 -参考文献- 50 -。前言搜索，这两个字无疑是当今互联网业界最为流行的字眼之一。在Baidu上输入“搜索引擎”这个关键字，可以找到3000多万条目,在Google上查找时，可以查到2600多万条目。不是Google的条目少，当用“search engine”作关键字查找时，在Google中可以查找到7300多万条目。Google的巨大成功让整个世界都把眼光投入到搜索引擎这个领域中。仿佛一夜间，各种各样的搜索服务席卷而来。从最初的Google、Yahoo到现今的Bai

10、du、MSN、中搜、Sogou等，搜索引擎的品牌越来越多，服务也越来越丰富。同时，伴随着WEB2.0的普及，网络信息的膨胀速度呈指数急速增长，各种各样的网站都需要为其加入检索功能，以满足用户的需要。另外，在企业级应用的市场上，全文信息检索的需求一直在增加，各种文档处理、内容管理软件都需要加入全文检索的功能。在这样的背景下，搜索引擎的技术迅速发展。各种讨论搜索的文章、杂志、论文铺天盖地；论坛和博客上也有许多相关帖子。一时间，搜索引擎技术成为最热门的技术之一。不过，搜索引擎技术并非是一种大众技术，从其出现开始，就一直是一种高门槛的技术，它的后台包括学术领域的众多先进思想和设计，其涉及的学科包括自然

11、语言处理、人工智能、离散数学、排列组合、编译原理等。因此，设计一个性能良好并且实用性强的搜索引擎并非易事。抱着对搜索引擎强大的兴趣和爱好，通过学习了大量的相关书籍，查阅相关网站，终于完成了一个简易的垂直搜索引擎系统，该系统主要完成了基于图片关键字和图片颜色来搜索图片的功能，其中采用了网络爬虫、分词、倒排查找、模式识别、求解彩色图像颜色分布直方图等搜索引擎常用技术，用PHP语言、C+和HTML网络编程语言编写，引用了大量的库，如蜘蛛和OpenCV库。论文的第一章对搜索引擎相关技术做了简单介绍；第二章详细介绍了系统构建的组成；第三章是对系统的详细设计与分析；第四章是对搜索引擎系统的具体实现进行的介

12、绍；第五章对系统进行简单测试。第一章国内外研究现状1.1 信息获取与搜索引擎随着计算机技术和互联网技术的飞速发展，网络上的信息量急剧增长，要在浩如烟海的网络世界中寻找需要的信息，作为现代信息回去技术的主要应用搜索引擎是不必可少的。互联网（Internet）正以前所未有的态势改变着整个世界，它现在已经成为了人类有史以来资源数量最多、资源种类最全、资源规模最大的一个综合信息库。其信息来源丰富、分布广泛，各种类型信息资源异构地分布于网络空间中，如果不能使庞杂的信息有序化，就很难有效获取。如何准确有效地从互联网上获取信息，就显得十分迫切和重要。信息获取技术包含信息的表示、存储、组织和对信息的访问方法

13、。信息的表示和组织是为了让用户更容易地访问到需要的信息。一般来讲，信息获取的流程分为以下几部分:在获取信息之前，首先需要构造文本数据库，即将来需要进行检索的数据。在有了文本数据之后，需要建立文档的索引。利用索引技术可以大大提高信息检索的速度。当前有很多种建立文档索引的方法，然而对于大规模的数据量来讲，用得最多的还是倒排索引技术。在建立好索引之后，就可以对其进行检索了。用户首先给出一个查询，该查询将被分析，然后利用文本处理技术进行处理。在查询操作进行之前还可以对其进行一些处理。最后根据用户的查询将获取一些文档，这就是检索结果。在把检索结果反馈给用户之前，还可以对检索结果按照一定的次序排序，以使符

14、合用户需要的文档能够排在更前面。【1】1.1.1 搜索引擎发展历史曾有人说搜索引擎的鼻祖就是黄页，诞生于19世纪末。因为黄页，在电话诞生后成为了以电话为主体的信息门户，而且黄页把有电话的企业分门别类，的确与现在的搜索引擎有异曲同工之妙。不过，这更多地是从这两者的形式和用途做的类比。我们所说的搜索引擎其实是在近10年的不断发展中逐步形成的，它建立在互联网和诸多计算机技术之上，所以很难把搜索引擎的缘起与那个具体的产品对应起来。然而，在它逐步发展的过程中，一些关键系统和产品的产生成为了具有里程碑意义的事情。1993年10月Martijn Koster创建了ALIWEB(Martijn Koster

15、Annouces the Availability of Aliweb),它相当于Archie的HTTP版本。ALIWEB不使用网络搜寻Robot，如果网站主管们希望自己的网页被ALIWEB收录，需要自己提交一个网站的简介索引信息，类似于后来大家熟知的Yahoo。1993年2月，6个Stanford(斯坦福)大学生的想法是分析字词关系，以对互联网上的大量信息作更有效的检索，这就是Excite,后来曾以概念搜索闻名。1994年1月，第一个既可搜索又可浏览的分类目录EINET Galaxy(Tradewave Galaxy)诞生。除了网站搜索，它还支持Gopher Telnet搜索。Lycos是搜索引擎史上又一个重要的进步。Garnegie Mellon University的Michael Mauldin 讲John Leavitt 的spider程序接入到其索引程序中，创建了Lycos。除了相关性排序外，Lycos还提供

展开阅读全文