搜索引擎网络爬虫设计与实现毕业设计

上传人:枫** 文档编号:513736920 上传时间:2023-05-02 格式:DOCX 页数:2 大小:8.26KB
返回 下载 相关 举报
搜索引擎网络爬虫设计与实现毕业设计_第1页
第1页 / 共2页
搜索引擎网络爬虫设计与实现毕业设计_第2页
第2页 / 共2页
亲,该文档总共2页,全部预览完了,如果喜欢就下载吧!
资源描述

《搜索引擎网络爬虫设计与实现毕业设计》由会员分享,可在线阅读,更多相关《搜索引擎网络爬虫设计与实现毕业设计(2页珍藏版)》请在金锄头文库上搜索。

1、最新资料推荐捜索引擎网络爬虫设计与实现毕业设计-网络中的资源非常丰富,但是如何有效的搜索信息却是一件 困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然 后具体阐述了如何设计并实现搜索引擎的搜索器网络爬虫。多线程网络爬虫程序是从指定的Web页面中按照宽度优先算 法进行解析、搜索,并把搜索到的每条URL进行抓取、保存并且 以URL为新的入口在互联网上进行不断的爬行的自动执行后台程 序。网络爬虫主要应用socket套接字技术、正则表达式、HTTP 协议、windows网络编程技术等相关技术,以C+语言作为实现语 言,并在VC6.0下调试通过。在

2、网络爬虫的设计与实现的章节中除了详细的阐述技术核心 外还结合了多线程网络爬虫的实现代码来说明,易于理解。本网络爬虫是一个能够在后台运行的以配置文件来作为初始 URL,以宽度优先算法向下爬行,保存目标URL的网络程序,能 够执行普通用户网络搜索任务。搜索引擎;网络爬虫;URL搜索器;多线程-Designand Realization of Search Engine Network Spider Abstract The resource of net work is very rich, but how to search theeffective information is a diffi

3、cult task. The establishment of a search engine is the best way to solve this problem. This paper first introduces the internet-based search engine structure, and then illustrates how to implement search engine net work spiders. The multit hread net work spider procedure is from the Web page which a

4、ssigns according to the width priority algorithm connection for analysis and search, and each URL is snatched and preserved, and make the result URL as the new source ent rance unceasing crawling on int erne t to carry out the backgoud automatically. My paper of network spider mainly applies to the

5、socket technology, the regular expression, the HTTP agreeme nt, the windows net work programming t echnology and other correlation technique, and taking C+ language as implemented language, and passes under VC6.0 debugging. In the chapter of the spider design and implementation, besides a det ailed expos ition of the core t echnology in conjunc tion with the multi-threaded network spider to illustrate the realiza tion of the code, it is easy to unders tand. This net work spide.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号