软件工程毕业设计论文网络爬虫设计与实现

资源描述

《软件工程毕业设计论文网络爬虫设计与实现》由会员分享，可在线阅读，更多相关《软件工程毕业设计论文网络爬虫设计与实现（57页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）说明书学院软件学院专业软件工程年级 2007 姓名指导教师 2011年 3月 6 日毕业设计（论文）任务书题目：网络爬虫设计与实现学生姓名学院名称软件学院专业软件工程学号指导教师职称讲师一、原始依据（包括设计或论文的工作基础、研究条件、应用环境、工作目的等。）互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果

2、包含大量用户不关心的网页。所以需要一个能基于主题搜索的满足特定需求的网络爬虫。为了解决上述问题，参照成功的网络爬虫模式，对网络爬虫进行研究，从而能够为网络爬虫实现更深入的主题相关性，提供满足特定搜索需求的网络爬虫。二、参考文献1Winter中文搜索引擎技术解密：网络蜘蛛 M北京：人民邮电出版社，2004年2Sergey等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北京：清华大学出版社，1998年3WisenutWiseNut Search Engine white paper M北京：中国电力出版社，2001年4G

3、ary R.Wright W.Richard StevensTCP-IP协议详解卷3：TCP事务协议，HTTP，NNTP和UNIX域协议 M北京：机械工业出版社，2002 年1月.5罗刚王振东自己动手写网络爬虫M北京：清华大学出版社，2010年10月.6李晓明，闫宏飞，王继民搜索引擎：原理、技术与系统华夏英才基金学术文库M北京：科学出版社，2005年04月.三、设计（研究）内容和要求（包括设计或研究内容、主要指标与技术参数，并根据课题性质对学生提出具体要求。）本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，要考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。

4、对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫要实现对特定主题的爬取。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来:新闻、电子图书、行业信息等。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。最终实现的网络爬虫应该能根据设定的主题，从设定的url进行一定深度的搜索，并最终得到需要的数据。指导教师（签字）年月日审题小组组长（签字）年月日天津大学本科生毕业设计（论文）开题报告课题名称网络爬虫设计与实现学院名称软件学院专业名称软件工程学生姓名指导教师（内容包括：课题的来源及意义，国内外发展状

5、况，本课题的研究目标、研究内容、研究方法、研究手段和进度安排，实验方案的可行性分析和已具备的实验条件以及主要参考文献等。）一课题的来源及意义互联网是一个庞大的非结构化的数据库，将数据有效的检索并组织呈现出来有着巨大的应用前景。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。不同领域、不同背景的用户往往具有不同的检索目的和需求，通用搜索引擎所返回的结果包含大量用户不关心的网页。为了解决这个问题，一个灵活的爬虫有着无可替代的重要意义。二国内外发展状况对于网络爬虫的研究从上世纪九十年代就开始了，目前爬虫技术已经趋见成熟，网络爬虫

6、是搜索引擎的重要组成部分。网络上比较著名的开源爬虫包括Nutch，Larbin，Heritrix。网络爬虫最重要的是网页搜索策略（广度优先和最佳度优先）和网页分析策略（基于网络拓扑的分析算法和基于网页内容的网页分析算法）。三研究目标本论文主要研究搜索引擎的搜索器（网络爬虫程序）的设计与实现,实现简单的可在后台自动运行的爬虫程序。1. 可以多线程进行抓取。2. 可以进行面向主题的抓取。四研究内容本课题研究的内容是如何使网络爬虫灵活高效。1. 如何具备更强的抓取能力。2. 如何分辨重复的网页内容。3. 如何确定主题相关性。4. 对于网络时延等的处理。五研究方法网络爬虫应用宽度搜索技术。对url进

7、行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。网络爬虫还要完成信息提取任务，对于抓取回来的网页提取出来新闻等信息。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。研究网络爬虫的原理并实现爬虫的相关功能。六研究手段参考网上开源的网络爬虫和各种网络爬虫相关的书籍，在windows系统环境下开发。五本课题进度安排： 2010.12.202011.03.10 查阅资料完成任务书，完成开题报告 2011.03.112011.03.12 开题报告会 2011.03.132011.04.24 查阅资料，进行论文基本章节的写作，完成初稿，并完成进行代码编写 2011.04

8、.252011.04.30 毕业设计中期报告会 2011.05.012011.05.22 系统设计结束并再次检查系统的可靠性。2011.05.232011.06.22 完成论文及答辩六本课题可行性分析网络爬虫目前已经比较普遍，国内外有众多对网络爬虫的研究成果，大部分的技术难题已经有解决方案。所以本课题的可行性较高。八实验条件Windows 操作系统；互联网九主要参考文献1Winter中文搜索引擎技术解密：网络蜘蛛 M北京：人民邮电出版社，2004年2Sergey等The Anatomy of a Large-Scale Hypertextual Web Search Engine M北

9、京：清华大学出版社，1998年3WisenutWiseNut Search Engine white paper M北京：中国电力出版社，2001年4Gary R.Wright W.Richard StevensTCP-IP协议详解卷3：TCP事务协议，HTTP，NNTP和UNIX域协议 M北京：机械工业出版社，2002 年1月.5罗刚王振东自己动手写网络爬虫M北京：清华大学出版社，2010年10月.6李晓明，闫宏飞，王继民搜索引擎：原理、技术与系统华夏英才基金学术文库M北京：科学出版社，2005年04月.选题是否合适：是否课题能否实现：能不能指导教师（签字）年月日选题是否合适：

10、是否课题能否实现：能不能审题小组组长（签字）年月日摘要本课题的主要目的是设计面向主题的网络爬虫程序，同时需要满足的是具有一定的性能，考虑到网络爬虫的各种需求。网络爬虫应用宽度搜索技术。对url进行分析，去重。网络爬虫使用多线程技术，让爬虫具备更强大的抓取能力。对网络爬虫的连接网络设置连接及读取时间，避免无限制的等待。为了适应不同需求，使网络爬虫可以根据预先设定的主题实现对特定主题的爬取。研究网络爬虫的原理并实现爬虫的相关功能。关键词：网络爬虫；面向主题；多线程ABSTRACTThe main purpose of this project is to design subject

11、-oriented web crawler process which is also required to meet certain performance, taking into account the diverse needs of web crawlers.Web Crawler uses the technology. of Breadth-first search.Web crawler uses multi-threaded technology, so that spiders crawl can have more powerful capabilities.Set c

12、onnection time and read time of the web connection of the Web crawler , to avoid unlimited waiting.In order to meet different needs, so that crawlers can achieve pre-set theme crawling a specific topic.Research the principle web crawler and and realize the related functions.Key words：Web crawler; su

13、bject-oriented; multi-threading 天津大学2007届本科生毕业设计（论文）目录第一章概述11.1课题背景11.2网络爬虫的历史和分类21.2.1网络爬虫的历史21.2.2网络爬虫的分类31.3网络爬虫的发展趋势4第二章相关技术背景62.1网络爬虫的定义62.2网页搜索策略介绍62.2.1广度优先搜索策略62.2.2最佳优先搜索策略72.3判断相关度算法7第三章网络爬虫模型的分析和概要设计93.1网络爬虫的模型分析93.2网络爬虫的搜索策略93.3网络爬虫的主题相关度判断103.4网络爬虫的概要设计12第四章网络爬虫模型的设计和实现154.1网络爬虫总体设计154.2网络爬虫具体设计154.2.1爬取网页154.2.2分析网页164.2.3判断相关度174.2.4保存网页信息184.2.5数据库设计和存储184.2.6多线程的实现184.2.7附加功能194.2.8整体流程19第五章测试21第六章总结和展望24天津大学2007届本科生毕业设计（论文）第一章概述1.1课题背景网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。网络检索功能起于互联

展开阅读全文