类gmail中信息推送网络爬虫技术研究

资源描述

《类gmail中信息推送网络爬虫技术研究》由会员分享，可在线阅读，更多相关《类gmail中信息推送网络爬虫技术研究（7页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）开题报告题目类gmail中信息推送网络爬虫技术研究指导教师周建东院别工学院班级计082本学号 08104010217 姓名濮建华一、选题的意义随着 Interact 技术的快速发展以及网络的日益普及，网络资源已经成为人们获取信息的主要渠道之一。互联网的高速发展，每天都有上千万张网页出现，而如今，全球的网站数量更是突破5亿大关。要在如此巨量的信息资源中查找信息几乎是不可能的。为了解决这一问题，搜索引擎诞生了。经过几十年的研究发展，搜索引擎已经成为人们上网的必备工具。它们能够快速、方便的为用户查找所需的信息，它们也是人们开启互联网大门的一把金钥匙

2、。搜索引擎也分多种搜索引擎，如baidu、google属于全文搜索引擎，它们是通过从互联网上提取的各个网站的信息而建立的数据库中，检索与用户查询条件匹配的相关记录，然后按一定的排列顺序将结果返回给用户，是最通用的搜索引擎；yahoo、网易属于目录索引类搜索引擎，是按目录分类的网站链接列表；InfoSpace、搜星属于元搜索引擎，它们是在接受用户查询请求时，同时在其他多个引擎上进行搜索，并将结果返回给用户。而搜索引擎的核心就要属网络爬虫了，它是一个自动搜索网络资源的应用程序，能够在互联网上的各个服务器中进行爬行，并下载相关的资源。将网络爬虫应用于OA系统上，能够方便用户迅速掌握到相关的信息。而不

3、用需要再打开百度或google进行搜索了。二、研究的主要内容，拟解决的主要问题（阐述的主要观点）本课题研究的主要内容是实现类似gmail中的信息推送，并在网络中进行搜索的网络爬虫技术研究。主要内容即为1.了解网络爬虫的工作原理和结构，分析网络爬虫在抓取网页时的过程。2.对比网络爬虫的各种抓取策略，并分析各种策略之间的优缺点，选择适当的策略作为该课题的网络爬虫策略。3.参考及研究合适的网络爬虫控件，分析其原理，在选定的开发工具上实现其的爬行。4. 将成型的网络爬虫与jquery ajax结合，实现其功能后应用于OA系统上。拟解决的主要问题是：1网络爬虫是怎么工作的，即网络爬虫是怎么在网络上进行爬

4、行搜索，并将爬行到的网页，返回给服务器的。2.怎么将网络爬虫抓取到的数据进行处理，剔除那些垃圾信息。3怎么将网络爬虫与jquery ajax结合，并应用于OA系统之上。三、研究（工作）步骤、方法及措施（思路）1.研究步骤：第一阶段（2011.11.07-2011.11.24）：分析课题内容，掌握相关理论基础，熟悉开发工具，撰写开题报告。第二阶段（2011.11.25-2011.12.25）：对该系统进行需求分析，撰写需求文档，构建静态页面，设计数据库，收集相关资料，撰写外文翻译和文献综述。第三阶段（2011.11.26-2012.02.20）：编写源代码，实现具体功能。第四阶段（2012.02

5、.21-2012.03.01）：对系统进行全面的测试，精简代码，从各个方面完善系统，对界面的美观进行设计。第五阶段（2012.03.02-2012.03.11）：撰写毕业设计论文，准备毕业设计的答辩。2.研究思路以理论为指导，实际开发为指引，按照软件开发规范，结合Spring、Struts 2、jquery、Ajax等技术系统规划，利用PowerDesigner设计数据库，统一代码规范，与其他相关的系统进行比较，通过测试对系统进行修改和完善，体会J2EE的系统开发优势。四、毕业论文（设计）提纲第一章是绪论，主要介绍网络爬虫的背景，发展历史以及简述网络爬虫的研究现状，通过对现有的搜索引擎网站的分

6、析，发现其中的不足点和待完善的地方。第二章是具体分析网络爬虫的研究现状，主要包括网络爬虫的分类，具体功能，以及各种网络爬虫之间的对比和各种网络爬虫的搜索策略的分析。第三章是企联OA系统的需求分析，主要对该系统中网络爬虫模块的功能需求做详细的分析设计，确定自己应该开发哪一种网络爬虫。第四章是企联OA系统的数据库设计，分析网络爬虫模块的数据库以及其数据流程图，分析表的各字段并完成数据库的设计。第五章是企联OA系统的总体设计，详细介绍网络爬虫模块的具体实现及界面设计，并对一些关键性的代码给出相应的解析。第六章是总结，介绍在本次开发过程中所得的经验、感想最后是参考文献和致谢，介绍在论文和设计过程中所

7、参考的资料，以及对导师、同学表示感谢。五、主要参考文献1 罗刚，王振东，自己动手写网络爬虫M，北京：清华大学出版社，2010.10.2 王亮, 搜索引擎零距离：基于Ruby+Java搜索引擎原理与实现M, 清华大学出版社，2009.06.3 袁津生，李群主，搜索引擎基础教程M，清华大学出版社，2010.4 郭邦财, 蜜蜂群并行网页抓取系统, 软件导刊J，2011年 01期5 詹恒飞,杨岳湘,方宏, Nutch分布式网络爬虫研究与优化J, 计算机科学与探索, 2011年 01期6 管翠花，支持Ajax技术的Deep Web网络爬虫模型研究D，大连海事大学，2011-08-017 冯明远，深度网络

8、信息爬取关键技术研究与实现D，浙江大学，2010.04.128 梁萍，搜索引擎中网络爬虫及结果聚类的研究与实现D，中国科学技术大学，2011-08-159 龚秋艳，并行网络爬虫设计与实现D, 华东师范大学，2010-10-1510 于成龙，于洪波, 网络爬虫技术研究J, 东莞理工学院学报, 2011年 03期11 杨松梅，网络爬虫J，硅谷，2009年15期12 李琳琢，网络爬虫软件的研究与开发J，软件导刊，2011年05期13 (美)W. Bruce Croft，(美)Donald Metzler，(美)Trevor Strohman, information retrieval in pra

9、ctice M, 机械工业出版社，2009.14 Surya B. Yadav，A conceptual model for user-centered qualityinformation retrieval on the World Wide WebJ，J Intell Inf Syst，2010 15 JQuery-apiEB/OL.http:/ 年月日毕业设计（论文）工作指导小组意见：格式不够规范；选题的意义已经阐述明确；研究的主要内容明确，拟解决的主要问题清晰，研究内容具有一定的创新点；研究步骤安排合理，方法及措施不够得当；毕业论文（设计）提纲基本合理，主要参考文献不够规范，指导教师意见不够明确具体。签名：2011年12月2日

展开阅读全文