类gmail中信息推送网络爬虫技术研究

上传人:大米 文档编号:492544612 上传时间:2023-06-04 格式:DOC 页数:7 大小:43.01KB
返回 下载 相关 举报
类gmail中信息推送网络爬虫技术研究_第1页
第1页 / 共7页
类gmail中信息推送网络爬虫技术研究_第2页
第2页 / 共7页
类gmail中信息推送网络爬虫技术研究_第3页
第3页 / 共7页
类gmail中信息推送网络爬虫技术研究_第4页
第4页 / 共7页
类gmail中信息推送网络爬虫技术研究_第5页
第5页 / 共7页
点击查看更多>>
资源描述

《类gmail中信息推送网络爬虫技术研究》由会员分享,可在线阅读,更多相关《类gmail中信息推送网络爬虫技术研究(7页珍藏版)》请在金锄头文库上搜索。

1、毕业设计(论文)开 题 报 告 题 目 类gmail中信息推送网络爬虫技术研究指导教师 周建东 院 别 工学院 班 级 计082本 学 号 08104010217 姓 名 濮建华 一、选题的意义随着 Interact 技术的快速发展以及网络的日益普及,网络资源已经成为人们获取信息的主要渠道之一。互联网的高速发展,每天都有上千万张网页出现,而如今,全球的网站数量更是突破5亿大关。要在如此巨量的信息资源中查找信息几乎是不可能的。为了解决这一问题,搜索引擎诞生了。经过几十年的研究发展,搜索引擎已经成为人们上网的必备工具。它们能够快速、方便的为用户查找所需的信息,它们也是人们开启互联网大门的一把金钥匙

2、。搜索引擎也分多种搜索引擎,如baidu、google属于全文搜索引擎,它们是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,是最通用的搜索引擎;yahoo、网易属于目录索引类搜索引擎,是按目录分类的网站链接列表;InfoSpace、搜星属于元搜索引擎,它们是在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。而搜索引擎的核心就要属网络爬虫了,它是一个自动搜索网络资源的应用程序,能够在互联网上的各个服务器中进行爬行,并下载相关的资源。将网络爬虫应用于OA系统上,能够方便用户迅速掌握到相关的信息。而不

3、用需要再打开百度或google进行搜索了。二、研究的主要内容,拟解决的主要问题(阐述的主要观点)本课题研究的主要内容是实现类似gmail中的信息推送,并在网络中进行搜索的网络爬虫技术研究。主要内容即为1.了解网络爬虫的工作原理和结构,分析网络爬虫在抓取网页时的过程。2.对比网络爬虫的各种抓取策略,并分析各种策略之间的优缺点,选择适当的策略作为该课题的网络爬虫策略。3.参考及研究合适的网络爬虫控件,分析其原理,在选定的开发工具上实现其的爬行。4. 将成型的网络爬虫与jquery ajax结合,实现其功能后应用于OA系统上。拟解决的主要问题是:1网络爬虫是怎么工作的,即网络爬虫是怎么在网络上进行爬

4、行搜索,并将爬行到的网页,返回给服务器的。2.怎么将网络爬虫抓取到的数据进行处理,剔除那些垃圾信息。3怎么将网络爬虫与jquery ajax结合,并应用于OA系统之上。三、研究(工作)步骤、方法及措施(思路)1.研究步骤:第一阶段(2011.11.07-2011.11.24):分析课题内容,掌握相关理论基础,熟悉开发工具,撰写开题报告。第二阶段(2011.11.25-2011.12.25):对该系统进行需求分析,撰写需求文档,构建静态页面,设计数据库,收集相关资料,撰写外文翻译和文献综述。第三阶段(2011.11.26-2012.02.20):编写源代码,实现具体功能。第四阶段(2012.02

5、.21-2012.03.01):对系统进行全面的测试,精简代码,从各个方面完善系统,对界面的美观进行设计。第五阶段(2012.03.02-2012.03.11):撰写毕业设计论文,准备毕业设计的答辩。2.研究思路以理论为指导,实际开发为指引,按照软件开发规范,结合Spring、Struts 2、jquery、Ajax等技术系统规划,利用PowerDesigner设计数据库,统一代码规范,与其他相关的系统进行比较,通过测试对系统进行修改和完善,体会J2EE的系统开发优势。四、毕业论文(设计)提纲第一章是绪论,主要介绍网络爬虫的背景,发展历史以及简述网络爬虫的研究现状,通过对现有的搜索引擎网站的分

6、析,发现其中的不足点和待完善的地方。 第二章是具体分析网络爬虫的研究现状,主要包括网络爬虫的分类,具体功能,以及各种网络爬虫之间的对比和各种网络爬虫的搜索策略的分析。第三章是企联OA系统的需求分析,主要对该系统中网络爬虫模块的功能需求做详细的分析设计,确定自己应该开发哪一种网络爬虫。第四章是企联OA系统的数据库设计,分析网络爬虫模块的数据库以及其数据流程图,分析表的各字段并完成数据库的设计。第五章是企联OA系统的总体设计,详细介绍网络爬虫模块的具体实现及界面设计,并对一些关键性的代码给出相应的解析。第六章是总结,介绍在本次开发过程中所得的经验、感想最后是参考文献和致谢,介绍在论文和设计过程中所

7、参考的资料,以及对导师、同学表示感谢。五、主要参考文献1 罗刚,王振东,自己动手写网络爬虫M,北京:清华大学出版社,2010.10.2 王亮, 搜索引擎零距离:基于Ruby+Java搜索引擎原理与实现M, 清华大学出版社,2009.06.3 袁津生,李群主,搜索引擎基础教程M,清华大学出版社,2010.4 郭邦财, 蜜蜂群并行网页抓取系统, 软件导刊J,2011年 01期5 詹恒飞,杨岳湘,方宏, Nutch分布式网络爬虫研究与优化J, 计算机科学与探索, 2011年 01期6 管翠花,支持Ajax技术的Deep Web网络爬虫模型研究D,大连海事大学,2011-08-017 冯明远,深度网络

8、信息爬取关键技术研究与实现D,浙江大学,2010.04.128 梁萍,搜索引擎中网络爬虫及结果聚类的研究与实现D,中国科学技术大学,2011-08-159 龚秋艳,并行网络爬虫设计与实现D, 华东师范大学,2010-10-1510 于成龙,于洪波, 网络爬虫技术研究J, 东莞理工学院学报, 2011年 03期11 杨松梅,网络爬虫J,硅谷,2009年15期12 李琳琢,网络爬虫软件的研究与开发J,软件导刊,2011年05期13 (美)W. Bruce Croft,(美)Donald Metzler,(美)Trevor Strohman, information retrieval in pra

9、ctice M, 机械工业出版社,2009.14 Surya B. Yadav,A conceptual model for user-centered qualityinformation retrieval on the World Wide WebJ,J Intell Inf Syst,2010 15 JQuery-apiEB/OL.http:/ 年 月 日毕业设计(论文)工作指导小组意见:格式不够规范;选题的意义已经阐述明确;研究的主要内容明确,拟解决的主要问题清晰,研究内容具有一定的创新点;研究步骤安排合理,方法及措施不够得当;毕业论文(设计)提纲基本合理,主要参考文献不够规范,指导教师意见不够明确具体。 签名:2011年12月2日

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号