毕业设计--开题报告－金锄头文库

资源描述

《毕业设计--开题报告》由会员分享，可在线阅读，更多相关《毕业设计--开题报告（5页珍藏版）》请在金锄头文库上搜索。

1、毕业设计（论文）开题报告1. 课题的目的及意义（含国内外的研究现状分析或设计方案比较、选型分析等）网络爬虫，又被称为网页蜘蛛，是一种按照一定的规则，自动的抓取互联网信息的程序或者脚本，它为搜索引擎从互联网上下载网页，是搜索引擎的重要组成。随着网络技术的发展以及网络的普及化，互联网已经成为承载信息的一个巨大媒体，如何有效地提取并利用这些信息成为一个巨大的挑战。然而传统的通用搜索引擎的网络爬虫，一般是从几个种子URL链接开始进行全盘爬行，尽可能地获得网页，以及最大可能去遍历更多的网页，它往往存在着返回的结果包含大量用户不关心的网页，和难以支持根据语义信息提出的查询等局限。为了解决上述问

2、题，定向抓取相关网页资源的聚焦爬虫（即专业型的搜索引擎）应运而生。它根据既定的抓取目标，有选择的访问互联网上的网页与相关的链接，获取所需要的信息。与通用爬虫目标不同，聚焦爬虫并不追求大范围的覆盖，而是将目标定为抓取与某一特定主题内容相关的网页，为面向主题的用户查询准备数据资源。本课题研究的是“面向汽车色彩领域的聚焦爬虫设计与实现”属于专业搜索的范畴。在此范畴里，网络爬虫首先需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。其次，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程，直到达到系统的某一条件时停止。在此过

3、程中，如何评价和预测链接的“重要程度”是决定网络爬虫搜索策略的关键。对于这一问题，近年来学者们提出了以下的一些评价标准和模型。1994年，De Bra等人在提出了 Fish Search算法，它是最早的网络爬虫系统之一。它通过假设相关页面在逻辑上彼此接近，根据深度优先搜索算法，利用一组关键词和短语来判断页面的相关程度。但由于其搜索范围存在随机性，导致搜索时间过长。针对这些不足，Herseovic对Fish系统进行了改进，将“鲨鱼算法引入网络蜘蛛的搜索策略，把链接的上下文信息（包括链接和文本）作为计算的重要因素来帮助决定待访问的链接对于特定主题的文档相关性。1998年，L.Page

4、， S.Brin提出一种基于链接的评价体系，即PageRank算法。PageRank 算法最初用于Google搜索引擎信息检索中对查询结果的排序过程，近年来也被应用于网络爬虫对链接重要性的评价。基于PageRank算法的网络爬虫在搜索过程中通过计算每个已访问页面的PageRank值来确定页面的价值，并优先选择PageRank值大的页面中的链接进行访问。但其不足就是忽略了主题相关，导致结果的相关性和结果偏离。同年，J. Kleinberg提出了 HITS算法，该算法是利用Hub/Authority方法的搜索方法，它通过每个已经访问的链接，计算其Authority权重和Hub权重，以达到决

5、定链接的访问次序的目的。该算法最大的弱点是处理不好主题漂移问题，即紧密连接TKC（Tightly-Knit Community Effect）现象，而且进行窄主题查询时，可能产生主题泛化问题。2000年，R. Lempel和S. Moran提出了 SALSA算法，与基于链接的评价体系的PageRank 算法，和利用Hub/Authority方法的HITS算法不同，它考虑了用户回退浏览网页的情况，保留了 PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想，取消了 Authoritive 和Hub之间的相互加强关系，从而解决了 TKC问题。D. Cohn an

6、d H. Chang提出了计算Hub和Authority的统计算法PHITS，PHITS算法使用 Dempster等提出的EM算法分配未知的条件概率使得可能性函数最大化，也就是最好的解释了网页之间的链接关系，但此方法可能会收敛于局部的最大化，而不是真正的全局最大化。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法，不是从查询项或者主题出发，经过算法处理来得到结果网页，而是输入为某个网页的URL地址，输出为一组主题，网页在这些主题上有声望（repution）。它可以说是PageRank和SALSA算法的结合体。以上这些算法有的处于研究

7、阶段，有的已经在具体的系统实现了。选择不同的策略去评价网路爬虫获得的网页，将得到不同质量的结果。本课题将对其中一个或者多个进行实现，并通过实验数据来对不同的方法进行评价和比较。随着我国经济的飞速发展，国民生活水平的提高，对汽车的需求也越来越大，据中国汽车工业协会统计分析，2013年12月，汽车产销保持稳定增长，当月产销再创月度新高。2013 年，汽车产销双双超过2000万辆，增速大幅提升，高于年初预计，并且再次刷新全球记录，已连续五年蝉联全球第一。而颜色是一辆汽车给人的第一个感官刺激，就像穿衣服一样，汽车的颜色也反映了车主的品位与个性。然而对汽车颜色的选择，不能完全由流行时尚所决定,

8、汽车的大小，地域特点，驾驶安全等问题，也可能是决定购买何种颜色的汽车的关键因素，根据自身的情况合理选择才是长久之计。因此基于购车用户的需求，设计一套切实可行的搜索算法，将用户最想关注的质量高的网页展现给用户，将彻底改变用户的体验，这对汽车行业的发展和用户体验都具有重要的意义。2. 课题任务、重点研究内容、实现途径主要内容：网络爬虫Crawler，采用多线程并发搜索技术，在互联网中访问各节点，定期搜索信息，抓取网页，并根据网络链接提取其他网页，对网页进行分析，提取关键词、URL 等信息。本课题不局限于具体的开发技术（.NET或Java），旨在深入了解网络爬虫涵义的基础上利用所学编程技

9、术，实现一个面向汽车色彩领域的网络爬虫原型。课题的主要任务和工作如下：1）深入学习网络爬虫涵义和所涉及的基本技术；2）深入分析一般的网络爬虫所具备的基本功能，如下载咼质量的网页，认证，判断己经下载的网页与主题的相关性，决定待爬行URL的访问次序等；3）在对网络爬虫功能需求深入分析和了解的基础上，可针对汽车色彩领域，利用.NET/Java、开源web爬虫等技术和平台开发设计出一个面向汽车色彩领域的爬虫原型。重点研究技术：1）网络爬虫多线程并发搜索技术：为了提高爬取性能，应采用多线程并发搜索，多个线程共享一个URL队列，顺序地从队列中获取URL,然后每个线程单独处理网页的抓取，下载，分析

10、链接工作，提高并发度。2）网页搜索策略：网页的抓取策略可以分为三种：深度优先、广度优先和最佳优先。目前常见的是广度优先和最佳优先，而深度优先搜索策略，在很多情况下会引发爬虫的陷入问题。3）网页分析和URL提取技术：我们比较容易提取出静态的html网页内容，但WWW上有80%的Web页面是动态网页，它们通常是由网站的后台数据库通过某种通用的模板构成，如何从动态网页中抽取信息是一大难题。4）网页去重：去重的基本方法是计算页面特征关键词指纹，即从页面主题内容中选取最具代表性的一部分关键词，计算这些关键词的数字指纹，可通过布隆过滤器来判定网页是否被下载过。5）网页分析算法：PageRank

11、和HITS算法。6）文本分类算法：文本分类大致有两种方法：一种是基于训练集的文本分类方法；另一种是基于分类词表的文本分类方法。7）分词算法：分词算法可分为三大类：基于字符串匹配、基于理解和基于统计。8）TCP/IP 协议和 SQL。3、进度计划序号起止周次工作内容11周至3周完成开题报告、译文及文献综述24周至4周需求分析、熟悉开发工具35周至8周系统分析与设计49周至14周程序设计、软件测试515周至17周整理软件文档，撰写毕业论文618周至18周毕业答辩学生签名：年月日4、指导教师意见指导教师签名：年月日参考文献1 周立柱，林玲.聚焦爬虫技术研究综述【J】.计算机应用，2005,

12、 (09).2 欧阳柳波，李学勇，李国徽，et al.网络蜘蛛搜索策略进展研究【J】.小型微型计算机系统，2005，(04).3 王灏，黄厚宽，田盛丰.文本分类实现技术J】.广西师范大学学报(自然科学版)2003,(01).4 王伟强，高文，段立娟 Intemet上的文本数据挖掘【J】.计算机科学，2000，(04).5 陈杰.主题搜索引擎中网络蜘蛛搜索策略研究【硕士】.浙江大学，2006 .刘林，汪涛，樊孝忠.主题爬虫的解决方案【J】.华南理工大学学报(自然科学版)2004,(S1).7 吕昊，面向垂直搜索的聚焦爬虫研究及应用，硕士学位论文，浙江大学,2008.8 郑健珍，定题爬虫搜索策略

13、研究，硕士学位论文，厦门大学,2007.9 陈奋，过滤型网络爬虫的研究与设计，硕士学位论文，厦门大学,2007.10 Chakrabarfi S，van den Berg M, Dom B . Focused crawling： A new approach to topic一specificWeb resouroe discovery【J 】.In Proceedings of 8th International World Wide Web Conference(www8), 1 999 .11 Albert-Lfiszl6 Barabfisi. Emergence of Scaling

14、in Complex Networks. Science, 1999.12 Serge Abiteboal, Mihai Preda,Gregory Cobena . Adaptive On-Line Page Importance Computation. World Wide Web 2003, 280一290.13 Taher H. Haveliwala. Topic-sensitive PageRank. Wodd Wide Web 2002.14 Lu Jianguo, Wang Yan, Liang Jie, Chen Jessica, Liu Jiming. An Approach to Deep Web Crawling by Sampling. 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008,Page(s):718-724.15 Jayant Madhavan, David Ko,etc. Googles Deep Web crawl. Proceedings of the VLDB Endowment, 1(2): 1241-1252, 2008.

展开阅读全文