毕业设计--开题报告

上传人:公**** 文档编号:564908990 上传时间:2023-07-29 格式:DOCX 页数:5 大小:17.46KB
返回 下载 相关 举报
毕业设计--开题报告_第1页
第1页 / 共5页
毕业设计--开题报告_第2页
第2页 / 共5页
毕业设计--开题报告_第3页
第3页 / 共5页
毕业设计--开题报告_第4页
第4页 / 共5页
毕业设计--开题报告_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《毕业设计--开题报告》由会员分享,可在线阅读,更多相关《毕业设计--开题报告(5页珍藏版)》请在金锄头文库上搜索。

1、毕业设计(论文)开题报告1. 课题的目的及意义(含国内外的研究现状分析或设计方案比较、选型分析等)网络爬虫,又被称为网页蜘蛛,是一种按照一定的规则,自动的抓取互联网信息的程序或 者脚本,它为搜索引擎从互联网上下载网页,是搜索引擎的重要组成。随着网络技术的发展 以及网络的普及化,互联网已经成为承载信息的一个巨大媒体,如何有效地提取并利用这些 信息成为一个巨大的挑战。然而传统的通用搜索引擎的网络爬虫,一般是从几个种子URL链 接开始进行全盘爬行,尽可能地获得网页,以及最大可能去遍历更多的网页,它往往存在着 返回的结果包含大量用户不关心的网页,和难以支持根据语义信息提出的查询等局限。为了 解决上述问

2、题,定向抓取相关网页资源的聚焦爬虫(即专业型的搜索引擎)应运而生。它根 据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,获取所需要的信息。与通 用爬虫目标不同,聚焦爬虫并不追求大范围的覆盖,而是将目标定为抓取与某一特定主题内 容相关的网页,为面向主题的用户查询准备数据资源。本课题研究的是“面向汽车色彩领域的聚焦爬虫设计与实现”属于专业搜索的范畴。在 此范畴里,网络爬虫首先需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的 链接并将其放入等待抓取的URL队列。其次,它将根据一定的搜索策略从队列中选择下一步 要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。在此过

3、程中,如何 评价和预测链接的“重要程度”是决定网络爬虫搜索策略的关键。对于这一问题,近年来学 者们提出了以下的一些评价标准和模型。1994年,De Bra等人在提出了 Fish Search算法,它是最早的网络爬虫系统之一。它通过 假设相关页面在逻辑上彼此接近,根据深度优先搜索算法,利用一组关键词和短语来判断页 面的相关程度。但由于其搜索范围存在随机性,导致搜索时间过长。针对这些不足,Herseovic对Fish系统进行了改进,将“鲨鱼算法引入网络蜘蛛的搜 索策略,把链接的上下文信息(包括链接和文本)作为计算的重要因素来帮助决定待访问的链接 对于特定主题的文档相关性。1998年,L.Page

4、, S.Brin提出一种基于链接的评价体系,即PageRank算法。PageRank 算法最初用于Google搜索引擎信息检索中对查询结果的排序过程,近年来也被应用于网络爬 虫对链接重要性的评价。基于PageRank算法的网络爬虫在搜索过程中通过计算每个已访问页 面的PageRank值来确定页面的价值,并优先选择PageRank值大的页面中的链接进行访问。 但其不足就是忽略了主题相关,导致结果的相关性和结果偏离。同年,J. Kleinberg提出了 HITS算法,该算法是利用Hub/Authority方法的搜索方法,它 通过每个已经访问的链接,计算其Authority权重和Hub权重,以达到决

5、定链接的访问次序的 目的。该算法最大的弱点是处理不好主题漂移问题,即紧密连接TKC(Tightly-Knit Community Effect)现象,而且进行窄主题查询时,可能产生主题泛化问题。2000年,R. Lempel和S. Moran提出了 SALSA算法,与基于链接的评价体系的PageRank 算法,和利用Hub/Authority方法的HITS算法不同,它考虑了用户回退浏览网页的情况,保 留了 PageRank的随机漫游和HITS中把网页分为Authoritive和Hub的思想,取消了 Authoritive 和Hub之间的相互加强关系,从而解决了 TKC问题。D. Cohn an

6、d H. Chang提出了计算Hub和Authority的统计算法PHITS,PHITS算法使用 Dempster等提出的EM算法分配未知的条件概率使得可能性函数最大化,也就是最好的解释 了网页之间的链接关系,但此方法可能会收敛于局部的最大化,而不是真正的全局最大化。多伦多大学计算机系Alberto Mendelzon, Davood Rafiei提出了一种反向的算法,不是从查 询项或者主题出发,经过算法处理来得到结果网页,而是输入为某个网页的URL地址,输出 为一组主题,网页在这些主题上有声望(repution)。它可以说是PageRank和SALSA算法的 结合体。以上这些算法有的处于研究

7、阶段,有的已经在具体的系统实现了。选择不同的策略去评 价网路爬虫获得的网页,将得到不同质量的结果。本课题将对其中一个或者多个进行实现, 并通过实验数据来对不同的方法进行评价和比较。随着我国经济的飞速发展,国民生活水平的提高,对汽车的需求也越来越大,据中国汽 车工业协会统计分析,2013年12月,汽车产销保持稳定增长,当月产销再创月度新高。2013 年,汽车产销双双超过2000万辆,增速大幅提升,高于年初预计,并且再次刷新全球记录, 已连续五年蝉联全球第一。而颜色是一辆汽车给人的第一个感官刺激,就像穿衣服一样,汽 车的颜色也反映了车主的品位与个性。然而对汽车颜色的选择,不能完全由流行时尚所决定,

8、 汽车的大小,地域特点,驾驶安全等问题,也可能是决定购买何种颜色的汽车的关键因素, 根据自身的情况合理选择才是长久之计。因此基于购车用户的需求,设计一套切实可行的搜 索算法,将用户最想关注的质量高的网页展现给用户,将彻底改变用户的体验,这对汽车行 业的发展和用户体验都具有重要的意义。2. 课题任务、重点研究内容、实现途径主要内容:网络爬虫Crawler,采用多线程并发搜索技术,在互联网中访问各节点,定期 搜索信息,抓取网页,并根据网络链接提取其他网页,对网页进行分析,提取关键词、URL 等信息。本课题不局限于具体的开发技术(.NET或Java),旨在深入了解网络爬虫涵义的基础 上利用所学编程技

9、术,实现一个面向汽车色彩领域的网络爬虫原型。课题的主要任务和工作 如下:1)深入学习网络爬虫涵义和所涉及的基本技术;2)深入分析一般的网络爬虫所具备的基本功能,如下载咼质量的网页,认证,判断己 经下载的网页与主题的相关性,决定待爬行URL的访问次序等;3)在对网络爬虫功能需求深入分析和了解的基础上,可针对汽车色彩领域,利用.NET/Java、开源web爬虫等技术和平台开发设计出一个面向汽车色彩领域的爬虫 原型。重点研究技术:1)网络爬虫多线程并发搜索技术:为了提高爬取性能,应采用多线程并发搜索,多个线 程共享一个URL队列,顺序地从队列中获取URL,然后每个线程单独处理网页的抓 取,下载,分析

10、链接工作,提高并发度。2)网页搜索策略:网页的抓取策略可以分为三种:深度优先、广度优先和最佳优先。目 前常见的是广度优先和最佳优先,而深度优先搜索策略,在很多情况下会引发爬虫的 陷入问题。3)网页分析和URL提取技术:我们比较容易提取出静态的html网页内容,但WWW上 有80%的Web页面是动态网页,它们通常是由网站的后台数据库通过某种通用的模板 构成,如何从动态网页中抽取信息是一大难题。4)网页去重:去重的基本方法是计算页面特征关键词指纹,即从页面主题内容中选取最 具代表性的一部分关键词,计算这些关键词的数字指纹,可通过布隆过滤器来判定网 页是否被下载过。5)网页分析算法:PageRank

11、和HITS算法。6)文本分类算法:文本分类大致有两种方法:一种是基于训练集的文本分类方法;另一 种是基于分类词表的文本分类方法。7)分词算法:分词算法可分为三大类:基于字符串匹配、基于理解和基于统计。8)TCP/IP 协议和 SQL。3、进度计划序号起止周次工作内容11周至3周完成开题报告、译文及文献综述24周至4周需求分析、熟悉开发工具35周至8周系统分析与设计49周至14周程序设计、软件测试515周至17周整理软件文档,撰写毕业论文618周至18周毕业答辩学生签名:年 月 日4、指导教师意见指导教师签名:年 月 日参考文献1 周立柱,林玲.聚焦爬虫技术研究综述【J】.计算机应用,2005,

12、 (09).2 欧阳柳波,李学勇,李国徽,et al.网络蜘蛛搜索策略进展研究【J】.小型微型计算机系 统,2005,(04).3 王灏,黄厚宽,田盛丰.文本分类实现技术J】.广西师范大学学报(自然科学版)2003,(01).4 王伟强,高文,段立娟 Intemet上的文本数据挖掘【J】.计算机科学,2000,(04).5 陈杰.主题搜索引擎中网络蜘蛛搜索策略研究【硕士】.浙江大学,2006 .刘林,汪涛,樊孝忠.主题爬虫的解决方案【J】.华南理工大学学报(自然科学版)2004,(S1).7 吕昊,面向垂直搜索的聚焦爬虫研究及应用,硕士学位论文,浙江大学,2008.8 郑健珍,定题爬虫搜索策略

13、研究,硕士学位论文,厦门大学,2007.9 陈奋,过滤型网络爬虫的研究与设计,硕士学位论文,厦门大学,2007.10 Chakrabarfi S,van den Berg M, Dom B . Focused crawling: A new approach to topic一specificWeb resouroe discovery【J 】.In Proceedings of 8th International World Wide Web Conference(www8), 1 999 .11 Albert-Lfiszl6 Barabfisi. Emergence of Scaling

14、in Complex Networks. Science, 1999.12 Serge Abiteboal, Mihai Preda,Gregory Cobena . Adaptive On-Line Page Importance Computation. World Wide Web 2003, 280一290.13 Taher H. Haveliwala. Topic-sensitive PageRank. Wodd Wide Web 2002.14 Lu Jianguo, Wang Yan, Liang Jie, Chen Jessica, Liu Jiming. An Approach to Deep Web Crawling by Sampling. 2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology, 2008,Page(s):718-724.15 Jayant Madhavan, David Ko,etc. Googles Deep Web crawl. Proceedings of the VLDB Endowment, 1(2): 1241-1252, 2008.

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号