基于关键词的网页检索和排序【开题报告】

上传人:大**** 文档编号:150519674 上传时间:2020-11-06 格式:DOC 页数:4 大小:31.50KB
返回 下载 相关 举报
基于关键词的网页检索和排序【开题报告】_第1页
第1页 / 共4页
基于关键词的网页检索和排序【开题报告】_第2页
第2页 / 共4页
基于关键词的网页检索和排序【开题报告】_第3页
第3页 / 共4页
基于关键词的网页检索和排序【开题报告】_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《基于关键词的网页检索和排序【开题报告】》由会员分享,可在线阅读,更多相关《基于关键词的网页检索和排序【开题报告】(4页珍藏版)》请在金锄头文库上搜索。

1、毕业设计开题报告计算机科学与技术基于关键词的网页检索和排序一、 选题的背景与意义随着Internet的发展,整个网络正在不断累积成一个前所未有的超级大型数据库。面对如此海量存储的信息空间,快速获取所需的信息已成为信息时代最基本的问题。网页检索系统作为Internet上必不可少的信息资源检索工具,几乎每个网络用户都在使用它来寻找自己需要的信息。网页检索系统可以为用户进行网络导航,帮助用户在数以亿计的网络信息中快速查找所需的站点或网页,筛选出符合用户需求的有用信息。它是各类网络信息处理工具中比较稳定而最具效率的部分。网页检索系统是引领我们在浩瀚的网络信息资源中寻找真正所需的重要工具。在最近几年里,

2、WWW更是得到了长足的发展。全球的域名都7690万个了,要说网站应该少于这个数,但要说加入互联网的计算机那就没办法数了,网页更是天方夜谭。那么用户如何在浩瀚如海的信息空间里,快速查找并获取所需的信息,已成为这新的信息时代里最根本的问题之一。这就需要形成一些网页的信息检索系统,它是在互联网产生后伴随着网上用户快速查询信息的需求而产生的新生事物,即提供信息检索服务的计算机系统,检索的对象包括互联网的站点、新闻组中的文章、软件存放的地址及作者、某个企业和个人的主页等,我们难以想象没有网页检索系统,人们如何在浩瀚无边、拥有着各种各样信息的因特网上冲浪。大大缓解了这个矛盾,它为人们大大缩短了浪费无用功的

3、时间,让人们尽快地得到了自己所需要的信息和服务。二、 研究的基本内容与拟解决的主要问题目标是要用智能的方式查找网页,只要给出想要用户输入的关键词,就能够从可获得的网页中选择优先服务满足用户的要求。预定想解决的问题:1如何确定网页优先权。2如何衡量用户输入的关键词与网页的相关度。3如何计算用户输入的关键词与网页的相关度。4如何得到网页的的排序。网页的优先权通过用户输入的关键词与网页的相关度来体现假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高。(2)如何得到网页的排序网页的排序通过相关度的的计算,按相关度从高到低进行排序输出。三、 研究的方法与技术路

4、线:一抓取网页1.用HtmlParser抓取所需网页并保存为文本。二分词1.对网页文本进行分词并保存到对应的分词文本。2对输入的请求进行分词。三相关度的计算1.对网页文件构造向量空间模型,将输入汉字串向量中的每一项作为网页向量中的项,然后对输入汉字串向量中的每一项,查找网页的二元分词表根据每一项在分此表中出现的次数,来构造网页的向量。2. 对输入向量和网页向量进行相关度匹配采用夹角余弦计算方法作为相关性的计算。夹角余弦计算法:向量空间模型VSM是近年来使用较多且效果较好的一种信息检索模型。在VSM中,将文档看作是由相互独立的词条组(T1,T2,Tn)构成,对于每一词条Ti都根据其再文档中的重要

5、程度赋予一定权值Wi,并将T1.T2Tn看成一个n维坐标系中的坐标轴,W1,W2.Wn为对应的坐标值。这样由(T1,T2,.Tn)分解而得到的正交词条矢量组就构成一个文档向量空间,文档则映射成为空间中的一个点。对于所有文档和用户查询都可映射到此文档向量空间,用词条矢量(T1,W1,T2,W2.Tn,Wn)来表示,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题.假设用户查询为Q被检索文档为D两者的相关程度可用向量之间的夹角来度量,夹角越小,说明相关度越高,相关度计算公式如下 四按相关度的高低进行排序输出相关度计算的得出结果在(0,1)。越接近1说明相关度越高,则排在前面。程序开发: My

6、eclipse四、 研究的总体安排与进度: 截止时间要求完成的工作2010-11-202010-11-26在老师指导下进行毕业设计选题2010-11-272010-11-28明确课题的目标和内容及做好相应技术准备2010-11-292010-12-6下发毕业设计课题任务书2010-12-132010-12-19学生撰写开题报告2010-12-202010-12-26完成开题答辩2010-12-272011-1-31查找文献,完成文献综述和翻译2011-2-12011-4-30完成课题主要内容并进行实验验证2011-5-12011-5-20撰写毕业设计论文,整理材料,毕业设计论文完善,修改及定稿

7、2011-5-212011-5-31完成毕业论文答辩五、主要参考文献:【1】 Papazoglou M P, Traverso P, Dustdar S. et al. Service-oriented computing: State of the art and research challengesJ. Computer, 2007, 3: 3845.【2】 E. Voorhees. Overview of the TREC - 9 Question Answering Track A . In : Proceedings of the 9th Text Retrieval Con fe

8、rence (TREC9) C , NIST, G aithersburg , MD ,2000 ,71 - 80.【3】 SWARTZ A. MusicBrainz. A Semantic Web ServiceJ. IEEE Intelligent Systems, 2002, 17(1):7677【4】 罗三定,黄勇.一个应用模糊方法的智能搜索引擎的构建,计算机工程,2000,26(12):113-115【5】 廖明宏,程光明,吴翔虎.一个WWW智能搜索引擎,计算机应用研究,2001,5:29-31【6】 崔桓 ,蔡东风 ,苗雪雷.问答系统中疑问句理解的分析研究A .中国人工智能进展C ,北京邮电大学出版社 ,2003 ,11 ,1023 - 1027【7】 张钋,徐剑军,李涓子,王克宏. WODOS:一个语义Web支撑软件的研究与实现. 小型微型计算机系统,2004,25(11): 19651969【8】 陈新明.搜索引擎中的信息采集技术的研究与改进D 上海:复旦大学 2002【9】 贾自艳.中文智能搜索引擎关键技术研究D 北京:北京工业大学 2001【10】 赵喜鸿.一个面向Web的个性化智能搜索系统的研究与应用D 上海:东华大学2001

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 开题报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号