基于pagerank值的文本相似度改进模型

资源描述

《基于pagerank值的文本相似度改进模型》由会员分享，可在线阅读，更多相关《基于pagerank值的文本相似度改进模型（58页珍藏版）》请在金锄头文库上搜索。

1、湖北工业大学硕士学位论文基于PageRank值的文本相似度改进模型姓名：田浩申请学位级别：硕士专业：计算机应用技术指导教师： 20100501 湖北工业大学硕士学位论文 I 摘要搜索引擎做为互联网的核心技术之一，它对互联网发展的贡献是巨大的。搜索引擎的目的就是为了给用户提供高效的检索结果，也就是让用户更快、更全、更稳、更准的从复杂的万维网中找到自己所需要的信息。互联网的变化日新月异，为了满足用户日益变化的需求，搜索引擎所使用的各种技术也不断的在发展、进步。本文深入的研究了文本搜索引擎的原理和体系结构，以 Google 模式中的 PageRank

2、算法和 VSM 模型为重点，改进了 VSM 模型中使用广泛的词权重统计方法term frequency/inverse document frequency（TF/IDF 方法），提出了将 PageRank 值应用到文本分类中的新方法基于 PageRank 值的文本相似度改进模型。本文的主要工作包括：首先，考虑到网络的特殊环境，对词频的统计方法（TF 方法）进行改进，使改进后的词频能够更好的为检索本身服务。其次，对逆文本频率的计算（IDF 方法）进行改进，在计算逆文本频率的时候考虑不同文本类别的影响，使最终提取的信息对文本更有价值。然后，结合改进后的词频统计方法和逆文本频率计算

3、方法对文本相似度模型的流程进行改进。最后，对改进后的相似度模型进行验证，经过对大量的实验数据进行分析发现改进后的模型对提高搜索引擎的检索效果具有成效。在改进后的模型中先以 PageRank 值的大小为准则进行初步分类，然后考虑不同类别间的信息价值采用改进后的 TF/IDF 方法进行特征提取以计算相似度，最后进行相似度排序。为了使改进后的方法能够方便的应用到实际中，本文提出了构造中间件无缝衔接原系统的方案，并设计了相关的中间件用户接口。在实验阶段，先对人工选择的检索库进行初检索并统计检索结果，然后应用改进后的方法对检索结果进行二次检索，最后对两次检索结果进行比较和分析。在实验数

4、据的统计分析中，重点分析了两次检索结果的相关性、优异率、新词准确率等项目，实验结果表明：改进后的模型可以提高检索的整体效果，使用户更轻松的找到自己所需要的内容。关键词：关键词：搜索引擎；PageRank；向量空间模型；TF/IDF 湖北工业大学硕士学位论文 II Abstract As one of the core technology of the Internet, Search engines has made great contributions to the development of Internet. The purpose of search

5、engine users is to provide efficient search results, that is, allow users to faster, more comprehensive, more steady, more accurate from the complex World Wide Web to find the information they need. The Internet is changing rapidly, technology in Search engines must be constantly developed in order

6、to meet the changing needs of customers. This paper improved TF/IDF which has been widely used in the Vector Space Model (VSM) ,and proposed a new method which uses PageRank Value in Text Classification.The new method named as “A improved text similarity model based on PageRank value”. The main rese

7、arch of this article includes the following four points: 1. Taking into account the special circumstances of the network,we improved the statistical methods for word frequency (TF method), so that the word frequency can be better for the retrieval service. 2. Improved the calculation method of Inver

8、se text frequency(IDF method), considering the impact of different text types in calculating the Inverse text frequency,so that the final extracted information more valuable. 3. Combination of improved TF method and IDF method Improving vector similarity model. 4. Verified the improved model Vector

9、similarity After a large number of experimental data analysis found that the improved model can be contributed to the quality of retrieval efficiency. First of all,the improved model put the text into classification preliminarily,and then considering the different types of information use improved V

10、SM model to sort the text which have been classificationed In order to make the improve method applied into practice easily This paper presents a seamless structure to convergence the original system whice use of middleware,and design the related middleware User Interface. 湖北工业大学硕士学位论文 II

11、I In the experimental stage, steps are following:first of all,searching the artificial retrieval library and taking statistics of the results .secondly,using the improved method to search the results secondary. Finally, compareing and analyzing the two search results.Experimental analysis are focusi

12、ng on relevance, excellent rates and new word accuracy rate. Experimental results show that: the improved model can improve the retrieval effectiveness,which could enable users to find the content they need more easily. Keywords: Search Engine ;PageRank ;Vector Similarity Model.(VSM); TF/IDF 学位论文原创性

13、声明和使用授权说明原创性声明原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，独立进行研究工作所取得的研究成果。除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权湖北工业大学可以将本学位论文的全部或部分内容编入有

14、关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。学位论文作者签名：指导教师签名：日期：年月日日期：年月日湖北工业大学硕士学位论文 1 第一章引言 1.1 背景人类正处于这样一个时代：一个信息极度丰富的时代，一个可以从各种各样的媒体获得信息的时代，一个万维网获得巨大发展的时代，一个因为万维网而信息泛滥的时代。万维网 WWW(World Wide Web)做为互联网的主体己经成为一个巨大的、丰富的、分布广泛的和全球性的信息服务中心并逐渐渗透到人们的日常生活中，它为用户提供了各种各样的信息资源以及包罗万象的网络服

15、务。万维网不仅提供了海量的信息，并且日益丰富的网络服务也为人们的日常生活和工作提供了方便之门，然而，面对复杂而庞大的万维网，人们经常在信息的海洋中彷徨，在万维网迷宫般的复杂与魅力之间挣扎。如何从复杂而庞大的万维网迷宫中找到出路，如何从海量的信息和服务中找到自己的所需，曾经是困扰万维网发展的瓶颈之一。然而，搜索引擎这一技术的产生，使人们找到了走出“迷宫”的灯塔，使人们可以非常便捷地找到自己所需要的信息和服务，有效的解决了困扰万维网发展的瓶颈。搜索引擎的目的就是为了给用户提供高效的检索结果【1】，也就是让用户更快、更全、更稳、更准的从复杂的万维网中找到自己所需要的信息【2】

16、。以 Google 为代表的搜索引擎已经成为当前搜索引擎的主流技术，基于“Google”式搜索引擎的体系结构的研究以及对其所涉及的相关技术进行改进已经成为提高搜索引擎效果和能力的重要方法。本文的研究工作正是基于“Google”式搜索引擎的体系结构，主要对 Google 所使用的相似度模型进行改进以提高最终的检索效果。搜索引擎作为互联网的核心技术之一，它所涉及的知识是非常广泛的。从搜索引擎的目的来看，它属于信息检索的范围；从实现上来看，它需要进行数据挖掘；在解决互联网的复杂性方面，它离不开人工智能；从搜索引擎的部署和实施来看，它更是与 IT 服务的各种新兴技术密切相关。搜索引擎中主要技术的改革必然会带动整个行业的发展与进步。本章 1.2 节介绍信息检索与数据挖掘相关知识；1.3 节介绍搜索引擎的分类和发展史；1.4 节介绍本文主要研究内容；1.5 节介绍了本文的结构安排。湖北工业大学硕士学位论文 2 1.2 信息检索与数据挖掘 1.2.1 信息检索的产

展开阅读全文