信息组织存储与检索论文

资源描述

《信息组织存储与检索论文》由会员分享，可在线阅读，更多相关《信息组织存储与检索论文（5页珍藏版）》请在金锄头文库上搜索。

1、南京理工大学泰州科技院课程论文课程名称：信息组织、存储与检索论文题目：自动文摘技术的研究班级： 11信管学号： 1109120102 姓名：戴慧娴指导教师：汪雪蔚 2014 年1 月6日自动文摘技术的研究（南京理工大学泰州科技学院 11信管 1109120102 戴慧娴）【摘要】随着互联网的快速发展，搜索引擎的应用已经变得非常广泛，Web是一个巨大的信息资源库,提供了各种各样的信息服务,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外

2、,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HTIS是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。本文在简要介绍Web链接分析技术的基础上,深入分析了HITS算法的优缺点,通过对HITS主要缺点主题漂移的分析研究,通过对搜索引擎的算法设计思想及原理的了解，将更加有助于提供高我们的信息检索能力【关键词】HITS算法，搜索引擎，权威网页，中心网页；概述数据的预处理是对Web上的数据检索后进行的数据预处理, 为数据挖掘模块提供挖掘所需要的数据。确定挖掘主题后，可使

3、用Google的Web API, 利用JBuilder实现对Google的巨大Web索引的搜索。但是, 用户的一个查询请求往往会检索出庞大的结果集, 而用户所需要的只是其中很小一部分, 面对如此多的结果, 用户仍然不知所措。所以必须用HITS算法来确定权威Web页面, 这样就可以有效地去除无效网页。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商业或竞争因素考虑，很少有WEB网页指向其竞争领域的权威网页（“Microsoft” 和 “Netscape”都是浏览器的权威主页，但并不互指），权威网页很少具有显式的描述（如Google主页不会明确给出WE

4、B搜索引擎之类的描述信息），PageRank算法中对于向外链接的权值贡献是平均的，HITS算法考虑了不同链接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法：l Authority 页面(权威页面)：是指与某个领域或者某个话题相关的高质量网页；l Hub页面(枢纽页面)：指的是包含了很多指向高质量“Authority”页面链接的网页。HITS算法对web的链接结构进行挖掘,从而发现相关的web communities,包括Authorities和Hubs。Authorities是那些与给定查询主题的上下文最为相关并具有权威性的网页；而Hubs则是那些本身的内容虽

5、然未必具有权威性、但却包含了多个指向Authorities的超链接的网页。对于大部分主题来说,最为有力的Authorities,其相互之间往往不存在任何链接,因此它们常常只被一些作为它们之间的中间层的、相对而言不怎么有名的Hubs网页所链接。对这两种类型的网页的提取可以通过循环执行以下操作来完成：一根集合(root set)将查询q提交给基于关键字查询的检索系统，从返回结果页面的集合总取前n个网页作为根集合，记为root，则root满足：1. root中的网页数量较少；2. root中的网页是与查询q相关的网页；3. root中的网页包含较多的权威(Authority)网页；二扩展集合ba

6、se在根集root的基础上，凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base。三计算扩展集base中所有页面的Hub值（中心度）和Authority值（权威度）1. 网页i的Authority值a (i) = h (i) ；2. 网页i的Hub值h (i) = a (i) ；3. 对a (i)、h (i)进行规范化处理：a (i) = a (i)/|a(i)| ；h (i) = h (i)/ |h(i)| ；4. 不断重复，若权值没有明显变化，则结束计算；四输出排序结果：将页面根据Authority权值得分由高到低排序，取权值最高的若干页面作为响应用户查询的搜索结果输出。基本思想

7、：一个好的” Authority”页面会被很多好的” Hub ”页面指向；一个好的” Hub”页面会指向很多好的” Authority”页面；合起来趋向于形成如图：AuthoritiesHubs 三HITS算法中存在的问题HITS算法虽然在某些查询主题下能够较为准确地提取出权威网页, 但仍存在在一些场合中会使得算法发生严重的“主题漂移”的现象 (authorities集中到一些链接稠密的非相关网页的现象被称为“主题漂移”问题)。该现象的出现说明在传统HITS算法中仍存在一些缺点, 这就要求对传统HITS算法进行改进, 以使其具有更为广泛的适用性, 提高权威页面搜索的效率。四 HITS算法的改进

8、迭代过程中尽量向根集投影：仔细观察HITS算法的第(4)步和第(5)步, 便会发现传统的HITS算法之所以会出现“主题漂移”现象, 就是因为它从主特征向量中所提取的权威网页组, 虽然其内部链接关系最为稠密, 但是该组网页与根集的关系却最小, 即和原查询主题的关联程度非常小。也就是说传统的HITS算法是基于权威值迭代的算法, 如果根集中存在着与主题不相关的一组稠密网页相连接的网页, 那么, 那组内部链接稠密的网页就会使得该组网页的权值在HITS算法的运行过程中不公平地迅速增加, 使得结果不可避免地向该组网页集中。为了避免这种情形的发生, 就应该考虑从其它非主特征向量中提取不同的、虽然内部链接并不

9、是最为稠密、但与根集关系却更为密切的权威网页组。五结束语HITS算法是web结构挖掘中的重要算法之一,针对该算法存在的一些问题，许多学者提出了各种改进算法，且这些改进算法还在不断研究发展中。通过改进的HITS算法%可以获得高的查询精确度，当然，也可能增加了算法的复杂度。如何改进HITS算法，使其具有较高查准率和查全率，同时又能降低算法的复杂度，这应是HITS算法研究的方向。参考文献：【1】陈次白,丁晟春等.信息检索与存储技术（第二版）.北京：国防工业出版社.2008【2】黄如花.网络信息的检索与利用.武汉：武汉大学出版社.2002【3】蒲秋菊.基于XML的Web数据挖掘技术的研究D.武汉:武汉大学, 2004.【4】吴共庆, 陈恩红. 一种基于XML的半结构化数据存储方法研究J.计算机工程, 2004(4).【5】刘洋.基于Web的内容挖掘技术研究D.哈尔滨:哈尔滨工业大学, 2003.

展开阅读全文

信息组织存储与检索论文

最新文档