信息组织存储与检索论文

上传人:飞****9 文档编号:129087525 上传时间:2020-04-22 格式:DOC 页数:5 大小:66.01KB
返回 下载 相关 举报
信息组织存储与检索论文_第1页
第1页 / 共5页
信息组织存储与检索论文_第2页
第2页 / 共5页
信息组织存储与检索论文_第3页
第3页 / 共5页
信息组织存储与检索论文_第4页
第4页 / 共5页
信息组织存储与检索论文_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

《信息组织存储与检索论文》由会员分享,可在线阅读,更多相关《信息组织存储与检索论文(5页珍藏版)》请在金锄头文库上搜索。

1、南京理工大学泰州科技院课程论文课程名称: 信息组织、存储与检索论文题目: 自动文摘技术的研究 班 级: 11信管 学 号: 1109120102 姓 名: 戴慧娴 指导教师: 汪雪蔚 2014 年1 月6日自动文摘技术的研究(南京理工大学泰州科技学院 11信管 1109120102 戴慧娴)【摘要】随着互联网的快速发展,搜索引擎的应用已经变得非常广泛,Web是一个巨大的信息资源库,提供了各种各样的信息服务,如何有效的从Web获取所需信息变得越来越重要。为此,在Web这样的分布式环境中找到有价值的信息,并从中提取出知识内容已经成为目前信息检索、数据挖掘重要课题。用户不仅希望得到相关的Web页面外

2、,还希望检索到的页面具有高质量,即找到权威页面。网页的超链接是一个重要的研究途径,链接分析(即Web结构挖掘)的引入和应用为这些问题的解决提供了一条崭新的思路。HTIS是一种应用广泛的基于链接分析的权威资源提取算法,具有很高的研究价值。本文在简要介绍Web链接分析技术的基础上,深入分析了HITS算法的优缺点,通过对HITS主要缺点主题漂移的分析研究,通过对搜索引擎的算法设计思想及原理的了解,将更加有助于提供高我们的信息检索能力【关键词】HITS算法,搜索引擎,权威网页,中心网页;概述数据的预处理是对Web上的数据检索后进行的数据预处理, 为数据挖掘模块提供挖掘所需要的数据。确定挖掘主题后,可使

3、用Google的Web API, 利用JBuilder实现对Google的巨大Web索引的搜索。但是, 用户的一个查询请求往往会检索出庞大的结果集, 而用户所需要的只是其中很小一部分, 面对如此多的结果, 用户仍然不知所措。所以必须用HITS算法来确定权威Web页面, 这样就可以有效地去除无效网页。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商业或竞争因素考虑,很少有WEB网页指向其竞争领域的权威网页(“Microsoft” 和 “Netscape”都是浏览器的权威主页,但并不互指),权威网页很少具有显式的描述(如Google主页不会明确给出WE

4、B搜索引擎之类的描述信息),PageRank算法中对于向外链接的权值贡献是平均的,HITS算法考虑了不同链接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法:l Authority 页面(权威页面):是指与某个领域或者某个话题相关的高质量网页;l Hub页面(枢纽页面):指的是包含了很多指向高质量“Authority”页面链接的网页。HITS算法对web的链接结构进行挖掘,从而发现相关的web communities,包括Authorities和Hubs。Authorities是那些与给定查询主题的上下文最为相关并具有权威性的网页;而Hubs则是那些本身的内容虽

5、然未必具有权威性、但却包含了多个指向Authorities的超链接的网页。对于大部分主题来说,最为有力的Authorities,其相互之间往往不存在任何链接,因此它们常常只被一些作为它们之间的中间层的、相对而言不怎么有名的Hubs网页所链接。对这两种类型的网页的提取可以通过循环执行以下操作来完成:一根集合(root set)将查询q提交给基于关键字查询的检索系统,从返回结果页面的集合总取前n个网页作为根集合,记为root,则root满足:1. root中的网页数量较少;2. root中的网页是与查询q相关的网页 ;3. root中的网页包含较多的权威(Authority)网页; 二扩展集合ba

6、se在根集root的基础上,凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base。三计算扩展集base中所有页面的Hub值(中心度)和Authority值(权威度)1. 网页i的Authority值a (i) = h (i) ;2. 网页i的Hub值h (i) = a (i) ;3. 对a (i)、h (i)进行规范化处理:a (i) = a (i)/|a(i)| ;h (i) = h (i)/ |h(i)| ;4. 不断重复,若权值没有明显变化,则结束计算;四输出排序结果:将页面根据Authority权值得分由高到低排序,取权值最高的若干页面作为响应用户查询的搜索结果输出。基本思想

7、:一个好的” Authority”页面会被很多好的” Hub ”页面指向;一个好的” Hub”页面会指向很多好的” Authority”页面;合起来趋向于形成如图:AuthoritiesHubs 三HITS算法中存在的问题HITS算法虽然在某些查询主题下能够较为准确地提取出权威网页, 但仍存在在一些场合中会使得算法发生严重的“主题漂移”的现象 (authorities集中到一些链接稠密的非相关网页的现象被称为“主题漂移”问题)。该现象的出现说明在传统HITS算法中仍存在一些缺点, 这就要求对传统HITS算法进行改进, 以使其具有更为广泛的适用性, 提高权威页面搜索的效率。四 HITS算法的改进

8、迭代过程中尽量向根集投影:仔细观察HITS算法的第(4)步和第(5)步, 便会发现传统的HITS算法之所以会出现“主题漂移”现象, 就是因为它从主特征向量中所提取的权威网页组, 虽然其内部链接关系最为稠密, 但是该组网页与根集的关系却最小, 即和原查询主题的关联程度非常小。也就是说传统的HITS算法是基于权威值迭代的算法, 如果根集中存在着与主题不相关的一组稠密网页相连接的网页, 那么, 那组内部链接稠密的网页就会使得该组网页的权值在HITS算法的运行过程中不公平地迅速增加, 使得结果不可避免地向该组网页集中。为了避免这种情形的发生, 就应该考虑从其它非主特征向量中提取不同的、虽然内部链接并不

9、是最为稠密、但与根集关系却更为密切的权威网页组。五 结束语HITS算法是web结构挖掘中的重要算法之一,针对该算法存在的一些问题,许多学者提出了各种改进算法,且这些改进算法还在不断研究发展中。通过改进的HITS算法%可以获得高的查询精确度,当然,也可能增加了算法的复杂度。如何改进HITS算法,使其具有较高查准率和查全率,同时又能降低算法的复杂度,这应是HITS算法研究的方向。参考文献:【1】 陈次白,丁晟春等.信息检索与存储技术(第二版).北京:国防工业出版社.2008【2】 黄如花.网络信息的检索与利用.武汉:武汉大学出版社.2002【3】 蒲秋菊.基于XML的Web数据挖掘技术的研究D.武汉:武汉大学, 2004.【4】 吴共庆, 陈恩红. 一种基于XML的半结构化数据存储方法研究J.计算机工程, 2004(4).【5】 刘洋.基于Web的内容挖掘技术研究D.哈尔滨:哈尔滨工业大学, 2003.

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 学术论文 > 管理论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号