新一代搜索引擎准确性收录技术的研究

资源描述

《新一代搜索引擎准确性收录技术的研究》由会员分享，可在线阅读，更多相关《新一代搜索引擎准确性收录技术的研究（5页珍藏版）》请在金锄头文库上搜索。

1、西北工业大学硕士学位论文新一代搜索引擎准确性收录技术的研究姓名闫峻申请学位级别硕士专业软件工程指导教师李孝安20060601摘要随着互联网用户对信息查询服务的性能需求应用通用搜索引擎往往不能及时、准确地得到用户所期望的信息。本文以“搜网”项目研发作为背景对新一代搜索引擎的准确性收录问题展开研究通过采用分行业的垂直门户搜索收录和大规模的客户互动提交数据相结合的收录思想以提高搜索引擎的准确性。首先对搜索引擎的准确性评价问题进行了研究。通过对典型搜索引擎的准确性评价指标体系的分析发现了这种评价存在众多不足提出了准确度的概念及量化评价指标为准确地评价搜索结果与用户需求的匹配性奠定了技术基础。然后对准确

2、性收录预处理技术进行了深入研究。针对搜索网站内容页的格式变动设计了具有自适应性的搜索预处理算法运用网页净化算法以获取需要的内容块来提高搜索收录中的准确性。再者依照“越受用户关注的网站数据越准确”的原则根据各个门户网站搜索结果的总体召回率和网站流量排名情况设计了准确性调整算法在最大的程度上满足用户对非休闲类信息数据的准确性收录需求。最后基于方法设计实现了一个分类的垂直门户搜索引擎原型系统。在“搜网”的应用实验表明搜索准确性得到了明显提高。关键词搜索引擎、垂直搜索、网页净化、准确性唧吐珊哪主印盯”卸仃触扭嗽锄“盯勰叫“”印趾血池够鲫舱粕王勰南鹤髓代缸锕传吮蛔仃习舱盯窨了“诏机西印拍“黟豁眦山舳铷咄

3、主】由眦咖弛】姒唧鹤乜盯印研究背景第一章绪论万维网自诞生以来发展迅速其中的信息资源以几何倍数的速度迅速膨胀已经逐步成为人们日常交流和获取信息的重要媒体甚至有人称之为除电视、报纸、广播之外的“第四媒体”。面对如此浩瀚的资源搜索引擎为所有网上冲浪的用户提供了一个入口它使用户可以快速便捷的获取、处理和利用互联网上的资源。但是随着信息多元化的增长千篇一律的给所有用户提供同一个入口显然己经不能满足特定用户更深入准确的查询需求同时在目前的软硬件条件下想通过通用搜索引擎来及时、准确地得到互联网上较全面的专用信息显然是不太可能的”。首先万维网的结构很复杂没有任何规则可言。万维网不像电网或电话网等那样有规则可循

4、它更加自由和灵活。万维网由以亿计的通过超链接联系在一起的网页所组成而这些网页又是由成千上万的相互之间没有任何协作关系的个体所组成。这使得人们很难、甚至不可能得到万维网的整体结构所以想通过整体结构来导航信息是不可能的。其次万维网上网页数量众多。由于踟僦的广泛性和开放性在万维网上发布信息极其容易而且不受任何限制任何单位、团体或者个人都可以自由的在网上建立自己的站点、自由的发布任何类型的信息。同时我们处在一个信息爆炸的时代这两者都加剧了万维网信息量的急剧膨胀。针对以上的难点和互联网广大的市场潜力各国都已经开展了大量的研究工作如获取网页数据技术、抽取网页信息技术等并且取得了相当大的成果。但是传统的搜索

5、引擎信息检索服务已经不能满足人们日益增长的对非休闲性信息的准确性需求。传统搜索引擎设计的目的在于满足普遍人群对“公共”信息查询的需要主要根据用户输入的查询串与索引页面匹配程度的高低返回页面而依靠用户自己在这些结果中进行筛选这种检索方式不但带回大量的无关页面而且准确程度大大的降低了根本无法满足用户尤其是特殊准确性需求用户群体的需要。面对这些挑战各类适用于特殊用户群体的搜索引擎也就应运而生。本文作者在曾经开发元搜索引擎的成功经验基础上依托公司已有的门户网站“西西北工业大学硕士学位论文第一章绪论安热线”的支持通过对使用者的调查和对网络上成功的搜索收录技术的研究在“以人为本”的开发理念的指引下提出了新

6、一代搜索引擎的概念并在数据收录思想和实践方法方面做了一定的探索。一个好的创意离开了市场那是没有太大意义的所以本文采用不是通用搜索引擎技术的一个重要原因在于与大块头的通用搜索巨头进行正面竞争?恰疤煺娴摹薄壳坝行矶嗾诳锥蔚拇怪笔谐屎衔颐抢缏糜巍何铩镜胤褚约捌怠衅浮康夭确掷嘈畔颜咝枰氖亲既贰子谩虻托省冶收呦嘈糯怪彼阉饕欢嶂鸩讲鲜场呕韧盟阉魉镜氖谐谕庋芯肯肿聪喽杂谕盟阉饕嫠娑宰既沸孕枨蠓矫娴奶粽酱怪彼阉饔硕酱怪彼阉骶褪钦攵阅骋桓鲂幸档淖邓阉饕媸撬阉饕娴南阜趾脱由焓嵌酝晨庵械哪忱嘧诺男畔幸淮握隙虻某槿鲂枰慕峁够萁写砗笤僖阅持中问椒祷馗没怪彼阉饕妗竞推胀耐盟阉饕娴淖畲笄鹗嵌酝承畔辛私峁够畔槿簿褪墙车姆墙峁

7、够莩槿商囟慕峁够畔荨乘阉魇且酝澄钚换谑泳醯耐撤治鍪且浴巴晨椤蔽钚欢怪彼阉魇且越峁够菸钚蝗缓蠼庑荽娲绞菘饨薪徊降募庸砣缛亍掷嗟茸詈笠蕴峁阉鞣竦姆绞铰阌没男枨蟆龉讨惺萦煞墙峁够谋臼莩槿山峁够菥疃燃庸砗笠苑墙峁够姆绞椒祷馗没怪彼阉饕娲筇迳闲枰韵录际跫际酢辰峁够畔槿际趸蛟莶杉际酢执屎退饕际酢渌畔砑际酢疚闹饕婕暗氖羌际鹾退阉餍畔章技际酢莆缰搿净虺婆佬姓摺硖逅娜挝袷腔袢趁婧途龆唇拥姆梦首夹硭右桓觥爸肿蛹比缬没檠肿恿唇踊蛑肿右趁娉龇缘姆绞椒梦室趁婧吞崛唇印谒阉鞴讨忻挥蟹梦使牧唇颖辉菔贝嬖谝桓龀莆八阉髑把亍钡亩恿兄型缰敫菟阉髑把刂辛唇拥闹匾潭壤淳龆乱桓鲆梦实牧唇印谙低呈亲钤绲淖盟阉饕嫱缰肽椭弧谙低呈且桓龌诳突

8、说氖凳毙畔焖飨低乘谙喙匾趁嬖诼呒媳舜讼喙氐募偕璨捎蒙钗鞅惫荡笱妒垦宦畚牡谝徽滦髀鄱扔畔人惴焖飨喙匾趁娌靡蛔楣丶屎投逃锱卸弦趁娴南喙匦浴摹蕖径孕蚕低辰辛烁慕惴胪缰氲乃阉鞑呗岳孟蛄靠占淠图扑阋趁姹嗨贫雀萘唇又芪谋炯壑岛土唇拥募坛屑壑稻龆畔燃逗团佬械纳疃取壤靡逊掷嗟氖道盗贩掷嗥骼春哿恳趁婧椭魈獾南嗨贫炔糜谥傅妓阉魉承颉！拷萄耙胪缰肽推渲饕氐闶抢霉萄暗姆椒脱裎蠢椿乇畲蟮牧唇咏兴阉鳌！看酉喙匾趁娉龇菇吧舷峦肌雹头掷嗥鞑萆舷挛牡牟愦卧饩嗬胂喙匾趁娴脑督辖囊趁娼显绶梦省！坎捎萌缂际踔浪阉鞯彼阉骶鹊陀谀骋辉榷宓姆凳痹蚪魈夥段龃笏阉魑蠢椿乇洗蟮牧唇印瘛旧杓屏讼低掣孟低郴诮惴乃枷肜靡蛔樽允视禾逅阉饕趁嫒禾骞婺婊肪

9、巢欢媳浠诙嗟耐缰肷杓聘饔胁幌嗤楦岬资遣捎貌煌牧唇蛹壑灯兰郾曜肌疚慕佑没兰鄣慕嵌瘸龇岢鏊阉鞣衿兰鄣男卤曜加糜谄兰郾疚牟捎玫男滤阉鞣椒母慕硗馓岢隽诵碌乃阉魇章挤绞接糜谔岣咚阉魇章冀峁淖既沸浴畚难芯康哪谌莺妥橹峁怪饕芯磕谌荼疚淖髡哂行以谖靼仓遣扑慵际跤邢薰竟鞑斡肓诵滤阉饕妗淹钅棵频难蟹鳌！八淹笔且桓龇中幸荡怪泵呕阉骱陀没萏峤幌嘟岷系乃阉饕妗导噬媳收呷衔挥腥斯牟斡氩趴梢哉嬲奶岣咝畔章嫉闹柿炕骱腿斯慕岷媳厝皇新一代搜索引擎收录信息的解决方案。论文围绕项目开发进行研究。主要研究工作及内容如下、本文通过对网络用户的调查针对用户反馈意见较大的提高搜索信息准确性的问题展开了研究提出了大规模人工互动数据提交和分行

10、业的垂直门户搜索的思路。、由于和通用全文搜索引擎的差异引入了典型搜索引擎的准确性评价提出了基于准确度的概念和量化评价指标更好的反映用户需求与搜索结果的精确匹配性而不是相关性度量为准确性收录系统的设计、实现和测试研究奠定西北工业大学硕士学位论文第一章绪论了技术基础。、针对曲网页中的“噪音”是影响提取网页内容的曲应用系统工作质量的问题本文中提出了一种网页净化的方法及相应算法该方法的特点在于不需要对待净化的网页的结构有任何先验的知识例如源于某个模板从而为网页内容提取模块增加一定的自适应能力。、为进一步提高收录数据的准确性本文设计使用了一个有反馈的准确收录模型。该模型结合垂直门户搜索的特点设计了一种级

11、结果集的结构用于根据各个信息来源网站信息质量的变动动态调整各个信息来源网站数据收录数量以提高搜索收录信息的整体准确性。、结合项目和多个同学以及公司技术人员的努力下实现了一个分行业的搜索系统原型并会继续努力尽早将其推入实际市场应用。其中、是论文重点研究的内容。论文组织结构本文首先对搜索引擎技术进行了综述。从搜索引擎的发展历史、搜索引擎原理、搜索引擎的收录技术分析【”、以用户为核心的评价标准的建立等方面对搜索引擎技术进行阐述。在第四章中提出虽然机器爬行收录代替人工收录是一种进步但其每条信息质量的大幅度降低作为了机器取代人的代价。实际上由于语言的复杂性在目前的技术水平环境下只有人工的参与可以提高信息

12、收录的质量机器和人工的结合将成为“搜网”解决信息准确性的解决方案当然我们不是靠有限的人工进行信息采集收录而是发动网民进行大规模的、规范性的互动另外加上机器的爬行从而形成新的收录结果。这一点是本文在搜索引擎收录思想方面的探索。关于人工数据提交的成功案例马云的成功证实了这一点的可行性。曲网页中的“噪音”是影响基于网页内容的数据提取模块工作质量的一个重要因素快速准确的清除网页中的噪音内容是提高这些模块服务质量的关键技术之一。本文中改进了一种网页净化的方法及相应算法进行数据采集前的预处理该方法的特点在于不需要对“待净化的网页”的结构有任何先验的知识例如源于某个模板从而使网页内容提取模块有一定的刍适应性

13、。该方法的技术要点基于如下观察垂直搜索收录是通过利用门户网站的搜索功能实现的搜索收录到的第一个的查询结果页面就是所有内容页面的模板。加上内容相似性的比较技术、网页标签层次结构带来的内容相关性的启示从而形成了一套从网页中提取专题内容滤搏噪音内容的方法。该方法应用到“搜网”的实践表明该思西北工业大学硕士学位论文第一章绪论路是有效的也是可实现的。没有信息与拥有无限多的信息结果也一样在无限多的信息中你就无法或难以找到对你真正有用的东西【】。所以笔者认为与其采集大量的无用信息不如有针对性的提供准确信息。为进一步提高收录数据的准确性本文抛弃了查全率的考虑尽可能提高信息的准确性从而设计了一个有反馈的准确收录

14、模型。该模型结合搜索引擎的特点设计了一种级结果集的结构提高了搜索引擎结果处理的准确性。在结果提取部分提出了根据对网站所提供信息的总体召回率和网站流量排名等信息自动调整准确度评价的算法在没有人工干预的情况下自动监视各独立门户网站的信息服务质量的变化并随之动态调整其准确度评价。依据各个门户网站的准确度评价依据“准确性好的网站多采集”的原则动态调整各个门户网站数据采集的数量从而在数据收录环节提高数据的准确性。本文各章的联系与全文的结构如图所示。图全文的结构图第二章搜索引擎综述在搜索引擎的技术发展过程中有许多的概念和理论也是一个逐步完善和进化的过程我们了解这些知识是我们开发搜索引擎的基石同时也可以了解

15、到技术发展的主要推动力必定是来自于市场的需求。搜索引擎简介纵观近十年以来国际信息传播技术的发展互联网哪蜮和万维网的结合以及信息搜索技术的发展大幅度降低了信息传播的障碍。世界性的信息瓷源建设和传播转向以网络为基础己是大势所趋。要真正实现在网络上信息资源共享需要解决的两大问题】一是如何有效过滤和筛选资料二是如何准确有效地描述资料。网络信息资源的定义所谓因特网的全部信息资源有三种典型定义。第一种概念是指通过因特网发布和利用的全部收费和不收费的公众信息资源这是较广义的概念。第二种概念是指通过因特网发布和利用的全部不收费的公众信息资源即查询时不要口令且不限定用户地址的信息资源。第三种概念仅包括因特网上发布的全部公开的网页、新闻组等信息资源这是狭义的概念。通常人们所说的因特网的信息资源是指第三种概念它不包括在因特网上传递的加密或不加密的私人信息以及部门或团体内部的秘密信息例如私人电子邮件、政府及公司的内部办公信息等。我们所说的因特网的信息资源则是指第二种概念。网络信息资源的特点自从情报检索系统出现以来对检索系统的研究直没有间断过。作为

展开阅读全文