[精选]网络信息检索的原理及技术

资源描述

《[精选]网络信息检索的原理及技术》由会员分享，可在线阅读，更多相关《[精选]网络信息检索的原理及技术（43页珍藏版）》请在金锄头文库上搜索。

1、,用户界面设计友好，利于信息用户与检索系统的交流,现实的网络异构，有很大物理差异，所以检索途径更加灵活,是衡量信息检索工具的重要指标之一,内容新颖实时,检索主题广泛,功能完善友好,检索灵活多元,跟进internet的步伐，每时每刻出现新信息，更新内容，随时获取最新信息,网络信息检索工具三提供给用户检索信息的软件系统，是网络信息检索的接口,联机检索：一种受控的，其数据库需注册的，且有偿的系统,搜索引擎：一种开放式的网络检索工具，用户可自由使用它,9.2.1网络信息检索的基本原理,Marchionini网络信息检索行为模型 Choo网络信息检索行为模型 Macpherson网络信息检索行为模型,接

2、受问题,理解问题,选择系统,构造查询,思考/重复/停止,提取信息,评价结果,执行查询,9.2.2网络信息检索技术,海量数据的存储和处理技术网页搜索技术标引技术检索技术排序技术索引技术,分类,9.2.3网络信息检索系统,.,体系结构,索引数据库,用户界面,数据过滤,地址列表,页面分类,信息资源采集,人工收集,自动收集,Internet,用户,网络信息检索系统工作流程,1.搜索引擎中的信息收集模块在网络环境下手机网络信息资源，手机的方式包括人工收集和利用信息收集两种。 2.信息收集模块完成信息收集任务后，将所收集的信息资源返还给搜索引擎，并对这些信息资源进行页面分类、建立索引，然后存放在

3、已建立好的索引数据库。 3.搜索引擎为用户提供统一的网络信息检索界面，用户通过该检索界面提交自己的检索请求。 4.搜索引擎根据用户提供的检索请求，在索引中查询相关语句，并进行必要的逻辑运算操作，然后在索引数据库中查找匹配的网页。 5.查询完毕后，将最终的检索结果以超文本链接等形式显示给用户，用户根据这些链接去访问相关的信息资源。,搜索引擎的基本结构,用户,网络信息空间,收集器,标引器,标引库,检索引擎,界面,检索过程,收集标引过程,集中式搜索引擎的一般结构,分布式搜索引擎的一般结构,复制管理器,对象缓存,网络空间,中介器,收集器,中介器,用户,.,9.3.1网络信息的采集,定义：是实现网络信息

4、检索的第一环节，其主要任务是为网络信息资源库录入信息源。广义上：网络信息采集包括网络信息检索系统的所有信息采集和录入活动。狭义上：是指网络搜索引擎的信息采集。,思考：网络搜索引擎的信息怎么采集的呢？,9.3.2网络蜘蛛,网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止（大家可以想象下我们经常使用PPT中的那

5、个超级链接，个人觉得和那个很相似）,网络蜘蛛的工作原理图,在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。（速率）深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。（简单）,9.3.3主题信息采集技术,”主题“就是用户所需要搜集信息的特征。主题可以是很多种类别：如Web的信息采集互联网的信息采集语义分析的信息采集等等简单点说就是我们跟王老师学习的信息检索内容主题信息采集技术就是基于下面的

6、理念出现的主题信息采集的任务就是在尽可能短的时间内，尽可能搜集多的主题相关信息。尽可能少的搜索与主题无关的信息。,主题信息采集策略,基于内容评价的搜索策略,Your text,基于综合价值评估的搜索策略,基于动态价值评估的搜索策略,基于链接构的评价策略,基于未来回报价值评价的搜索策略,主要的主题信息采集策略,9.4.1网络信息的组织,语法信息组织语法信息组织是以信息的形式特征为特征为依据序化信息的方法,语义信息组织语义信息组织是以信息的内容或本质特征为依据序化信息的方法,语用信息组织语用信息组织是以信息的效用特征为依据序化信息的方法,9.4.2网络信息组织的规范,元数据最本质、最抽象

7、的定义为：data about data 。元数据被定义为：描述数据的数据，对数据及信息资源的描述性信息。元数据的基本特点主要有： a）元数据一经建立，便可共享。 b）元数据首先是一种编码体系。由于元数据也是数据，因此可以用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据，将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。,（随便告诉大家元数据是元数据是一种二进制信息，用以对存储在公共语言运行库可移植可执行文件 (PE) 或存储在内存中的程序进行描述）,MARC元数据的概念,MARC元数据:是利用计算机

8、识读和处理的目录。MARC主要用于图书馆管理软件中，采访、编目、典藏等环节都有重要的作用，也方便馆际之间的数据交流，是统一文献著录规范。我简练点叫它“英文机读目录格式” ,如果是“中国范”的CNMARC就叫“中国机读目录格式”,金碟图书馆管理系统增强网络版自带150万CNMARC格式书目库，支持CNMARC格式书目数据的导入导出，可大大减少编目录入工作量。,MARC格式优缺点,DC元数据的来历,DC元数据：即“都柏林核心（Dublin Core）元数据”，由OCLC首倡于1994年，因创始地在美国俄亥俄（Ohio）首府都柏林而得名。其维护机构为DCMI:Dublin Core Metadat

9、a Initiative。 DC元数据规范最基本的内容是包含十五个元素的元数据元素集合，用以描述资源对象的语义信息。,题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description 其他责任者Contributor 格式Format 来源Source 权限Rights 标识符Identifier 语种Language 关联Relation 覆盖范围Coverage,DC元数据的优势,RDF的概念,RDF：资源描述框架，一种用于描述Web资源的标记语言，是一个处理元数据的XML（标准通用标记语言的子集）应用。它的作用

10、是为多种元数据的交互提供平台,01,独立性,02,使用XML作为其描述语法,它可嵌入DC元数据也可嵌入其他类型的元数据，使元数据间的转换成为可能,它采用目前最具发展前景的标记语言XML（可扩展标记语言），用XML作为自己的描述语言，自然就成为一种可携带多种元数据穿行于网络上的框架工具,RDF的两大特点,9.4.3网络信息组织的方法,1.数据库组织方式：将所有获得的信息资源按照固定的记录格式存储组织，用户通过关键字及其组配可以知道所需要的信息线索 2.超链接方式：把不定长的基本信息单元存放在节点上，这些基本信息单元可以使单个字，句子，章节，文献，甚至是图像，音乐或者录像。 3.主页方式：通过各种

11、频道栏目，根据网站定位的用户对象，需求的动态，一次信息等进行全面的编辑，翻译，报道，集中组织信息，提供信息服务。 4.文件方式：采用主题法的思想，以文件名标识信息内容，用文件夹组织信息资源，通过网络共享实现信息传播，是成熟的文件操作技术和网络传输技术相结合的产物。 5.主题树的方式：将信息资源按照某种事先确定的概念体系，分门别类的逐层加以组织，用户先通过层层浏览的方式遍历，知道找到所需要的资源。,9.5.1网络信息的整合,网络信息整合可分为3个阶段,（1）面向网络信息组织的整合阶段（2）面向异构数据源的数据整合方式（3）面向应用的信息整合阶段,Z39.50标准协议的作用及特点,z39.50

12、协议（应用和服务定义与协议规范）将各个系统的具体实现映射到抽象模型上，才能使不同的系统在一个相互理解的、标准的通信平台上进行交互，满足互操作的需要。,1.该协议是一种应用层协议 2.能够提供一致性的检索接口进行多数据查询 3.该协议是一种面向连接的有状态的协议 4.该协议面向数据库检索,Z39.50标准协议提供的服务,它包括了11种基本服务： 1.查询；2.检索；3.终止 4.浏览；5.分类；6.解释； 7.初始化；8.存取控制； 9.资源控制；10.删除结果；11.扩展服务；,网络信息资源集成,网络信息资源集成有什么意义：网络信息集成技术用于网络信息的查询中，可以得到精确而完善的查询结果

13、。使internet网上繁杂的信息得到更好的整理与集成。网络信息资源集成的阶段和步骤,1网页文本数据抽取 2.查询重构 3.查询优化和执行 4.异构数据的集成,信息资源集成,9.6网络信息的搜索,1.搜索引擎及其分类,概念：是指在Internet上主动搜索信息并能主动索引、提供查询服务的一类网站，这些网站通过网络搜索Robot或网站登录方式，将Internet上大量网站的页面收集到本地，经过加工处理而建成索引数据库，从而能对用户提出的各种查询做出响应，提供用户所需信息,1.1搜索引擎综合分类,（1）全文搜索引擎（2）目录搜索引擎（3）元搜索引擎,全文搜索引擎的工作原理,常用的中文搜

14、索引擎,PageRank算法,PageRank算法的数学定义为： PR(A)=(1-d)+d(PR(Ti)/C(Ti)+.+PR(Tn)/C(Tn) 例如在网页A-网页F中，B、C、D、E、F中都链接A。则说明A网页是最为重要的，所以它的PageRank值最高。网页A级别=（1-系数）+系数 + .+,网页1级别,网页1链出个数,网页2级别,网页2链出个数,网页N级别,网页N链出个数,9.7网络信息检索的研究热点,9.7.1 海量数据的存储与处理,（1）海量数据的磁盘列存储技术,（2）海量数据存储模式,( 3 ) Google 文件系统GFS简介.,A Group,C Group,B

15、Group,9.7.2 集群与分布式计算,数据库集群系统定义：数据库集群系统以集群技术与数据库系统相结合。其核心思想是通过多机并行处理来隐藏对数据库性能影响较大的延迟以获得高并行处理性能。,其优势,1) 高能性 2）高应用性 3）高扩张性,9.7.3.集群技术的分类,集群技术一共分为三类： 1.科学集群：科学集群对外就好像一个超级计算机，这种超级计算机内部由十至上万个独立处理器组成，并且在公共消息传递层上进行通信以运行并行应用程序。 2.负载均衡集群：与科学计算集群一样，负载均衡集群也在多节点之间分发计算处理负载。它们之间的最大区别在于缺少跨节点运行的单并行程序 3.高可用性集群：当集

16、群中的一个系统发生故障时，集群软件迅速做出反应，将该系统的任务分配到集群中其它正在工作的系统上执行，高可用性集群的主要目的是为了使集群的整体服务尽可能可用。,9.7.4 XML信息检索,XML查询语言,（1）LOREL,(2) XML-QL,(3) XQuery,XML查询语言,9.7.5XRANK 搜索引擎框架,XML/HTML文档,ElemRank算法,XML元素,(采用ElemRank算法),混合杜威倒排表,查询评估器,关键词查询排序结果,XRANK 系统结构图,9.7.6.语义网信息检索,语义网本体语言语义索引及推理语义网信息检索模型,后向链推理,前向链推理,演讲完毕，谢谢观看！,

展开阅读全文

[精选]网络信息检索的原理及技术

最新文档