文本信息检索技术－金锄头文库

资源描述

《文本信息检索技术》由会员分享，可在线阅读，更多相关《文本信息检索技术（5页珍藏版）》请在金锄头文库上搜索。

1、期末课程论文期末课程论文论文标题：基于论文标题：基于文本信息检索技术文本信息检索技术课程名称：信息检索技术课程名称：信息检索技术课程编号：课程编号：1220500学生姓名：学生姓名：学生学号：学生学号：所在学院：计算机科学与工程学院所在学院：计算机科学与工程学院学习专业：计算机科学与技术学习专业：计算机科学与技术课程教师：课程教师： 2013 年年 7 月月 4 日日文本具有与平台无关、支持基于内容的联想式超链接信息组织方式以及多媒体化的人机界面，因此成为Interact上信息组织、存储与发布的主要方式之一。但是，由于文本是一种非结构化文档，一般仅适合于信息的浏览和导航，而无法像数据库那样实

2、现基于主题、关键词、内容等的信息检索。其次，一张主页至少对应一个以上的文件，当信息规模较大时，不仅文件数量巨大，而且文件间存在的错综复杂的链接关系也难以维护在数字化图书馆、多媒体课件资源以及ICP(Intemet ContentPmvider)网站构造等应用中，这种情况尤为突出因此，如何实现超文档的规范化管理，并提供基于主题和全文的检索功能，已经成为数字图书馆、多媒体远程教育中课件资源管理以及ICP服务的一个重要问题。目前，实现文本信息的全文检索，一般有以下两种解决途径：采用Web服务器自带的索引服务器，如Microsoft IIS自带的Index Server，这种方法只能实现字符串匹配查

3、询，无法实现按主题查询，效率低下，无法跨平台，也无移植性；通过将非结构化的文本文件集转换成结构化数据库，并对数据库中文本记录的特征字段进行标引。形成完整的文本数据库在此基础上开发相应的基于web的检索引擎，实现对超文本查询的目的。本文在分析文本信息检索功能需求的基础上，提出了一种将非结构化的超文本转换为结构化数据库的模型，并且提出了一种支持文本信息全文检索的解决方案，在数字图书馆系统和多媒体远程教育系统的课件资源管理与检索中得到了实际应用和验证。功能需求与模型功能需求与模型一般地,对于一个规模较大的超文本信息群，应向用户提供以下检索功能。(1)信息分类.通过对信息进行分级、分类组织，为用户提

4、供信息源选择的功能，以便为用户导航或查询界定检索范围.对于范围过大的信息群，有必要采用二级甚至多级分类，使用户在进行具体检索前通过逐级选择信息类别达到缩小检索范围的目的。(2)组合条件.为用户提供不同源信息的组合检索，例如用户可以根据主题、作者、关键词、日期等栏目，提出综合检索要求。(3)全文检索.根据用户设定的条件，在全文范围内进行检索,并可按照检索词的特定指标评价检索匹配度,并实现检索结果的全文显示。(4)逐级检索.在信息检索中，首次检索可能因为条件不够精确而导致检索结果信息量过大，用户裔要在此基础上进行二次或多次检索，而每次检索都是以上次结果作为本次检索范围，以逐步缩

5、小信息量.逐级检索技术对于用户而言，还具有启发作用，根据每次得到的中间结果.适时调整检索方向，达到逐步求精检索目标的目的。(5)结果处理.对于最终获得的检索结果，除了提供显示功能外，还应提供保存、Email 转发、打印等功能。为了满足以上需求，需要解决以下两个问题:一是如何将非结构化的超文本信息集转换成结构化的数据库;二是在结构化转换的基础上如何实现全文检索。首先，将超文本文件集转换成超文本数据库，除了要满足无损性、可还原性等要求外4，为了实现对超文本数据库的有效管理，并且支持超文本信息查询，还应该具备以下功能。(1)特征标引.允许工作人员对转换后的超文本记录进行特征标引，

6、如关键词、主题词、摘要、作者、日期等。因为这些信息都是Web用户查询所需要的，但转换程序无法从超文本文件中直接获取这些信息.(2)安全刪除与替换.当刪除(或替换)超文本数据库中的一条记录时，系统将自动判断该记录对应的超文本是否和其他记录对应的超文本相关联。如存在关联,则给出瞢告,如果确认刪除，则由系统自动更新与此超文本相关的链接。(3)链接关系查看.以树状或网状形式反映出某一超文本和其他超文本文件之间的链接关系，工作人员可以一览全局。由此，可以得到如图1所示的超文本结构化转换与全文检索的实现模型。超文本检索引擎的原理超文本检索引擎的原理为了有效说明超文本检索引擎的实现原理，先

7、对超文本检索问题进行形式化描述超文本信息集可以用有向图H=(N，E)表示，其中N 为超文本结点集，即HTML文件集，E表示结点间的链接关系，又n = | N丨|，进一步定义以下术语及符号。 (1)超文本文件地址：=URT(HTML) ii(2)超文本地址集U：U =所有HTML文件对应的地址= 1niu i(3)超文本获取操作：web浏览器根据地址Ui获得网页HTML文件的操作表示为 = ip()iwu(4)链接关系L()：对于任意结点P N，可能存在若干指向其他结点的链接，设为 ()，则 ipipL ip()=( )，( )，( )式中：( )表示存在从 L ipip, ,1ipip, ,

8、2ipip, , i kpip, , i kpip指向的超链接。 , i kp(5)链接关系集L(N)：表示整个超文本信息集中的链接关系集合， = 由此，可以将超文 L N1()niiLp本信息集进一步表示成为 (N,L(N)H 图1 超文本结构化转换与全文检索的实现(6)措词提取操作：表示从对应的HTML文件中提取其中有关检索的措词，如主题词、关键 iIpip字、题名、作者甚至正文等信息，记作 , 式中表示主页的措,1,2,(),.,iii kiIpt tt,1,2,.iii kt ttip词(7)措词集T：表示超文本信息集H 的所有措词的集合，表示为措诃关联：，若1()niiTI

9、ptT ，且 ,则表示措词t与网页，相关即用户以措词t检索 ip() itIp ip时，网页将是检索结果之一。 ip设集合P=HTML文件，E表示超文本链接关系集，U=HTML文件对应的HTML，则，且uU pP 式中表示浏览器使用URL地址u“获取Web服务器上的网页文件P的操作超文本检索引擎是 W up W指对于用户提交的查询条件，能够根据某种匹配规则，自动检索出与条件要求相吻合的所有超文本文件，并且将检索结果返回给用户。一般地，在超文本信息集中，有多个网页和措词t相关联，记 12,., kp pp式中：表示以措词t检索超文本信息集的结果；表示措词112(t)(t),., kSp pp

10、I(t)S1(t)I获取函数的逆函数，即检索函数超文本检索引擎是在对超文本信息集H 进行链接关系分析和措词提取的基础上通过以下操作实现的， ,11(t)(t)SWI112(t),., kp ppI即当Web用户通过浏览器给出措词t(即设定条件)，检索引擎将根据匹配规则112(t),.,kWu uu从超文本信息集中检索出所有与之吻合的网页，同时获取这些网页的地址。超文本检索的实现超文本检索的实现(1)网页措词提取通过机器人程序定期自动遍历指定的Internet站点以获取相关的Web页面，并存储于本地机器中再通过“超文本结构化分析与转换程序”建立超文本数据库，并从超文本中获取各种措词，存人数

11、据库，作为超文本数据库的检索信息其实现过程如图2所示图2 超文本收集与结构化转化流程 (2)查询条件的构造由系统根据特征信息生成查询条件的结构框架，用户键人相应的措词由系统自动生成查询条件(如SQL语句)提交给超文本检索引擎。 (3)匹配规则或检索算法一般地匹配包括精确匹配、模糊匹配和智能匹配3种设用户对措词C提出检索条件p，措词C的值域为，则精确匹配成功可表示为，使得，12,., kQq qqp iq Q ipq而模糊匹配成功则可表示为，使得，智能匹配是指利用语义关联等方法，对用户p iq Q ipq的一个检索条件，能检索出多个与措词近义的信息其形式化描述如下：设，,1,2,., pii

12、i kQq qq表示所有与措词相近的措词集，则智能匹配成功可，使得 p pQQp ijpqQ ijpq(4)查询结果的生成与处理将查询结果以列表或报告的形式显示，并向用户提供电子邮件转发、打印、保存等功。(5)逐级查询与结果复用web检索是基于http协议，但该协议的无记忆性使得Web服务器无法区分两次检索请求之间的相互关系，同一用户的逐级检索请求被看成没有联系的两次请求在一段时间内记录用户的会话过程，根据用户的特征信息为用户建立单独的存储空间，存放两次检索的中间结果。对于用户k提交的特定检索请求，检索引擎将进行以下处理(1)对于新检索请求，从信息全集空间内检索出结果，返回给用户，同时建立

13、该用户本次检索的临时空间。(2)对于逐级检索请求，将检索目标指引到对应的临时空间内，在缩小的空间内检索，结果返回，同时用本次结果选代上次的临时空间。上述处理可形式化描述如下，设信息全集空间为，用户的某个检索对应的临时空间为Sk式中：表示由全集空间生成的第1次的临时空间临时空间迭代算法可描述为,1(s,k,i)kifS,1kiS对于超时不用的临时空间，由监控程序负责释放。,1,(,k,i)ki mki mfSS应用和结论应用和结论基于上述模型及算法，设计实现了基于Web的全文检索引擎，该引擎在鲁迅图书馆数字化网络信息系统和中国文献保障体系(CALLS)西北地区文献中心-西安交通大学钱学森数字

14、化图书馆建设中得到了实际应用在鲁迅图书馆建立了古桥、戏剧和黄酒等8个特色文化数据库在钱学森图书馆建立了钱学森生平事迹全文数据库和自动化学科文献数据库，记录数近l0万条。实际应用表明：基于 Web 的逐级全文检索引擎，在将非结构化的超文本转换成结构化的数据库，并建立相应的措词索引数据库的基础上，能够实现基于主题、关键词、作者、日期、出处、自由词等多种方式的信息检索服务,并能实现条件复用，支持用户进行逐级检索，实际应用是成功的.值得指出的是，本文所提出的解决方案有较强的通用性，例如，可以应用在数字图书馆、远程教育课件资源检索以及 ICP 网站的资源检索与管理等应用中。参考文献参考文献朱克亮网络时代文献检索教学改革探讨淮南工业学院学报(社会科学版)皮德常一种基于嵌套关系模型的超文本数据库设计南京航空航天大学学报张映海基于概念的中文文本检索研究D 重庆大学王义基于语义场的文本检索技术的研究与实现D 安徽工业大学吴保松限定领域下基于概念图的文本检索D 上海交通大学

展开阅读全文