自然语言在智能信息检索中的应用

资源描述

《自然语言在智能信息检索中的应用》由会员分享，可在线阅读，更多相关《自然语言在智能信息检索中的应用（6页珍藏版）》请在金锄头文库上搜索。

1、自然语言在智能信息检索中的应用一、引言自然语言是情报检索语言中的非规范化语言，是指人们日常说话、写文章和交流所用的语言。自然语言检索就是利用自然语言进行标引和检索，它是把出现的每一个词或短语都看作一个检索入口，允许自然语言直接获取原文中的有关章节、段落和句子。自然语言直接面向用户，可用作标引用语和数据库语言，具有方便、易用、标引成果可共享等优点，它已成为智能检索中最常用、最方便的检二、自然语言智能检索应用的现状（一）自然语言智能标引在国外的应用状况国外对自然语言在信息检索中的应用很活跃，并且已经取得了实质性进展。如法国把自然语言分析成名词词组后再与机器内词表匹配，匹配技术用句法模式，

2、在自然语言接口与情报检索语言相结合方面取得了很大进展。典型代表是自然语言接口系统TOPIC文本主题词专家语法分析系统、IRES一自然语言询问的词形和句法分析系统和ADRENAIL文本检索自然语言处理系统。在美国把自然语言处理应用到情报检索领域，实现了真正的非布尔逻辑检索，出现了 WIN系统， FREESTYLE系统与MNIS系统，这些系统的检索方法是以相关排序和智能文本处理为基础的，根据与提问的相关性或相似性进行排序，改变了布尔检索的方式。荷兰的CSDOS全文库，就是一个自然语言提问系统，可以使用自然语言查询，用户可以用正常的会话语法组织查询内容，就像请求别人回答一样，只需将自己

3、认为应该在全文档中出现的检索词输入即可。美国两大法律全文数据商（West Law，Mead Data）均提出了自然语言提问检索接口，特点之一是可以输入类似自然语言的提问，检索系统可以自动查找使用了同义词的文献，相信不久的将来可以查到或者显示相关词下的文献。（二）自然语言智能标引在国内的应用状况我国自然语言标引方面的应用比较滞后，但也有一些自己的成果。就目前来看应用最广泛的是基于人工智能的计算机标引。这一观点最早是由卢恩在1957 年提出的，其主要思想是：一篇文章中一个词再现的频率是这个词的重要性的有效测试。一个句子中具有给定重要测试的词的相关状态，成为该句子重要性的有效测试。按照词语

4、出现的频率，以一定的标准排除高频词与低频词，剩下的就是最能代表文献内容的词。自然语言标引是指采用原文中的信息作为标引源，从中选取能够有效表明信息内容的特征词，以实现信息检索系统的最大功能。自然语言标引经历了人工标引阶段和计算机自动标引阶段。自动标引是指利用计算机技术从各种文献中自动提取相关标识的过程。狭义自动标引包括主题标引的自动抽词标引和自动赋词标引，广义自动标引还包括在主题自动标引基础上的自动赋分类号标引。1. 自动抽词标引自动抽词标引是指直接从原文中抽词或者短语作为标引词来描述文献的主题内容，它是最早的一种标引方式，主要是指从文献中自动抽取能表征文献主题的关键词作为标引语词

5、，也称关键词标引。它的过程大致有以下：使用计算机分析文献正文或者文摘；对照停用词表，从正文或者文摘中删除高频的语法功能词；分析保留词的出现频率，再按照加权函数导出各词根的权值；将权值大于特定阈值的词作为标引用的关键词。2. 自动赋词标引自动赋词标引是在自动抽词的基础上引入预先编制的词表来规范自动抽取的词，利用计算机的自动换词功能将关键词转化成规范词赋予文献主题概念，然后建立倒排档。自动赋词标引过程如下：为每一个控制词编制一个词间关系文档；分析文献正文或者摘要，找出其中最重要的关键词，将关键词语词间关系文档进行比较；如果文中出现了与词间关系文档中匹配的语词，则该语词是相关的并将该语

6、词用于标引。3. 自动赋分类号标引它是在自动抽词的基础上，根据自然语言词与分类号的对应表和自动分类的规则，利用计算机的自动换词功能，将关键词转换成分类号，建立倒排档索引，其实质就是自然语言与受控语言的结合，速度快，易于实现“一文多号”，因而比较适合用于标引新兴的跨学科文献。4. 控词表和入口词表入口词表是一种转换工具，它提供了规范语言与自然语言的接口，解决了词表词量有限的问题。后控词表的性质类似于入口词表，是罗列自然语言检索标识供选择的工具。后控制词表的控制词并非直接用于标引，而是对作为文献检索标识的自然语言词进行控制，建立等同、等级、相关关系。后控制词表通过罗列自然语词来提供一

7、种转换或扩检系统，其控制效果由词表对自然语言词间关系的显示形式、种类及质量所决定。自动标引的发展趋势：继续以无标引方式为主，辅助以规范控制措施；以汉语自动分词技术和语词理解为主，不断吸收包括无标引技术在内的新技术，以期实现技术性突破。三、智能检索（一）检索原理智能检索由抽词检索与全文检索发展而来，它是对检索词具有较高的判断能力、理解能力和处理能力的人工智能型的多媒体检索系统。此种系统能对文本资料进行语言学意义的理解，当用户查询时，对查询语句进行理解，然后再对文本进行语义上的概念匹配。用户发出的自然语言搜索请求是零散的语句，可以适当限制使用的句式，以提高分析的正确性。比如，用户要

8、检索关于详细介绍计算机的组成结构和工作原理的文章，输入用户请求之后，一个自然语言理解前端负责分析其内容，并对其语法和语义进行分析，语法分析部分生成句法树；语义分析是根据句法树建立以动词为核心的语义框架，框架的语义格由名词性短语补充，在分析过程中还要返回输入错误，并通过人机交互纠正，接下来由智能搜索系统提取框架中的名词性短语将这些短语作为关键词，在经过标注的文献库中搜索目标记录。经过词语的匹配，得出相关度，并对检索提供智能导航，逐步求精，以求精确表达。最后一步是获取信息，信息获取技术是针对文档结构、半文档结构、纯文档结构进行的知识抽取，排除文档中的冗余信息，抽出有用知识，存入结构

9、数据库。（二）自然语言智能算法在搜索引擎中，其算法使用比较智能的自然语言，它应用的是一个ROBOT软件程序，通过智能算法实现对用户输入自然语言的理解。算法如下：beginlet I be a list of initial URLs；let F be a queue；foreach URL i in Ienqueue（i，f）；EndWhile!Empty（F）uDequeue（F）dFGet（u）；/ request document d pointed by uslore d；Exlraet the hyperlinks from d；Let U the set of URLs cit

10、ed in these hyperlinks；foreach URL u in Uenqueue（U，F）endendend通过以卜的算法我们可以看出：搜索引擎的智能算法使用的是极其简单的自然语言，运用自然语言来实现对变量的调用.实现对用户输入语词的智能理解和自动标引，达到较理想的检索效果。智能检索可以从两个层面进行理解：1. 搜索引擎检索技术的智能化，智能检索将信息检索从目前基于关键词层面提高到基于知识（或概念）层面。对知识有一定的理解与处理能力，能够运用分词技术、同义词技术、概念搜索、短语识别以及机器翻译等技术。智能搜索引擎具有信息服务的智能化、人性化特征，允许检索者采用自然语言

11、进行信息的检索，为他们提供更方便、更确切的搜索服务。2. 搜索引擎面向检索者的智能化，智能搜索引擎能够通过分析检索者的检索和浏览行为来理解检索者的需求，利用搜索引擎的服务功能有选择地为检索者提供个性化的检索服务。自然语言的智能理解也是第三代搜索引擎发展的主要趋势。（三）搜索引擎自然语言检索的理论搜索引擎（search engine），指采用自动化技术对万维网站点资源和其它网络资源进行采集、标引和检索的一类检索系统机制；是提供给用户进行关键词、词组或自然语言检索的工具。搜索引擎的检索原理：采崩spider网络自动跟踪索引程序进行信息采集，在此过程中.以一个URL为基础，利用标准协议

12、依次采集相应的资源并交给网页标引模块进行自动标引。搜索引擎的标引主要是数据的分析标引和索引，标引也是采用自动采集器.从网页中抽取能够表达网页主题意义的词作为标引词来构建网页标引记录，通过对网页信息进行规范的标引和索引，形成规范的页面索引，并建立相应的索引数据库。目前的搜索引擎大都是采用全文索引方式，分析整个网页的所有词汇。并依据词频和超文本结构确认词汇权重。搜索引擎的数据检索方式主要是关键词的匹配方式：如字符串匹配、模糊匹配以及多关键词的处理方式等。它为用户提供全文检索、约束性检索以及基于布尔关系的查询方式，并对检索结果的相关度进行排序。搜索引擎一般以词为索引单位。即计算机程序

13、通过扫描每一个词，建立以词为单位的倒排文档，检索程序根据检索词在每一篇文章中出现的同频对包含这些检索词的文档进行排序，最后把排序结果进行输。四、自然语言处理技术及智能处理（一）自然语言处理及其相关概念自然语言处理（Natural Language Processing）是指计算机对自然语言的形、音、义等信息进行处理，即对字、词、句、篇、章的输入、输出、识别分析、理解、生成等加工。目前自然语言处理技术在信息检索中的应用主要有基于理解的自动标引技术和自然语言全文检索技术；全文文本存贮和检索涉及单测、主题词的理解和切分；计算机分析和理解以自然语言表达的提问或检索策略，可以大大改善人机界

14、面；自动文摘和自动分类需要汁算机对主题结构的分析、理解等。自然语言处理是人工智能领域的一个分支。它主要研究计算机对输入的自然语言文本的分析、理解和生成，旨在建立人与计算机之间友好交流的通道，实现高层次的信息转换，是实现自然语言理解的核心基础。自然语言处理技术是信息检索实现计算机化和自然语言化的关键，足自然语言在信息组织和检索中应用的高级阶段。（二）自然语言智能处理方法1. 词典分词法它是通过构造一个机内词典并将其与被标引的信息进行匹配，当从待处理的信息中得到词典词汇：时即把它作为被选词记录下来。此方法主要用于主题相对集中的信息库，词典分词法的关键是词典，词典中的词条的数目、词条的选

15、择将直接影响分词效果。2. 切分标记的分词方法它是将能够断开词或词组、表示汉字之间关系的汉字集合组成词典，即切分标记词典，包括：标点符号、表示汉字之间联系关系的汉字。具体切分方法是用切分标记先将文本分割成词组或短语，再将它们按一定的分解模式分割成单词或专用词。3. 专家分词方法该方法是将自动分词看作知识推理的过程，力求从结构和功能上分离分词过程和实现分词所依赖的汉语词法知识、句法知识及部分语义知识，把知识的标识、知识库的逻辑结构与知识库的维护系统设汁等放在片位。对于常识性知识采用语义网络表示，对于启发性知识采用生产式规则表示。知识库是使专家系统具有智能的关键性部件，推理时把待分

16、词或已分词的字符串视为语法树中的节点。利用常识性知识库进行顺向匹配。若匹配成功，则该词将原字符段为左右两段。以该词作为子树的根，左右两边为子树的支，来替代元字符串在语词树中的节点，形成新的语词树。一旦子树的根节点不满足条件。即该字符串是存在歧义的词，则启动相应的歧义切分规则对新的词树进行校正。4. 基于标志的分词方法这种方法首先收集众多的切分标志，包括自然的切分标志（文章中出现的非文字符号）和非自然的切分标志（利用词缀和不构成词的词），分词时先找出切分标志，把句子切分为较短的字段，然后再用智能方法进行细加工，它只是自动分词的一种前处理方式，它需要额外消耗时间来扫描切分标志，增加存储空间来存放非自然的标志，这就使切分算法更加复杂，影响查准率。汉语分词存在许多困

展开阅读全文