搜索技术在人工智能领域的实际应用

上传人:re****.1 文档编号:431177684 上传时间:2023-12-08 格式:DOCX 页数:8 大小:39.51KB
返回 下载 相关 举报
搜索技术在人工智能领域的实际应用_第1页
第1页 / 共8页
搜索技术在人工智能领域的实际应用_第2页
第2页 / 共8页
搜索技术在人工智能领域的实际应用_第3页
第3页 / 共8页
搜索技术在人工智能领域的实际应用_第4页
第4页 / 共8页
搜索技术在人工智能领域的实际应用_第5页
第5页 / 共8页
点击查看更多>>
资源描述

《搜索技术在人工智能领域的实际应用》由会员分享,可在线阅读,更多相关《搜索技术在人工智能领域的实际应用(8页珍藏版)》请在金锄头文库上搜索。

1、搜索技术在人工智能领域的实际应用摘要:介绍了搜索引擎的分类、工作原理,并具体分析了搜索引擎的体系结构,包括信息的搜集 系统、索引系统以及查询接口。基于现在人工智能技术的迅速开展 ,对于在搜索引擎中运用的人工智 能技术进行了研究,且着重分析了搜索引擎重要模块: Robot 的智能化、智能代理技术以及查询接口的 智能化,有力地描述了搜索引擎开展的智能化方向与方法 ,对智能型搜索引擎所面临的挑战以及未来 开展进行了展望。关键字:人工智能;搜索技术;应用;The practical application of search technology in artificial intelligence

2、fieldLiao Yongqiinstitution of Mechanical Engineering and shanghai institution of technology and shanghaiAbstracts:The classification and operating principles of the search engine are introduced in this paper,and its systematic structure is analyzed concretely, including the systems of collection an

3、d index andthe input of inquiries. The application ofArtificial Intelligence(AI) technology to search engine isstudied, especially the intelligentization of the importantmodules of the search engine such asRobot,agents, and the input of inquires, and the direction and means of the intelligentization

4、 are described.The future development of the intelligent search engine and the challenges are also discussed.Key Words: Artificial intelligence; search technology; application;0 引言随着Internet的开展,网络已经是信息发布和传输的重要方式,Web已经开展成为拥有几 亿页面的分布式信息空间,而且仍以每120240d翻一倍的速度增加。虽然Internet上蕴藏着 巨大的信息资源,但是要从这个信息海洋中准确快速地找到并

5、获得自己所需的信息,往往比拟 困难。为了解决这个问题,人们开发了各种检索工具,以期望能提供这种信息效劳。随着各种 技术的日渐成熟,网络搜索引擎开始迅速开展起来。网络搜索引擎是以一定的策略在互联网 中搜集和发现信息,并对信息进行理解、提取、组织和处理,为用户提供检索效劳,从而起到信 息导航的作用。1 搜索引擎技术1. 1 搜索引擎的分类1. 1. 1 目录式搜索引擎目录式搜索引擎的特点是以人工方式或半自动方式搜集信息 ,编辑人员在访问了某个 Web站点后形成信息摘要,并根据站点的内容和性质将其归为一个预先分好的类别,把站点的 URL 和描述放在这个类别中,当用户查询某个关键词时,搜索软件只在这些

6、描述中进行搜索。 很多目录也接受用户提交的网站和描述,当目录的编辑人员认可该网站及描述后,就会将之添 加到适宜的类别中。目录式搜索引擎的优点是信息准确、导航质量高。以 Yahoo 为主要代 表。这类搜索引擎的缺点也是显而易见的,由于人工的介入,使得费用增加,而且维护量大、信 息量少、信息更新不及时。1. 1. 2基于Robot的搜索引擎这类搜索引擎的特点是由一个称为Robot(也叫做Spider、Web Crawler或Web Wanderer) 的机器人程序以某种策略自动地在互联网中搜集和发现信息,由索引系统为搜集到的信息建 立索引,由查询接口根据用户的查询输入检索索引库,并将查询结果返回给

7、用户。它的一个重 要特征是,搜索引擎要定期访问大多数以前搜集的网页,刷新索引,以反映出网页的更新情况, 去除一些死链接,网页的局部内容和变化情况将会反映到用户查询的结果中。基于 Robot 的 搜索引擎的优点是信息量大、更新及时、毋需人工干预。现在的许多搜索引擎都属于此类, 例如 Google, AltaVista 等。它的缺点是返回信息过多,有很多无关信息,用户必须从结果中进 行筛选。1. 1. 3 Meta搜索引擎Meta搜索引擎也叫做元搜索引擎(Multiple Search Engine),它的特点是本身并没有存放 网页信息的数据库,当用户查询一个关键词时,它把用户的查询请求转换成其它

8、搜索引擎能够 接受的命令格式,并行地访问数个搜索引擎来查询这个关键词,并把搜索引擎返回的结果进行 重复排除、重新排序等处理后再返回给用户。在目前所存在的搜索引擎中,没有一个搜索引 擎能够覆盖所有的 WWW 资源,大局部的搜索引擎都只能涉及到整个资源的一小局部,并且 各类搜索引擎的信息来源差异较大,因此集成多个搜索引擎而产生的 Meta 搜索引擎具有比 传统引擎覆盖面大,搜索效果更好且具有可扩展性等优点。它的缺点是有一定的局限性,不能 够充分使用所使用搜索引擎的功能。1. 2 搜索引擎的工作原理与主要技术搜索引擎的工作原理是:由一个Robot尽可能多地收集WWW上的网页,按照每个网页的 文本内容

9、建立单词到网页的反向索引,用户在查询感兴趣的主题时,输入该主题的关键字作为 查询条件,搜索引擎利用事先建立好的网页库和单词索引 ,检索出符合条件的网页返回给用 户。搜索引擎一般由3个局部组成,如图1所示。图 1 搜索引擎组成示意图1. 2. 1 信息搜集系统信息搜集系统是通过 Robot 来自动完成的, Robot 在 Internet 中漫游,尽可能多、尽可能快 地搜集各种类型的新信息。由于Internet上的信息量十分巨大,而且更新很快,因此,为了保证 搜索引擎上的信息的完整性和时效性,就要求Robot具有理想的搜索策略和很高的搜索效率。 目前主要有2 种搜集信息的策略:从一个起始URL集

10、合开始,顺着这些URL中的超链(Hyperlink),以宽度优先、深度优 先或发式方式循环地在互联网中发现信息。这些起始URL可以是任意的URL,但常常是一些 非常流行、包含很多链接的站点(如 Yahoo! )。(2) 将Web空间按照域名、IP地址或国家域名划分,每个搜索器负责一个子空间的穷尽搜 索。1. 2. 2 索引系统Robot 搜集信息后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息 (包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大 小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针 对页面文字中及超

11、链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索 引数据库。一个搜索引擎的有效性在很大程度上取决于索引的质量。1. 2. 3 查询接口当用户提出查询要求时,搜索引擎根据用户的查询在索引数据库中快速检出文档,进行文 档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反应机制。主要 的目的是方便用户使用搜索引擎,高效率、多方式地从搜索引擎中得到有效、及时的信息。 查询接口的设计和实现使用人机交互的理论和方法,以充分适应人类的思维习惯。2 人工智能技术的应用研究Internet 迅速的开展,使得网上的信息呈现指数级增长, Internet 的问题已经从“提供信 息

12、转到“如何从浩如烟海的信息中提取对自己有用的信息资源。现有的搜索引擎存在着 返回的无用信息太多、搜索效率低下、信息组织混乱等缺陷。起源于20世纪50 年代的人工 智能(AI)技术,可以在Internet中导引用户,不仅在用户进行搜索、浏览时给予直接的支持,而 且能够提供具有独立搜索功能的智能体的幕后支持。因此人工智能已经在Internet中扮演越 来越 重要的角色。2. 1 Robot 的智能化2. 1. 1 人工智能技术基于 Robot 的搜索引擎中已经使用了大量人工智能的技术。 Robot 的核心目的是获取 Internet上的信息资源,它是利用主页中的超文本链接遍历Web通过URL引用从

13、一个HTML 文档爬行到另一个HTML文档。一般步骤如下:(1) Robot从起始URL列表中取出URL并从网上读取其内容。(2) 从每一个文档中提取某些信息并放入索引数据库中。(3) 从文档中提取指向其它文档的URL,并参加到URL列表中。(4) 重复上述3个步骤,直到再没有新的URL发现或超出了某些限制(时间或磁盘空间)。(5) 给索引数据库加上查询接口,向网上用户发布。其算法一般采用人工智能的搜索策略中的深度优先和广度优先2种根本的策略。广度优 先策略可以跟踪当前页面中的每一个URL,所以能覆盖尽可能多的网页。而深度优先策略那 么能产生较好的文档分布,更容易发现文档的结构,即找到最大数目

14、的交叉引用。两种算法都 是通过对网页的内容的分析判断与用户查询是否符合来检索出用户需要的网页,缺乏对检索 后的网页进行进一步分析的能力,而且一次遍历往往需要花费很长的时间,检索到的信息存在 大量的冗余和噪音。因此,为了提高搜索效率,运用启发式搜索策略来进行对网页的搜集 ,即 Robot通过启发式学习采取最有效的搜索策略,选择最正确时机获取从Internet上自动收集、 整理的信息。2. 1. 2 启发式搜索算法常用有2种启发式搜索算法:(1) 加权的启发式搜索算法:用加权的启发式搜索算法控制信息资源的搜集 ,系统根据用 户配置的领域导向词和资源效劳器所在的地域信息,以启发式函数计算每个 URL

15、 的权值,并 选择权值高的URL优先访问。(2) 用相关度及用户兴趣作为评价函数的启发式搜索算法,对于系统中维护的一个超链队 列,根据评价函数值,按照由小到大的顺序将超链队排序 ,然后选择具有最小评价函数值的超 链作为下一个要扩展的结点。2. 2 智能代理技术智能代理又称智能体,是人工智能研究的新成果,近几年的开展非常迅速。它使用自动获 得的领域模型、用户知识进行信息搜集、索引、过滤,并自动地将用户感兴趣的、对用户有 用的信息提交给用户。智能代理的特点是具有不断学习、适应信息和适应用户兴趣动态变化的能力,从而能够 提供个性化的效劳。2. 2. 1 智能代理的优势(1)智能性。具有丰富的知识和一

16、定的推理能力,能分析用户的需求和揣测用户的意图,以 便能完成较复杂的任务,而且它可以从经验中不断学习,以提高自己处理问题的能力。(2)代理性。顾名思义智能代理是用户的某种代理,它可以代替用户完成一些任务,并主动 将结果反应给用户。(3) 主动性。它能根据用户的需求和环境的变化,主动向用户报告并提供效劳。(4) 协作性。它能通过各种通信协议和其他智能代理进行信息交流,并可以相互协调共同 完成复杂的任务。2. 2. 2 客户端智能代理和效劳器端智能代理(1)客户端智能代理技术以智能搜索代理技术为主,结合搜索引擎“面向主题的检索模 式,在密切关注个体需求、提高信息与用户需求相关系统,彼此间可以通过统一的传输协议进 行沟通,交换信息,从而使更多的信息得以挖掘,以弥补智能代理信息搜索范围有限的缺陷。(2)效劳器端智能代理引入用户反应机制来完善检索机制 ,提高检索

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 解决方案

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号