搜索引擎的未来

上传人:小** 文档编号:55015135 上传时间:2018-09-23 格式:DOC 页数:3 大小:43.50KB
返回 下载 相关 举报
搜索引擎的未来_第1页
第1页 / 共3页
搜索引擎的未来_第2页
第2页 / 共3页
搜索引擎的未来_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

《搜索引擎的未来》由会员分享,可在线阅读,更多相关《搜索引擎的未来(3页珍藏版)》请在金锄头文库上搜索。

1、搜索引擎的未来搜索引擎的未来宽带接入、分布式数据处理、数据仓库、网络计算、Web 存储、XML、IPv6、VoIP 等新型服务已经深入到互联网的各个角落,无线通信、即时通信、多媒体数据等大量信息 也已接入到这个巨大的网络体中,而人类社会仍不满足于互联网的现状,并对网络信息服 务提出了更高的要求。一个全球范围的基于 Internet2 的大网格(Great Global Grid)研发热潮 已经形成,分布更广泛、应用更深入、服务更全面的新型互联网将逐渐取代现行的体系。 随着上网用户的日益增多和网络信息服务爆炸式的增长,人们对信息搜索服务的依赖 也越来越大。 “搜索无处不在,搜索无所不及。 ”是广

2、大网民对搜索服务最基本的要求,网 民们期盼着搜索引擎能够成为正确引导他们快速获取信息服务的有力工具,让他们能够真 正享受到“按需所得”和“按需服务” ,这种服务已经离我们越来越近了。 随着互联网的不断发展,搜索服务也将进一步地发展。在未来的大网格中,搜索引擎 将有以下三大特点: 1),大网格体系是基于网络节点的访问服务模式,未来的搜索系统将能够解析诸如 “中文.国内.体育.足球.北京.国安”的巡点字串,并能正确引导用户在相关的网格上获取 “需要了解有关北京国安足球队”的信息。这样的搜索引擎必须是全开放、分布式、网格 化的系统,它的信息检索模式完全顺应了人类社会对信息的常规分类原则,这种网格节点

3、 式的信息访问更有利于网民对信息服务的获取,也是未来搜索服务的基准。 2),信息网站将向信息网格的相关节点主动报告其服务信息动态,而不是被动地接受 现在的搜索引擎 Spider 日复一日地巡访。主动报告的方式可极大地提高网络信息汇集管理 的工作效率,并可将最新的信息服务在最短的时间内传递到相关用户那里。 3),一组信息分拣节点将用来协助汇集各信息网站的信息动态,并能够准确地完成在 大网格相应节点上的相关操作。分拣工作主要由智能化程度很高的分拣软件来承担,这种 软件可以接受少量的人工干预。对某行业分类原则相当了解的专业人士将参与某些分拣节 点上的分类指导工作,这对网络信息的精细分类将是有力地保障

4、。 图一简单示例了未来搜索引擎在大网格上的信息处理模式。其中,每个分拣节点的前 端将面对一组信息网站,专门处理这些网站的信息报告;分拣节点的后端与大网格上数个 信息节点对应,可将分类处理过的信息传递到相关的节点上,并对所连接的信息节点进行 管理;本节点不能很好处理的数据将会传递到其它相关的分拣节点上处理,也可由相关专 业人士进行分类指导,以保证信息分类的精确度。(本地数据搜索器) 信息网站信息分拣节点信息分类节点信息分类节点信息分类节点信息分类节点信息分拣的人工指导上级信息分类节点上级信息分类节点上级信息分类节点信息分拣节点图一、未来搜索引擎的信息处理模式中文English国际国内新闻体育科技

5、田径文教体操篮球足球语言选择上海大连北京现代国安娱乐广东(a)(b)(c)(d)(e)(f)大网格的节点访问形式:a b c - d - e - f中文.国内.体育.足球.北京.国安图二、网格上的节点信息访问形式未来的搜索服务将能够做到: 1),当某个网民需要获取某类信息服务时,搜索系统能够协助他在互联网上所有的信 息网站上迅速找到这样的服务,要做到迅速而准确地定位; 2),搜索系统能够在互联网上所有的网页中汇集同类的信息服务,并列举出相关联的 内容来,相关联的、可参考的信息节点也将列在次要位置成为可选项; 3),进一步地,搜索系统可以对这类信息服务进行精准正确的分析与统计,对用户进 行有效的

6、指导,让用户能够更全面地了解同类信息的变化情况。 大网格上信息节点的定位访问可以很好地满足网民对信息服务的需求,节点的分布式 分层分类关系符合人们信息分类的习惯,节点的分类关系为关联信息的分析与统计提供了 很好的服务平台。分布于大网格上的搜索系统将在多层面进行人机对话,其智能性的学习 交流能力、广泛的适应能力、深度的拓展能力和快速响应能力将更强。 纵观搜索引擎十年的发展历史,最早的系统可追溯到 1995 出现的 Yahoo!人工编目分 类检索服务,随后出现了机器搜索网页数据与关键字检索服务为主的第二代搜索系统,如 Lycos, Excite, AltaVista, Google 等,所有这些搜

7、索服务功能都只在一定程度上解决了网民查 找信息的问题,其服务质量与服务功能还差强人意。由于搜索服务涉及多领域的理论与技 术,其研究的挑战性极强,而搜索市场的巨大吸引力也引起了相关业界的高度关注。 目前对搜索技术研究开发的动向主要集中在以下几个方面: 1),努力提高检索的准确性,提高检索的效率。查准率较低是当前各搜索系统都面临 的重大问题,网民不能忍受在千万条检索结果中不断地筛选自己所需的东西,人们对改善 检索精度的呼声一直不断。建立开放的精细分类体系,让更多专业人士参与相关行业的信 息分类管理,是解决信息分类问题的有效手段。 2),分布式的体系结构,以吞吐海量数据。目前保守的估计是:互联网上的

8、网页信息 总量约 80 亿条,其它诸如无线网络的信息内容、Web 存储文件、Web 数据库等其它大量 接入的内容更是无法统计。信息检索的分布式处理与服务是必然的趋势,成千上万台计算 机分布在互联网的各个角落互有分工、协同工作,将可以极大地提高信息的处理能力。 3),机器对自然语言的进一步理解,以使得系统能够在更高层面上分析出信息需求者 到底需要什么。目前的自动分类自动聚类技术向这个方向前进了一大步,但其研究与发展 的空间仍十分巨大。4),智能化操作与个性化服务是广大网民的迫切需求。具体到一个信息检索者,由于 其文化程度、兴趣爱好等特定行为在一段时间内的稳定性,他的信息服务需求完全可以被 搜索系

9、统分析出来,并通过不断地交流来掌握特定群体的特别需求,进而智能化地提供极 具针对性的信息服务。 5), “查重过滤” 、 “死链处理” 、 “打击作弊” 、 “多媒体服务”等相关技术研究对提高检 索服务的质量和拓展服务功能有着重要的意义。 以 IPv6 为基础的 Internet2 将逐渐取代了以 IPv4 的 Internet,大网格的 GGG 信息服务 模式将远远优于 DNS 为导向的 WWW 网站模式,全开放的分布式的搜索系统必将取代现 行的封闭的集中式的系统。 未来的搜索系统将像 HTTP/HTML/TCP/IP 等标准化的网络协议那样在一种标准化的环 境下工作: 向每个信息发布网站提

10、供标准化的网页搜集器,产生标准化的搜索报告提供给网 格的分拣机。 每个分拣机具有相同的基本操作原则,诸如:查重过滤、作弊分析、基本分类等, 这极有利于分拣机与专业分类人士的交流,也利于分拣机之间的交流。 在网格中存在着一个庞大的信息分类体系,这个分类体系由许许多多不同的分类 子集组成,标准格式的分类描述可以使子集之间相互调用,用于拓展和管理新的 子集。 各大搜索引擎服务公司仍在不懈地努力着,与广大网民所期盼的一样,搜索系统面临 着巨大的挑战,需要在其服务模式上的突破,需要在其服务方式上产生质的飞跃。 “更多、 更好、更快”是整个 IT 界无尽的追求。现在的和未来的搜索系统比较现在的搜索系统未来

11、的搜索系统网页收集被动搜索,效率低,不易监控,需 要更多的网络带宽,搜索盲区较多,主动搜集,容易监控,所需带宽少, 工作效率高。数据分类较少的人工干预,分类质量较差, 分类体系简单且开放性较差。人工与智能结合,分类质量更高, 开放而复杂的分类体系。系统管理需要较高的管理成本,不易形成标 准化的管理模式。分布式的开放的管理体系,可监控 性强,便于标准化。服务质量个性化服务功能很弱,不利于最新 信息的定制与推送服务。信息查全 率高,但查准率很低。个性化服务功能极强,便于根据个 个兴趣爱好进行信息定制,容易获 得相关信息的推送服务。因分类精 确的保证,信息检索的查准率很高。体系结构结构复杂,系统封闭。结构简单,系统开放。可扩充性一堆程序与数据库的集合体,不能 形成标准化的组件可形成一系列标准化的小型工作单 元,协同工作,具有很好的扩展性。可适应性对海量数据的处理需要更高级的技 术支持,难以适应快速变化的网络 世界。开放与分布式的体系,各节点之间 协同工作,可对海量数据进行分布 式处理,对网络变化的适应能力强。访问形式“”的网站式 HTML 网页引导,需要 DNS 服务。不便 于记忆和定位。“中文.新闻.国内.体育.足球”的节 点式访问,无需 DNS 服务,无语 言符号的障碍,树形节点定位能力 强。作者:沈华Emali:walson_, walson_

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 商业/管理/HR > 管理学资料

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号