协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术

上传人:E**** 文档编号:89481618 上传时间:2019-05-25 格式:PPT 页数:86 大小:2.26MB
返回 下载 相关 举报
协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术_第1页
第1页 / 共86页
协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术_第2页
第2页 / 共86页
协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术_第3页
第3页 / 共86页
协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术_第4页
第4页 / 共86页
协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术_第5页
第5页 / 共86页
点击查看更多>>
资源描述

《协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术》由会员分享,可在线阅读,更多相关《协同软件技术及应用 教学课件 ppt 作者 汤庸 第3章 信息协同技术(86页珍藏版)》请在金锄头文库上搜索。

1、07CA3,第3章 信息协同技术,3.1 信息交换与信息发布 3.1.1 数据交换 3.1.2 信息发布形式化描述 3.1.3 信息发布模式 3.2 信息检索技术 3.2.1 搜索引擎原理 3.2.2 搜索引擎的分类 3.2.3 网络蜘蛛技术 3.2.4 搜索引擎技术展望 3.3 信息共享技术 3.3.1 基于数据库的信息共享 3.3.2 协同数据库 3.3.3 数据仓库应用,07CA3,第3章 信息协同技术,3.4 XML技术 3.4.1 XML相关技术 3.4.2 基于XML的数据交换 3.4.3 XML的时态扩展 3.5 语义Web与本体论 3.5.1 语义Web组成 3.5.2 本体论

2、概念 3.5.3 语义Web开发的工具及应用,07CA3,3.1 信息交换与信息发布,信息交换是信息协同的基础,也是所有协同工作的基础,而信息交换中主要涉及到数据交换的问题。下面我们就先介绍数据交换知识,然后介绍信息发布。,07CA3,3.1.1 数据交换,1.数据交换要解决的关键问题 2.传统的数据交换技术 3.XML用于数据交换的优势,07CA3,1.数据交换要解决的关键问题,(1)信息的统一表示 信息交换系统的最终目标是实现不同应用系统间透明的信息交换,但是在不同的应用系统中,数据的存储、表示方式可能完全不同。 (2)信息交换的语义识别 数据格式、语法所描述的信息应该有效,各种系统在传递

3、、读取、解析和使用文档中的信息时不会产生二义性,并且表达的内容、格式能满足各项业务的要求。 (3)传输的要求 数据格式易于传输,能够实现各个应用系统之间的同步和异步信息交换,并兼容各种网络系统和通信协议。 (4)安全方面的要求 交换的数据文档需要基于应用系统之间约定的规则进行验证,要能建立数据格式、数据内容、网络传输等不同层面的安全防护机制。,07CA3,2.传统的数据交换技术,(1)专门开发数据交换接口 该方法是根据用户自己的具体要求及用户的具体应用系统,通过手工编程开发专用的接口来实现它们之间的数据交换。 (2)总线和适配器技术 在上述专门接口的基础上,提出总线和适配器法,即各个应用系统通

4、过适配器与总线相连,从而实现相互之间的数据交换。 (3)数据仓库技术 数据仓库技术具有面向主题的数据交换的功能。 (4)基于元计算的信息资源共享 元数据是描述电子数据的数据,能体现某电子数据的逻辑关系并包含其各种规则集。 (5)数据网格 数据网格是一种分布式数据管理体系结构,它主要管理网格环境下异构分布数据的统一存储、传输和处理,能够为分布在网格中的资源提供协同管理机制。,07CA3,3.XML用于数据交换的优势,(1)简单性 XML文档是能进行文件结构合法性验证的纯文本文档,对于系统间集成、交换数据来说,最简单的格式就是文本。 (2)跨平台性 XML可以在多种平台上使用,可以用多种工具进行解

5、释,而且对于几种主要的字符编码标准都支持,因而可在全世界许多不同的计算环境中使用。 (3)可扩展性 即允许用户根据需要定义新的标签的能力。,07CA3,3.1.2 信息发布形式化描述,在CSCW中,各个对象要进行协同工作,就必须要了解其他对象的状态等信息,这是一个信息感知的过程。协同的对象需要向外界发布自己的信息,让外界获取它、感知它。因此信息发布在CSCW是非常重要的。,07CA3,3.1.3 信息发布模式,1.静态发布 2.动态发布,07CA3,1.静态发布,早期的Web信息发布多采用静态发布的方式,它的构建技术简单,而且使用方便,其他用户只要通过浏览器访问,就可以获得所需要的信息。,07

6、CA3,2.动态发布,(1)服务器 服务器响应用户的请求。 (2)用户端 主要为各种浏览器、或者胖客户端的程序,它们能够发起查询请求,并把服务器返回的结果显示出来给用户查看。 (1)传统数据库发布 传统的数据库发布模式,如图3-2所示。 (2)基于语义的数据库发布 传统的数据库发布中,系统重用性差,其基本原因在于用户需求的改变不能直接反应到发布系统中,而是需要经过开发人员把这种改变添加到系统中。,07CA3,2.动态发布,图3-1 数据库发布模型,07CA3,3.2 信息检索技术,信息检索是很多工作从入门到深入的第一步,随着Internet技术的飞速发展,Internet已经成为一个巨大的全球

7、化信息空间,越来越多的信息资源被送上网络,人们也越来越倾向于通过Internet来检索、查找和获取自己所需要的各种信息。这里主要介绍基于Internet的信息检索技术:搜索引擎和Web信息提取。,07CA3,3.2.1 搜索引擎原理,1.搜索器 2.索引器 3.检索器 4.用户接口,07CA3,3.2.1 搜索引擎原理,图3-4 搜索引擎的系统结构,07CA3,1.搜索器,搜索器是一个机器人程序(Robot),也称为网络蜘蛛(Spider)、网络爬虫(Crawler),它的功能是在网络上发现和收集信息,并把搜集到的信息下载下来。通过搜索器、搜索引擎可以尽可能多、尽可能快地收集到各种新的信息,同

8、时定期更新已经过时的旧信息,避免死链接和无效链接。,07CA3,2.索引器,索引器的功能是分析搜索器收集到的信息,提取生成索引项,将文档表示为一种便于检索的方式并存储在索引数据库中,生成文档库的索引表。,07CA3,3.检索器,检索器的功能是根据用户输入的关键词在索引器形成的索引表中进行查询,找出相关文档,同时完成文档与搜索请求之间的相关度评价,返回相关度符合某一阈值的文档集合,并对结果进行排序输出。检索器常用的信息检索模型有集合论模型、代数模型、概率模型和混合模型。,07CA3,4.用户接口,用户输入的主要功能是提供用户查询输入和结果输出显示界面,提供用户相关性反馈机制。用户查询输入界面可以

9、分为简单查询和复杂查询(高级检索)两种。,07CA3,3.2.2 搜索引擎的分类,1.全文搜索引擎 2.目录索引搜索引擎 3.元搜索引擎,07CA3,1.全文搜索引擎,全文搜索引擎是名副其实的搜索引擎,它通过从互联网上提取各个网站信息,建立数据库,检索与用户查询条件匹配的相关记录,然后以一定的排列顺序将结果返回给用户。,07CA3,2.目录索引搜索引擎,目录索引搜索引擎以人工方式或半自动方式搜集信息,编辑员查看信息并对信息进行评价分类,人工形成信息摘要,结果按照树型结构分类显示。信息大多面向网站,提供目录浏览服务和直接检索服务。,07CA3,3.元搜索引擎,元搜索引擎也称为“搜索引擎之上的搜索

10、引擎”,服务方式为面向网页的全文检索。元搜索引擎本身并不收集网页,没有自己的数据,而是将用户的查询请求同时向多个搜索引擎递交,将每个独立搜索引擎返回的结果进行组合、去除重复、重新排序等处理后,作为自己的结果返回给用户。,07CA3,3.2.3 网络蜘蛛技术,1.网络蜘蛛基本结构 2.网路蜘蛛的搜索策略 3.网络蜘蛛在Web信息提取中的主要技术问题,07CA3,1.网络蜘蛛基本结构,(1)URL处理器 这个部件主要是将待提取的URL排序,并按照一定的策略为Web信息提取分析器分配URL。 (2)Web信息提取器 这个部件位于系统底层,主要是通过各种Web协议来进行网络数据的采集。 (3)网页去重

11、检测器 互联网上存在着大量的镜像页面和重复的页面内容。 (4)URL提取器 对去重检测后的页面,分析网页内的链接,将页面内某些链接进行必要的转化得到真实的URL。 (5)标签信息获取器 这个部件提取页面的一些必要信息,包括页面的Meta信息、作者信息、页面标题、页面摘要等。 (6)数据库 将去重后的页面数据,提取出来的Meta信息、作者信息、主题和摘要等存入数据库中,以备使用。,07CA3,1.网络蜘蛛基本结构,图3-5 网络蜘蛛基本结构,07CA3,2.网路蜘蛛的搜索策略,(1)广度优先搜索 广度优先搜索是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取此网

12、页中链接的所有网页。 (2)深度优先搜索 深度优先搜索是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条路线之后再转入下一个起始页,继续跟踪链接。,07CA3,3.网络蜘蛛在Web信息提取中的主要技术问题,(1)有效页面提取效率 根据网路蜘蛛的爬行算法,在理想情况下,搜索引擎是可以遍历网络上所有的网页,但实际上这种情况是不可能存在的。 (2)内容提取 网络蜘蛛从网络上抓取到的是各种格式的文件,包括html、图片、doc、pdf、多媒体、动态网页等,而搜索引擎建立网页索引,处理的对象是文本文件。 (3)网站和网络蜘蛛间的Robots协议 网络蜘蛛对站点网页的抓取速度很快,而且是可并

13、行抓取,所以不同于一般的访问,如果控制不好,会给网站服务器带来很大的负担,所以有必要在网站和网络蜘蛛之间建立某种协议机制,一方面让网站管理员了解网络蜘蛛来自哪儿,做了些什么,另一方面也告诉网络蜘蛛哪些网页不应该抓取,哪些网页应该更新。 (4)更新周期 由于网站的内容经常在变化,因此网络蜘蛛也需要及时更新网页内容。,07CA3,3.2.4 搜索引擎技术展望,1.关键检索技术的研究 2.分布式的体系结构的应用 3.多媒体搜索引擎的研究 4.交叉语言的检索和研究 5.全面智能化 6.网络蜘蛛的研究,07CA3,1.关键检索技术的研究,搜索引擎一直专注于提升用户的体验度:准、全、快,用专业术语讲就是查

14、准率、查全率和搜索速度。,07CA3,2.分布式的体系结构的应用,在体系结构设计实现上,搜索引擎可以采用集中式或分布式体系,目前网络上的网页数量以亿级为单位,所以必然要采用某种分布式方法,以提高系统规模和性能。搜索引擎的各个组成部分,除了用户接口外,都可以采用分布式技术进行性能优化。,07CA3,3.多媒体搜索引擎的研究,(1)传统的文本方式 用户通过关键字检索图像,图像的索引可以是图像的文件名、图像所在页面对图像的相关描述、或者图像超链接中的文本内容等,搜索结果返回的是一幅幅微缩的图片及其网页链接。 (2)内容方式 用户提交的检索请求可以是关键字,也可以是图像样本草图。,07CA3,4.交叉

15、语言的检索和研究,交叉语言信息检索是指用户用母语提交查询请求,搜索引擎通过机器翻译,在多种语言的数据库中进行信息检索,返回匹配用户查询请求的所有语言的文档,再把其他语种的内容翻译成用户母语返回给用户。,07CA3,5.全面智能化,主要涉及的技术有人工智能、机器学习、自然语言处理等。,07CA3,6.网络蜘蛛的研究,网络蜘蛛决定了搜索引擎索引数据容量的大小,其性能的好坏影响了搜索结果页面中的死链接(即链接所指向的网页已经不存在)的个数,对搜索引擎的查全率、查准率都有直接的影响,在搜索引擎中占有重要位置。如何发现更多的网页、如何正确提取网页内容、如何下载动态网页、如何提高抓取速度、如何识别网站内容

16、是否相同等都是网络蜘蛛优化的研究方向。,07CA3,3.3 信息共享技术,信息共享是支持协同工作的基础和必要条件,同时也是CSCW应用区别于一般分布式系统的重要特征之一。信息共享一般使构筑在数据库的基础上,许多数据库系统都支持多用户使用,各个用户相互之间共享自己所有数据。本节首先基于数据库的信息共享,然后讨论两种用于信息共享的主要技术:协同数据库和数据仓库。,07CA3,3.3.1 基于数据库的信息共享,1.基于数据库信息共享的主要问题 2.解决的办法,07CA3,1.基于数据库信息共享的主要问题,(1)访问控制 访问矩阵直观定义了控制一个用户或主体访问客体对象的主要模型,但它在多用户协同环境中被使用时仍面临许多问题。 (2)事务机制 在多用户环境中,并发控制非常重要。,07CA3,2.解决的办法,(1)监控及感知支持 数据库系统基本机制,如事务加锁的实现对用户是透明的,其效果常常不显示出来。 (2)建立历史机制 历史机制主要用来支持一时间段内的协同活动(即异步协同)。,07CA3,3.3.2 协同数据库,1.数据操作的安全问题 2.并发控制问题 3.访问和检索问题 4.协同数据库的扩

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号