《数据集成:历史、现状、未来》由会员分享,可在线阅读,更多相关《数据集成:历史、现状、未来(10页珍藏版)》请在金锄头文库上搜索。
1、数据集成:历史、现状、未来 数据集成:历史、现状、未来 艾静 (Web 组) 艾静 (Web 组) 引言:引言: 本文主要部分是对论文本文主要部分是对论文Data Integration: The Teenage Years1的介绍,这篇论文 是第的介绍,这篇论文 是第32届届VLDB会议会议(VLDB2006)上十年最佳论文的获奖发言,作者在文中总结了上十年最佳论文的获奖发言,作者在文中总结了Data Integration这十几年来的发展成果, 在商业领域的一些相关产品, 并提出了目前数据集成系 统普遍存在的问题以及未来面临的挑战。这十几年来的发展成果, 在商业领域的一些相关产品, 并提出
2、了目前数据集成系 统普遍存在的问题以及未来面临的挑战。 本文还对数据集成领域中的一些重要思想和几个热点问题做了更加详细的介绍,力争 将数据集成这十几年来的发展状况尽可能清晰地展现给读者。本文还对数据集成领域中的一些重要思想和几个热点问题做了更加详细的介绍,力争 将数据集成这十几年来的发展状况尽可能清晰地展现给读者。 一、背景介绍一、背景介绍 近几十年来, 计算机网络的飞速发展和信息化的推进, 使得人类社会所积累的数据量已 经超过了过去 5000 年的总和。数据的采集、存储、处理和传播的数量也与日俱增。企业或 社会组织实现数据共享,可以使更多的人更充分地利用已有的数据资源,减少资料收集、数 据采
3、集等重复劳动和相应费用。 然而, 这些为不同应用服务的信息都存储在许多不同的数据源之中, 其管理系统也各不 相同。为更有效地利用这些信息,需要从多个分布、异构和自治的数据源中集成数据,同时 还需要保持数据在不同系统上的完整性和一致性。另外,必须向用户隐藏这些差异,提供给 用户一个统一和透明的数据访问接口。 研究的重点即在于确立一种具有普遍意义的、 可操作 性强的分布异构数据源的集成方法。 因此, 如何对数据进行有效的集成管理已成为增强企业商业竞争力的必然选择, 尤其是 对于那些拥有多部门多数据源的大型企业来说, 数据集成更是至关重要。 因为每一个部门都 会拥有自己的数据库,这些数据库可能是独立
4、、异构且自治的,为了各部门间更好的合作和 数据共享, 并且为用户提供更好的搜索查询质量, 建立一个完善的数据集成系统是极有应用 价值而且尤为重要的。 二、二、Information Manifold:具有统一的查询借口! :具有统一的查询借口! 1背景背景 1996年Alon Halevy、Anand Rajaraman、Joann Ordille三人合著的论文Querying Heterogeneous Information Sources using Source Descriptions2发表在VLDB国际会议上, 2006年被评为VLDB十年最佳论文。 这篇论文提出了一个数据集成pr
5、ojectInformation Manifold,Information Manifold和 其他同类的project极大地促进了数据集成的发展, 并导致了一系列数据集成系统商业产品的 诞生。 2重要意义重要意义 WAMDM Technical Report (WAMDM-TR-2006-2)Information Manifold的目的是为多数据源提供一个统一的查询接口。用户通过这个接口 提交查询可以直接得到对多个数据源的查询结果,就像是对一个数据源进行查询一样。 请看这个查询的例子:找出由Woody Allen导演的在我所在的地区放映的电影的评论。 这是一个复杂的查询,要回答这个查询需要
6、对三个Web站点(相当于数据库中的表)的 内容进行连接:一个有演员和导演信息的电影网站;一个电影放映时间和地点的网站,以及 一个影评站点。 如果用户不得不自己访问这三个Web站点, 然后在三个站点上分别进行有关信息的查询 (只能查询该站点的数据库支持的信息),再自己手动把这些信息连接起来,才能得到所需 的信息,那么这种复杂度必定是不可忍受的。因此,数据集成研究工作的目标就是设计出一 种合适的数据集成系统, 它能够自动为用户完成这些操作, 并且在可以接受的时间内返回查 询的结果数据。 至于这些结果信息是否来自多个自治而且异构的数据库, 原来的形式是否各 不相同, 等等问题, 都由系统来解决, 用
7、户的感觉就是对单一数据库的简单查询。 Information Manifold就是在这方面比较成功的范例。 3主要成果主要成果 Information Manifold 对data integration这十年来的发展的主要贡献就是论文里提出的对 已知的数据源内容的描述方式(称为source description,即源的描述,即源的描述)。一个数据集成系统 会给它的用户提供一种模式,用于用户提交他们的查询。其中典型的代表就是中介模式(或 称全局模式,中介模式(或 称全局模式,mediated schema)。用户提交的查询都是基于这个中介模式的,因此data integration系统必须预
8、先建立好中介模式与数据源模式之间的语义映射语义映射(semantic mappings)。在这里,Information Manifold提出了一种著名的语义映射关系的构建方法,后 来被称为LAV(Local-as-View)方法。有了模式间的映射关系,用户提交的基于中介模式的查 询通过查询重写查询重写(query reformulation)转化成对于各数据源的可执行的一系列查询。现在多 使用LAV视图进行查询重写,被称为利用视图应答查询利用视图应答查询(Answering queries using views,简 称,简 称AQUV)。然后查询引擎再进行查询优化和执行。形象化描述如图1
9、所示。 wrapperwrapperwrapperwrapperwrapperMediated SchemaSemantic mappings optimization & executionquery reformulation图 1 以下是一些重要内容(上面综述中的黑体字黑体字部分)的小专题,这些基本上概括了数据集 成过去十年内的主要研究成果: 中介模式中介模式/全局模式全局模式(mediated schema): 中介模式是现在最典型的的数据集成方法, 它通过提供一个统一的数据逻辑视图来隐藏 底层的数据细节,使用户可以把集成的数据源看作一个统一的整体。 数据集成系统通过中介模式将各数据源
10、的数据集成起来, 而数据仍存储在各个局部数据 源中,通过各数据源的包装器包装器(wrapper)对数据进行转换使之符合中介模式。用户的查询是 基于中介模式的,不必知道每个数据源的模式。中介器(mediator)将基于中介模式的一个查询 转换为基于各局部数据源模式的一系列查询, 交给查询引擎做优化并执行。 对每个数据源进 行的查询都会返回结果数据, 中介器再对这些数据做连接和集成, 最后将符合用户查询要求 的信息返回给用户。 使用中介模式的数据集成方法解决了各数据源中数据的更新问题。 因为当底层数据源发 生变化时, 只需要修改中介模式的虚拟逻辑视图就可以了, 大大减少了数据集成系统的维护 开销。
11、 这种方法也弥补了数据仓库方法的不足, 数据仓库方法必须将各数据源的所有数据都预 先取到一个中心数据仓库里,当数据发生改变时,还要到底层数据源中再取一次,还要更新 与这些变化了的数据的相关的那些数据,维护开销太大。 语义映射语义映射(semantic mappings): 这里指的是一种能够描述中介模式和数据源模式之间的语义关系的映射, 它把多个数据 源的模式通过映射关系集成到中介模式上。 这种映射关系就是我们前面提到的“source description”的主要组成部分。 语义映射关系的构建方法:语义映射关系的构建方法:LAV和和GAV 目前,数据集成领域关于模式间映射关系构建的基本方法主
12、要有两种: GAV(Global-as-View)方法和LAV(Local-as-View)方法。 GAV方法是将各本地数据源的局部视图映射到全局视图, 即全局模式被描述为源模式 上的一组视图。 用户查询直接作用于定义在数据源模式上的全局视图。 GAV方法的优点是查 询效率比较高, 缺点是用这种方法构建出来的映射关系的可扩展性较差, 不适合数据源存在 动态变化的情况。因为一旦有任何一个局部数据源发生改变,全局视图都必须进行修改,维 护起来较困难,开销也比较大。GAV是较早以前提出的方法。 Information Manifold提出了一种新的、更适合数据源特点的语义映射关系构建方法,即 LAV
13、方法。 LAV方法是将全局视图映射到各数据源上的本地局部视图, 即各数据源模式被描 述为全局模式上的视图。当用户提交某个查询时,中介系统通过整合不同的数据源视图决定 如何应答查询。 这种方法可看做利用视图回答查询。 该方法的优点是映射关系的可扩展性好, 适合于信息源变化比较大的情况,缺点是可能会造成“信息遗失”、信息查询效率低。 LAV方法有如下两个显而易见的好处: 第一,描述数据源变得更简单容易了。描述(即视图)只用描述本地数据库就可以了, 不必再描述用户查询需要涉及到的其他的数据源和各数据源之间的关系。由于有这种特性, 当有新的数据源要加入进来时, 数据集成系统可以非常容易地适应, 因为每
14、个视图仅描述这 个数据库的内容。在实际应用的数据集成系统中,往往要涉及到成百上千个数据源,而且经 常需要去除旧的不用的数据源,加入新的源,再做集成,所以这个容易更新再集成的特性是 极其重要的,所以LAV方法是现在最流行的数据集成方法。 第二,对数据源的描述更加精确了。因为源的描述(source description)在视图定义语 言的表达能力中起着最关键的作用, 因为系统能够选取一个最小数量的数据源集合来回答一 个特定的查询,所以比较节省时间和系统开销。 目前兴起的GLAV(global-local-as-view)映射方法是一种GAV和LAV方法相结合的产物,它是由全局模式上的视图与各数据
15、源上的视图相结合形成的。GLAV方法可以结合GAV和 LAV的优势,能够为数据集成系统提供更具表达能力的语义映射。 查询重写查询重写(query reformulation): 数据集成系统为多数据源提供统一的接口, 利用视图描述一个自治的、 异构的数据源的 集合。 用户基于中介模式提交一个查询, 数据集成系统通过源模式与中介模式之间的映射关 系将该查询重写为数据源可接受的语法形式传给数据源, 在随后的阶段基于数据源的查询被 优化并执行。 利用视图应答查询利用视图应答查询(Answering queries using views,简称,简称AQUV) 也被称为利用视图重写查询(rewriti
16、ng queries using views),即给定一个数据库模式上的 查询q,和同一数据库模式上的视图定义集V=V1,V2,Vn,能否仅使用视图V1,V2,Vn 获得对查询Q的应答6。 在使用LAV方法构建映射关系的数据集成系统中,各数据源模式是全局模式上的视图, 数据源的内容由在中介模式上的视图来描述。因此可以将数据源看成是物化的视图 (materialized views),将视图定义看成是数据源描述(source description)。从而将在中介模 式上构造的用户查询,重写为一系列的直接基于各数据源模式的查询5,这就是利用视图 应答查询问题。 有时候我们不一定能得到与用户查询等价的重写查询, 原因是物化视图越来越多, 想全 部覆盖这些视图是很困难的。在有些情况下,作为近似,我们可以找到最大包含集,它提供 可用数据源上可能的最佳结果集。 因此查询重写分为两种类型: 相等的查询重写:重写的查询与原查询有相同的结果集,可以理解为等价的查询重写; 最大包含的查询