黄智生博士谈语义网与Web 30

上传人:m**** 文档编号:562997824 上传时间:2023-07-18 格式:DOCX 页数:4 大小:22.50KB
返回 下载 相关 举报
黄智生博士谈语义网与Web 30_第1页
第1页 / 共4页
黄智生博士谈语义网与Web 30_第2页
第2页 / 共4页
黄智生博士谈语义网与Web 30_第3页
第3页 / 共4页
黄智生博士谈语义网与Web 30_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

《黄智生博士谈语义网与Web 30》由会员分享,可在线阅读,更多相关《黄智生博士谈语义网与Web 30(4页珍藏版)》请在金锄头文库上搜索。

1、黄智生博士谈语义网与Web 3.0近两年来,语义网(Semantic Web) 或“Web 3.0越来越频繁地出现在IT报道中,这 表明语义网技术经过近10年的研究与发展,已经走出实验室进入工程实践阶段。 PowerSet、Twine、SearchMonkey、Hakia等一批语义网产品的陆续推出,预示着语 义网即将在现实世界中改变人们的生活与工作方式。在Web 3.0时代即将揭开序幕之 际,正确理解、掌握语义网的概念与技术,对IT人士与时俱进和增加优势是必不可少 的。为此,InfoQ中文站特地邀请到来自著名语义网研究机构荷兰阿姆斯特丹自由大学 的黄智生博士,请他为我们谈一谈工业界人士感兴趣的

2、语义网话题,包括什么是语义网、 语义网与Web 3.0的关系以及语义网如何给商业公司带来效益等。InfoQ中文站:您是语义网方面的权威专家,能否先请您为我们消除概念上的困惑。 现在有一个说法,即Web 30就是语义网。但是除了 W3C定义的语义网以外,关于 Web 30还有许多种其他说法,您认为谁才真正代表了 Web 30?为什么?黄智生博士(以下称黄博士):首先需要说明的是:我不认为自己是所谓的权威。纵 观万维网的发展,总是年轻人在创造历史,他们给人类社会带来了一次又一次的惊奇。 且不说万维网之父Tim Berners-Lee在1989年构想万维网的时候仅仅三十出头。Web 1.0产生的雅虎

3、和谷歌等国际大公司的创始人大多是年轻的博士生。Web 2.0产生的 Facebook等公司创始人的情况也大体如此。Web 3.0的情况也可能如此。我们甚至都 不能完全指望通过现有的IT大公司的巨大投入来发展语义网。这些大公司往往受着过 去成功经验的束缚,而且新技术采用的是与以往完全不同的思路,从而会加深大公司 对新技术的怀疑。当然,这也为年轻人书写历史创造辉煌提供了发展空间。由于Web 1.0和Web 2.0技术的成熟,Web 3.0的想法实际上表达了现在人们对下一 代万维网技术的种种期待。从这个意义上讲,Web 3.0并不等同于语义网。网络上对 Web 3.0众说纷纭,都有一定的道理。但我有

4、一定的理由相信,语义网技术是Web 3.0 的重要技术基础。我于2008年底在国内一些大学巡回讲学报告中提到了 Web 3.0技术 所应该具备的一些基本特征。我们可以用这些基本特征来分析哪些才是Web 3.0最有希 望的技术。这些基本特征是:1. 新颖性:它应不同于已有的Web 1.0和Web 2.0的技术,它能提供全新的一代 网络服务模式(即解释为什么它不属于Web 1.0或Web 2.0)。2. 可行性:它在现有的网络环境下,经过努力是可能实现的,它并不存在不可逾 越的技术障碍(即解释为什么它不属于Web 4.0或更高)。3. 迫切性:它提供的网络服务应是当前社会迫切需要的,它引入的技术是

5、能够对 社会产生重大影响的。(即解释它为什么应只属于Web 3.0)。我们看到的语义网技术正好符合上述特征。新颖性:语义网提供语义数据描述分析能力, 这是以往技术所不具备的。可行性:虽然在语义网上充满着许多技术挑战,但我们相 信经过努力这些技术障碍是可以跨越的(后面我还要对这个问题作进一步阐述)。迫切 性:由于万维网上已产生了浩瀚的网络信息和知识资源,寻找人们所需要的准确信息 常常耗费大量人力精力。提供网络信息的语义半自动化或自动化处理已迫在眉睫。这就 说明了为什么语义网是成为Web 3.0最有希望的基础技术。InfoQ中文站:过去,语义网常被定义为“an extension of the c

6、urrent web”,但 现在提的更多的是“a web of data”。您认为这两种说法有何异同,为什么会出现两种 定义?黄博士:在语义网思想发展的初期,人们所主要期待的是,希望对现有网络信息资源做 语义标注,使得人们能够更方便快捷地找到网络信息。由于描述网络数据的需要,科 学家们开发了一系列元数据描述语言,如RDF/RDFS等。出于对语义分析进一步细化的 需要,科学家规定了本体描述语言(如OWL),并开发了种种特定领域的本体(Ontology)。所谓本体,可以简单地将它理解成特定知识领域中满足共同约定的常识 部分,这对于特定领域信息分类是必要的一步。最近这十年以来,信息领域的重大事件之一

7、,就是人类已经产生了许许多多的本体。我 们可以把这个过程理解成人类知识领域的一个概念标准化运动,这与以前的工业标准 化运动具有一样的重大意义。这个运动只需要人们完成一系列基本约定就可以产生巨大 的社会效果,就像当年规定红灯停,绿灯行等交通规则是一样的道理。虽然现在人 们都可以自由构造自己所需要的本体,但许多特定领域都有权威的学术机构在构造这些 领域的本体库。本体构造本着自然淘汰的原则,在大多数特定领域只会留下一些被广 泛接受的本体。由于大量的本体和元数据的存在,人们发现这些数据本身就是人类知识的巨大资源。这 就产生了 “Web of Data的思想,即通过这些结构化的知识数据把巨大的网络信息资

8、源 连接在一起,构成了人类知识的巨大宝库。所以说,“Web of Data的思想实际上是“an exte nsion of the curre nt web”思想的具体描述和进一步补充。InfoQ中文站:语义网技术是一项激动人心的技术,许多技术人员都很感兴趣,但是 这门技术入门比较困难。能否请您谈谈,语义网入门需要哪些必备知识,有比较便捷的 入门方法和入门书籍吗?黄博士:如上所述,语义网与本体技术实际上是人类知识领域的概念标准化运动,这就 涉及到逻辑描述(Description Logics)和推理技术。这对于许多工程人员来说,会产生 一些畏惧感。国内的计算机人才培养,总体来说是计算能力的培养

9、,在数理逻辑的训练 上相对薄弱一些,这就对国内一些技术人员来说会带来一些障碍。但好的方面是:到 目前为止,许多语义网应用只需要用到元数据就可以了,逻辑推理方面的知识要求相对 会少一些。所以对于初涉语义网的工程技术人员,可以先掌握RDF/RDFS等基本技术 和工具就可以了。语义网入门知识只需要看看一些入门书,如Grigoris Antoniou和Frank van Harmelen合著的语义网基础教程(中国科技大学陈小平教授团队译)就可以 了。InfoQ中文站:语义网思想的诞生已经有十个年头了,您认为语义网技术离广泛应用 还有多远?目前还有哪些障碍需要跨越?黄博士:由万维网之父Tim Berne

10、rs-Lee提出的语义网与本体技术,为解决万维网上浩 瀚的信息资源处理提供了技术基础。欧盟和美国政府已经在语义网与本体技术上投入了 大量的研究资金,其技术已经在垂直搜索技术和专业语义信息处理等方面成为了国际 标准,已经在生命科学领域(如大规模基因本体库)、出版领域(如Dubi n Core标准 和知识分类本体库)、医疗保健领域(如癌症本体库)和文化传承领域(如博物馆与艺 术家本体库等)产生了许多应用。国际IT大公司如雅虎、eBay和IBM等已经在语义 网上投入了许多研究力量。语义网技术已经深入到人类知识领域的方方面面。现在已经很难找到哪个领域可以宣称 与语义网没有关系。且不用说生命科学领域,食

11、品与农业领域已有许多研究人员在作语 义网相关的工作,就是在冷僻的领域如石油勘探与开采、红学研究、政治学分析等方面 都有人在开发本体产品。以前的语义网工作总体来说是在打基础。许多人想看的是类似于谷歌这样规模的语义网 技术大公司的产生,才能相信语义网的实际效果。这就需要等到语义网技术深入到我 们每个人生活或工作的方方面面。正由于这样,有一定数量的人对语义网的技术潜力仍 持观望或怀疑的态度。值得注意的是,语义网技术是涉及到人类未来高效地获取网络 信息的革命性的方式,将对人类文明产生巨大的影响。这就像要建造摩天大楼的许多工 作是在打地基一样。地基打得越深,楼才能盖得越高。没有看到地面上起高楼,就不 相

12、信在盖楼的想法显然是天真的。实际上,从去年开始,语义网技术的摩天大楼已经在 地面上初见端倪。根据美国著名市场研究公司Gartner的2007五月份报告,到2012 年,70%的公开网页将带有一定程度的语义标注,20%将使用更强的基于语义网的本体。 最近这十年来所建的本体大多数是英文的,中文的本体仍然是寥寥无几。如果我们只 是等到看到经济效益后才愿意去追赶新技术的话,有可能让我们中国人又一次失去占领 科学制高点的机会。当然,现有的语义网技术是由传统的知识库方法发展而来的,还存在着许多引入入胜的 技术挑战,包括如何高效地处理海量语义数据,如何对海量语义数据和知识进行高效 推理和管理的等传统方法尚未

13、充分解决的问题。近年来,它们已成为语义网领域的研究 热点,产生了一些有发展前景的解决方案。相信经过科学家的不懈努力,这些技术障 碍是能够被跨越的。InfoQ中文站:许多工业界人士对语义网非常感兴趣,但又想不出语义网如何给公司 带来效益。能否请您谈谈,对工业界而言,语义网技术能够带来什么,以及有哪些应用 场景吗?黄博士:诚然,对于许多工业界人士来说,他们最关心的是如何给公司带来经济效益, 而不是思想产品。语义网能带来经济效益的应用实际上不胜枚举,其巨大的技术潜力 之一是,它能够代替大量的人工干预和分析数据的枯燥工作,如对海关的大量进出口数 据进行预处理和筛选,如价格比较网站和信 息推荐网站等。这

14、些应用都具有以下特征: 它需要人工低智能化的干预,而不能完全被自动化处理,否则效果会较差。如音乐下载 推荐网站,现有使用的技术,要么是简单的字符串匹配来决定推荐信息,要么是分析 以往用户的下载习惯来决定,要么是人工预先安排推荐的信息。语义网技术在这些方面 能够取得最佳的效果。有意思的是,本来有希望发挥语义网潜力的价格比较网站,在 使用语义网技术方面却发展得很慢,其原因是商家不喜欢价格比较网站把自己逼到价格 被动的境地,故不积 极配合采用语义网技术。语义网的另一个巨大的技术好处是,数据和知识独立于具体的应用系统和平台。本体数 据不是为特定的应用系统而设计的。这样,当技术人员需要特定知识来开发具体

15、应用 系统的时候,只要把别人已经产生的特定知识数据直接拿来使用就可以了。最普遍被使 用的本体知识之一,就是时空知识,如地理知识本体。对于一个企业信息系统来讲, 很重要的一项工作就是客户管理,其免不了要涉及到用地名知识库等对客户材料进行智 能化管理。所以语义网技术在企业管理方面也有巨大的应用发展空间。InfoQ中文站:能否请您介绍几个成功的语义网应用?黄博士:这取决于你如何来定义成功”。如果成功”被定义为存在像谷歌这样产值百亿 规模的语义网技术公司,那么到目前为止还没出现这样的公司。如上所述,人类的语 义网技术大厦仍处于打地基阶段。但是,如果扌把成功理解为被某个特定领域的人普遍 使用,那么在生命

16、科学领域存在许多本体应用的例子,如大规模基因本体库建立和使 用可以看成是一个很好的例证。去年年底,在语义网领域出现了一些令人瞩目的应用系 统,如DBpedia Mobile在手机上的应用,把维基百科上的知识与地理本体相结合提供 智能导游和照片语义数据共享等。芬兰政府资助的FinnONTO项目计划在若干年内把 整个国家的医疗信息系统语义网化。当一种技术将深入到一个国家的每一人的生活之中 的时候,我们所理解的成功已经离它不远了。作者简介黄智生博士,现任荷兰阿姆斯特丹自由大学计算机系高级研究员(senior researcher), 东南大学计算机科学与工程学院兼职教授,江苏科技大学计算机科学与工程学院兼职教 授和计算机科学首席学科带头人。于1994年获得荷兰阿姆斯特丹大学组织管理计算机 中心博士学位,多年从事语义网与本体技术、人工智能逻辑和推理技术的研究。现主持 欧盟第七研究框架中大型语义网LarKC项目中的海量语义推理 技

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号