都柏林核心集综述

上传人:wt****50 文档编号:53705445 上传时间:2018-09-04 格式:PPT 页数:14 大小:604.50KB
返回 下载 相关 举报
都柏林核心集综述_第1页
第1页 / 共14页
都柏林核心集综述_第2页
第2页 / 共14页
都柏林核心集综述_第3页
第3页 / 共14页
都柏林核心集综述_第4页
第4页 / 共14页
都柏林核心集综述_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《都柏林核心集综述》由会员分享,可在线阅读,更多相关《都柏林核心集综述(14页珍藏版)》请在金锄头文库上搜索。

1、都柏林核心集综述,Dublin Core,都柏林核心元素集(Dublin Core Element Set,以下简称DC)是一个致力于规范Web资源体系结构的国际性元数据解决方案,它定义了一个所有Web资源都应遵循的通用的核心标准,其内容较少,也比较通用,因此得到了其他相关标准的广泛支持。面向其他类型资源的元数据标准,基本上都兼容DC标准,并对它作了扩展。,都柏林核心元素集的产生,1995年3月,由OCLC(Online Computer library Center,联机计算机图书馆中心)和NCSA(National Center for Supercomputing Application

2、s,美国国家超级计算应用中心)联合在美国俄亥俄州的都柏林镇召开的第一届元数据研讨会上,产生了一个精简的元数据集都柏林核心元素集(Dublin Core Element Set),简称DC。其目的是,如何用一个简单的元数据记录来描述种类繁多的电子信息,使非图书馆专业人员也有能够了解和使用这种著录格式,达到有效地描述和检索网上资源。,都柏林核心元素集的数据,Dublin Core 的拟定者们参照图书馆卡片目录的模式,制定了十五项广义的元数据 标题(Title)标识:Title定义:分配给资源的名称。解释:使资源为众所周知的有代表性的正规名称。 创作、制作者(Creator)标识:Creator定义

3、:制作资源内容的主要责任实体。解释:创作、制作者包括个人、组织或机构。应该是用于标识创作、制作者实体的具有代表性的名称。,主题及关键词(Subject and Keywords)标识:Subject定义:资源内容的主题。解释:用以描述资源主要内容的关键词语或分类号码表示的有代表性的主题词。 描述(Description)标识:Description定义:有关资源内容的说明。解释:该说明可以包括但并不限于:摘要,内容目次,内容图示或内容的文字说明。 出版者(Publisher)标识:Publisher定义:对资源内容负有发行责任的实体。解释:如包括个人、组织或机构的出版者。应是用于标识出版者实体

4、的有代表性的名称。,贡献者(Contributor)标识:Contributor定义:制作资源有重要作用的责任实体。解释:发行者包括个人、组织或机构。应是用于标识发行者实体的有代表性的名称。 时间(Date)标识:Date定义:与资源使用期限相关的日期、时间。解释:资源产生或有效使用的日期、时间。 类型(Type)标识:Type定义:资源内容方面的特征或体裁。解释:类型包括种类、功能、体裁或作品集成级别等描述性术语。,格式(Format)标识:Format定义:资源物理或数字化的特有表示。解释:格式可包括媒体类型或资源容量。也可用于限定资源显示或操作所需的软件、硬件或其它设备,如容量包括数据所

5、占空间和存在期间。 标识(Identifier)标识:Identifier定义:依据有关规定分配给资源的标识性信息。解释:推荐使用依据格式化标识系统规定的字符或号码标识资源。 语言(Language)标识:Language定义:资源知识内容使用的语种。解释:推荐使用由RFC1766定义的语种代码,它由两位字符(源自ISO639)组成。,来源(Source)标识:Source定义:可获取现存资源的有关信息。解释:可从原资源整体或部分获得现有资源。建议使用正规标识系统确定的字符或号码标引资源来源信息。 相关资源(Relation)标识:Relation定义:对相关资源的参照。解释:推荐用依据正规标

6、识系统确定的字符或号码标引资源参照信息。 范围(Coverage)标识:Coverage定义:资源内容的领域或范围。解释:范围包括空间定位(地名或地理坐标),时代(年代、日期或日期范围)或权限范围。 版权(Rights)标识:Rights定义:持有或拥有该资源权力的信息。解释:版权项包括资源版权管理的说明。,通过上述15项可以看出,元数据解决方案比较全面地概括了电子资源的主要特征,涵盖了资源的重要检索点(标题、创建者,主题项)、辅助检索点或关联检索点(出版者、贡献人、标示符、语言、关联项),以及有价值的描述性信息(描述、日期、类型、格式、来源信息、覆盖范围、权限项);其次,它简洁和规范。这15

7、个元素不仅可以用于电子文档,也适用于各类电子化的公务文档,以及产品、商品、藏品目录等,具有很高的实用性。,都柏林核心元素集的特点,简易性DC只有15个元素,通俗易懂,如题名项不分正题名、副题名还是并列题名等统称为题名即Title;著者项也没有细分第一责任者、其他责任者等而统一用著者即Creator加以标识,使用起来非常简单。都柏林核心希望能够同时为非编目人员及资源描述专家所用,且多数元素的语义都能被普遍理解,这正适应了数字图书馆信息量迅速膨胀,由专业人员进行著录已是不可能的事实。 通用性不针对某个特定的学科或领域,支持对任何内容的资源进行描述,这个有助于统一其他内容标准并普遍为人们所了解的描述

8、符集合增加了跨学科的语义互操作性的可能。 可选择性著录项目可以简化,只要确保最低限度的7个元素(题名、出版者、形式、类型、标识符、日期和主题)就可以了。,可重复与可修饰性其所有元素都可重复使用,解决了多著者与多出版等重复元素的著录问题,对于需要详细著录的资料,引进了DC修饰词。1 国际通用性获得万维网上资源发现界国际范围的认同,对有效的发现架构之发展非常关键。1 灵活的可扩展性提供了更加精心制作的描述模型(如MARC编目)以外的经济的选择,既可以嵌入在HTML(RFC2731)中,也可基于XML进行描述,与当今互联网上的相关置标语言标准有很强的亲和性;允许资料以地区性规范出现,并保持元数据的一

9、些特性,从而适应更丰富的资源标准内部的结构和更详细描述的语义编码。,都柏林核心元素集在Web检索的应用,在网上发布信息就是要使尽可能多的人获得这些信息,要达到这个目的就要充分的做宣传,让人们知道并访问它。最流行的方法是将你的站点的材料提交给网上著名的搜索引擎或目录服务系统,它们会派出子集的网页搜索软件,如“机器人(Robot)” 或“蜘蛛(Spider)”在网上爬行,根据搜索到的站点及记录下来的站点信息,自动进行索引,并以此形成自己的信息库。网页搜索软件会首先搜索网页的 区域中元数据部分,及写在标签后的信息。这新信息所表示的内容不出现在页面中,只是页面的基本设置信息,如,页面的标题、关键词描述

10、等,这些信息由资源提供者负责提供。如果资源的提供者没有给出这些信息,网页搜索软件将要搜索这个网页的文本信息,自动抽取信息进行索引。而这样抽取的信息是否能够真正反映页面的内容值得怀疑。因此,主动提供对电子资源的元数据描述,将直接影响资源的定位效率。,都柏林核心集元数据就是通过对Web上的电子资源进行描述(编目),来提高资源信息检索的效率(或有效性)。网页搜索引擎首先搜索网页的区域中元数据部分,即写在标签后的信息。因此,网页作者能否主动、准确地对网页或网站的元数据进行描述,将影响Web电子资源的定位效率。根据实验统计,在采用都柏林核心集对网页进行描述后,检索的准确效率比没有描述的网页提高10倍。数

11、字图书馆最显著的特征在于它能够提供网上的电子信息资源服务,都柏林核心集元数据的广泛应用将为电子出版和数字图书馆的建设作出贡献。,都柏林核心集应用现状及问题研究,应用现状尽管都柏林核心集简便易学,而且它在提高检索准确率方面效果明显。但是,它的利用情况并不能令人满意。据统计,因特网上使用一个都柏林核心集元素(Title)的网页,只占21%;国内的网页中使用三个元数据(Title,Description,Subject)的站点只占10%。 标准化建设都柏林核心集作为新兴的电子资源描述方案,他的基本项目框架已经趋于成熟,而它的标准化建设问题将直接影响它的发展和应用。都柏林核心集元素允许任何背景的人为自己的资源提供描述信息,他们可以根据自己的需要和喜好为元数据赋值,这就造成了资源描述信息的不规范性;另一方面,网上用户即使要得到某一特定主题的信息,也可能选取不同的检索词,没有标准可以遵循。这两方面的原因都会削弱都柏林核心集的使用效果。解决这个问题,如果没有给资源提供者提出更好的办法,就违背了都柏林核心集创建的初衷。,

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号