生成和管理元数据中使用的受控词表

上传人:j****9 文档编号:54907765 上传时间:2018-09-21 格式:PPT 页数:41 大小:913KB
返回 下载 相关 举报
生成和管理元数据中使用的受控词表_第1页
第1页 / 共41页
生成和管理元数据中使用的受控词表_第2页
第2页 / 共41页
生成和管理元数据中使用的受控词表_第3页
第3页 / 共41页
生成和管理元数据中使用的受控词表_第4页
第4页 / 共41页
生成和管理元数据中使用的受控词表_第5页
第5页 / 共41页
点击查看更多>>
资源描述

《生成和管理元数据中使用的受控词表》由会员分享,可在线阅读,更多相关《生成和管理元数据中使用的受控词表(41页珍藏版)》请在金锄头文库上搜索。

1、生成和管理元数据中使用的受控词表,培训4 DC2004, 上海图书馆 2004年10月14日 Stuart A. Sutton & Joseph T. Tennis 美国西雅图华盛顿大学信息学院,培训目的,受控词表的开发 Joe Tennis 开发应考虑的因素 开发的技术 为WEB管理受控词表 Stuart Sutton 受控词表和受控词表术语的标识 受控词表声明 受控词表发布,内容,定义: 我们讨论的受控词表的含义 问题: 在开发、生成、使用和管理词表中存在哪些问题? 词表生成:如何生成受控词表? 生成一个全新的受控词表 专为一个已经使用许多不同词表的专门领域生成一个有用的受控词表 格式和使

2、用:受控词表是如何表示和使用的? 用URI references来标识词表的术语 用人工可读的字串来表示词表中的概念 管理:如何对受控词表进行管理? 受控词表的声明和发布 (受控词表)简单的和复杂的登记注册,问题,没有采用受控词表. 许多元数据应用在生成元数据的值时没有采用受控词表 采用受控词表的词汇,但是没有标识. 即使采用了受控词表,也没有在最终的元数据记录中标识出来 词汇不能公开访问. 即使元数据记录中标识了受控词表,这些词表依旧不能被人/机进行访问 在向上兼容(dumbing down)转化过程中词表标识丢失. 复杂元数据记录(如限定DC )在向上兼容过程中词表的标识会丢失,定义,受控

3、词表(CV): 元数据属性明确取值的一个有限集合 不同于元数据词表(metadata vocabulary),元数据词表定义属性的有限集合,例如一个schema。 在元数据声明 “dc:subject=cybernetics”中,我们只关心位于声明右半部分的受控词(例如编码体系scheme或取值空间) 不仅 “subject”这一元素有受控词! DC中除了一些不能限定值的元素(如dc:description )之外,其它所有的元素或修饰词均可以采用受控词表的词汇来提高准确性和加强属性的含义 例如,DCMI词表中采用的dc:type词汇表是一个受控词表,受控词表的开发,词表开发,词表开发的两种类

4、型 生成一个全新的受控词表 专为一个已经使用许多不同词表的专门领域生成一个有用的受控词表,词表开发,生成一个全新的受控词表 采用多种方式从行业社团中搜集信息 从用户的代表那里搜集信息 (在代表的委员会中仔细审查想法) 搜集行业的信息和信息需求 搜集用户的查询搜索数据 构建词表 标识术语 标识术语之间的关系 维护词表 保持词表的当前性(current)和有效性! 基于用户、领域和代表的输入进行维护,生成一个全新的受控词表,从行业中搜集信息 1/3 代表代替用户 委员会会议 词表草案 将词汇表交与委员会审核 该方法的优点 快捷、迅速 成本低 该方法的缺点 没有真正用户的数据 无法预先知道构建的词表

5、是否有效,生成一个全新的词表,从行业中搜集信息2/3 行业的信息需求 在文档中采用的术语有哪些? 例如 web pages, journal articles, maps? 行业的构架方式? 信息的生成者、利用者和存储者是谁? 是否存在规范信息流的标准(如教育标准)? 有无关于信息流的基本理念?(需要抓取全部还是部分理念?),生成一个全新的词表,从行业中搜集信息3/3 行业采用的搜索术语有哪些? 他们所需信息是为了完成何种任务? 他们搜索信息的习惯有哪些(其他人呢)?这如何影响构建所需的词表?这三种数据搜集活动都有助于构建术语和术语之间的关系。,生成一个全新的词表,构造词表 标识术语 把同义词

6、放在一起,消除同形词的歧义 任何非正式术语都辅助搜索(扩展指向正式术语的查询) 标识术语之间的关系 标识有助于用户搜索和检索的术语之间的关系 在元数据中明确这些关系。. 上面的行为将使一个词表成为”受控”词表,生成一个全新的词表,维护词表 检查搜索日志查找搜索成功与失败之处 对于搜索失败之处,调整词表 如需要,添加新的术语 剔除不需要的术语 考虑用新添的术语作为查询扩展,开发词表,为一个已经使用许多不同词表的专门领域生成一个有用的受控词表 合并词表 生成一个高层的转换 词表 生成一个全新的词表,并把全新词表中的术语与现有词表的相似词链接起来,开发词表,以上三个想法都不理想。以上三个想法都需要对

7、团体(或领域)及词表的使用和用户有精确的了解。用URIs对现有词表中的术语进行定位(Addressing)能够明确单个术语的含义,因为这些术语都将在一定的命名空间中定义。,开发词表,合并词表 为了协助搜索,可对词表(术语和术语之间关系)进行合并。 在合并过程中必须考虑每一个词表的结构。 不仅要考虑相似和相同的术语的存在,还要考虑这些术语被索引者和搜索者使用时的具体含义。,开发词表,生成一个高层的转换词表 该方法忽略了现有词表的大部分关系结构 与现有词表一起生成一个伞状结构 该方法容易实施,因为对词表、域和用户有准确的认识和理解,但是由于对搜索缺乏控制,搜索效果将有一定的不足,开发词表,生成一个

8、全新的词表,并把该词表中的术语与现有词表的术语进行链接 比前面的两个方法用的时间更多和成本更高,比从头手工构造一个词表复杂 成本高,因为必须监视对每一个被链接词汇的改变,并以一种考虑周全的方式把这些改变添加到搜索查询扩展中去,这需要大量的时间和精力,支持词表发现和使用的体系结构,标识、声明和发布词表,Web化(Webized)受控词表,web化受控词表和词表术语指: 对受控词表和词表术语进行唯一的永久的标识 用URIs来标识 names/tokens/identifiers 用模式(schema)语言进行正式的声明 用 XML或RDF/XML表示 通过发布来使词表可以通过web访问 通过web

9、访问注册来发布,词表术语的标识,建议 1:必须为所有的web化的受控词表术语分配URI reference“web体系结构的最基本的条件就是有统一资源标识符。Web上的所有实体都应该用字符串明确的标识,这一点是web通用性的核心”Tim Berners-Lee, “Web Architecture from 50,000 Feet” DCMI抽象模型草案的要求“DC 抽象模型要求遵守该模型的所有术语,无论是元素、元素限定、编码体系还是受控词表术语,都被分配一个URI reference来标识该术语”Andy Powell, “Guidelines for assigning identifie

10、rs to metadata terms” ,词表术语 URI的构造,目标 持续性。URI应没有特定的存在期限(永久存在?) 唯一性。 根据定义,URI应该唯一定义一个实体(词表、词表术语、词表或词表术语的不同版本) 可解析性。如可能,现在的web浏览器应应能够解析 URI reference的构造 XML命名空间的URI reference E.g., http:/purl.org/gem/GEMS/ 词表术语名称 E.g., Physics 构造后的URI http:/purl.org/gem/GEMS/Physics,持续的 URI Reference 策略,可能的策略: 采用特定项目的

11、URL 如, http:/myproject.org/metadata/vocabs/color#Red 持续性值得怀疑 采用PURL E.g., http:/purl.org/gem/educationLevel/Grade 2 可靠的持续性的中间形态 采用 “info” URI E.g., info:ddc/22/eng/004.678 持续的标识但是 info URIs不能够被当前的浏览器识别DCMI Working Draft: “Guidelines for assigning identifiers to metadata terms” ,词表术语声明,建议2: 对所有受控词表的数

12、据都进行声明“声明”一个术语就是通过schema语言 的方式把术语用计算机可处理的方式表示出来采用XML和RDF/XML词表的版本之间和词表中术语的版本之间的关系也要进行声明一个正在研究和探索的领域 参见 Guidance information for naming, versioning, evolution, and maintenance of element declarations and application profiles Draft CWA, July 2004 ,词表管理信息, The DCMI Types namespace providing access to i

13、ts content by means of an RDF Schema The Dublin Core Metadata Initiative The Dublin Core Types namespace provides URIs for the entries of the DCMI Type Vocabulary. Entries are declared using RDF Schema language to support RDF applications. The Schema will be updated according to dc-usage decisions.

14、English 2000-07-11 2002-05-22 ,实例: 声明,DCMI 类型词表GEM 教育层次词汇表,词表术语声明,Collection A collection is an aggregation of items. The term collection means that the resource is described as a group; its parts may be separately described and navigated. 2000-07-11 Dataset A dataset is information encoded in a def

15、ined structure (for example, lists, tables, and databases), intended to be useful for direct machineprocessing. 2000-07-11 . ,GEM controlled vocabulary for designating the education level of the audience for a resource. Created in 1996 by the GEM Consortium.,XML格式的GEM 教育层次词表,实例: 元数据示例,杜威十进制分类法DDCGEM

16、 主题(Subject),RDF格式的DDC实例, 930 History of the ancient world (to ca. 499 A.D.) ,RDF格式的GEM实例 (Value URI),词表的术语发布,建议 3: 必须发布所有受控词表的术语 Web可寻址的词表登记注册登记注册复杂性的连续: 从 简单的、人可读的HTML页面的词表和词表术语 到 复杂的人可读页面和被声明的计算机可寻址的词汇表schemes 登记注册实例: 简单注册登记到教育资料的网关: 复杂注册登记DCMI 注册登记:,简单登记注册: GEM,GEM: Student Grouping 词表,RDF格式的GEM: Student Grouping 词表,复杂登记注册: DCMI,DCMI 类型词表(Type Vocabulary),RDF的DCMI类型词表,DCMI 类型术语: “集合(Collection)”,RDF格式的DCMI 类型术语 “集合(Collection)” (RDF),请提出您的问题? 谢谢参加!,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 生活休闲 > 社会民生

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号