语言后设资料olac及dc标准与应用

上传人:xiao****1972 文档编号:74246879 上传时间:2019-01-27 格式:PPT 页数:98 大小:2.40MB
返回 下载 相关 举报
语言后设资料olac及dc标准与应用_第1页
第1页 / 共98页
语言后设资料olac及dc标准与应用_第2页
第2页 / 共98页
语言后设资料olac及dc标准与应用_第3页
第3页 / 共98页
语言后设资料olac及dc标准与应用_第4页
第4页 / 共98页
语言后设资料olac及dc标准与应用_第5页
第5页 / 共98页
点击查看更多>>
资源描述

《语言后设资料olac及dc标准与应用》由会员分享,可在线阅读,更多相关《语言后设资料olac及dc标准与应用(98页珍藏版)》请在金锄头文库上搜索。

1、1,語言後設資料:OLAC及DC標準與應用,張如瑩 ruynggate.sinica.edu.tw 中研院語言所籌備處 2003年9月10日,語言座標研習營,2,Outline,Background DCMS: Dublin Core Metadata Element Set OLAC: Open Language Archives Community Language Archive,3,Background #1,全球資訊網(World Wide Web)的興起 知識時代的來臨 面對語意網(Semantic Web)挑戰,4,Background #2,文字與圖片資料機器無法真正理解其義

2、非語意或語意的註解皆有助於電腦理解 將Web page呈現和內容以XML或其他物件導向的語言(ex: XOL, SHOE, RDF, RDF Schema, DAIL+OIL)加以呈現,5,Metadata 定義和功能,譯名: 後設資料、詮釋資料、超資料、元資料或是元數據 定義 Metadata通常稱為“data about data” 描述資料的資料。 Metadata是資料結合物件,用來描述資料屬性的資料,以協助其潛在使用者擁有完整的進一步知識。 功能包括: 定位(location) 探索(discovery) 文件紀錄(documentation) 評估(evaluation) 選擇(s

3、election),6,Dublin Core Metadata Initiative,源起1995挖掘web資源的OCLC/NCSA Metadata workshop, http:/dublincore.org/ Dublin Core後設資料元素一個普遍跨學科的核心元素,有效廣泛支援資源挖掘,適用於任何以數位化或傳統型態存在的資源描述. 目標: 更容易挖掘出資源以及資料互通 包含十五個可任選與重複的元素(elements),7,Dublin Core Metadata Element Set v1.1,Title 資源標題 Creator 創造者 Subject 主題 Descripti

4、on 資源描述 Publisher 出版者 Contributor貢獻者/單位 Date日期 Type資源型態,Format 資源格式 Identifier 資源識別碼 Source 來源 Language 語言 Relation 關聯性 Coverage 涵蓋範圍 Rights權利管理,8,DCMS -修飾語(qualifiers),Element refinement 更詳細敘述元素的意義. 範圍限制更嚴格. Ex:element:Title refinement:Alternative Encoding Schema qualifier定義schemes是可幫助element進行直譯.

5、schemes的值包括(1).控制詞彙(controlled vocabularies),(2).規格化的註解(formal notations)(3).剖析規則(parsing rule). Ex:element:Subject Encoding Scheme:LCSH、MeSH、DDC、LCC、UDC,9,語言典藏及其後設資料標準,10,Open Language Archives Community,http:/www.language-archives.org,11,OLAC的目標,於2000年12月的一個語言資源工作營中,由來自北美、南美、歐洲、非洲、中東、亞洲、澳洲的語言學家與軟體

6、發展者所創,希望藉由下列步驟進行創造世界性語言資源的虛擬圖書館: 針對語言資源數位典藏發展一致性的實踐指引。 發展一網路上具有互通性且提供存取相關語言資源的儲存器和服務中心,12,OLAC的組織,Coordinators: Steven Bird & Gary Simons Advisory Board: Helen Aristar Dry, Susan Hockey, Chu-Ren Huang, Mark Liberman, Brian MacWhinney, Michael Nelson, Nicholas Ostler, Henry Thompson, Hans Uszkoreit,

7、Antonio Zampolli Participating Archives & Services: LDC, ELRA, DFKI, CBOLD, ANLC, LACITO, Perseus, SIL, APS, Utrecht Prospective Participants: ASEDA, Academia Sinica, AISRI, INALF, LCAAJ, Linguist, MPI, NAA, OTA, Rosetta, Tibetan Digital Library (UVA) Individual Members: 120,13,OLAC的緣起,許多協會需要語言資源,如:

8、語言學家、工程師、教師、演說家許多機構提供片段性的架構,如:檔案管理員、軟體發展者和出版者。 前所未有的契機: 延伸性標誌語言(Extensible Markup Language,XML)和 Unicode提供以結構化方式彈性呈現以及長期儲存資料。 線上或非線上的數位化出版品有效且實際上達到分享語言資源涵義 Dublin Core 後設資料集(資源分類標準模組)連同Open Archives Initiative所提供的交換方法,可建立一個跨越多個儲存器與檔案櫃的架構。,14,OLAC的願景 # 1,使用者透過單一OLAC的服務提供中心網站,搜尋與呈現OLAC的metadata欄位。,15,

9、OLAC的願景 # 2,理論上使用者可取得任何需要的資源 DATA 任何描述語言的相關資訊。 問卷結果:25%數位化,但並未採用相同的後設資料欄位。 TOOLS 有助於創造、瀏覽、查詢或使用語言資料的計算機資源。 ADVICE 什麼資源是可靠的?什麼工具適用於此情境?創造新資料時該如何作?,16,OLAC的願景 # 3,實際上 無法得到想要的資源 在不同網站擁有不同名字(Name)造成召回率低 (low recall) 。 在其他領域有相同意義,造成正確率低(precision). 是否運用適當軟體以及判斷ADVICE的價值? 許多語言資源並非以文字為基礎。 語言資源散佈在不同的網站。,17,

10、OLAC的願景 # 4,OAI,CONTENT,METADATA,OLAC REPOSITORIES,OLAC SERVICES,USER SERVICES,18,OLAC的願景 # 5,銜接縫隙的基礎架構 Gateway 使用者可獲得data,tool,advice的單一入口網站。 Metadata data,tool,advice的統一描述,包含所有項目的連結以及解釋如何存取。 Review 瀏覽 data,tool,advice的評價。 Standards 上述各項過程與協定的基礎,例如:metadata schema,harvesting protocol.,19,OLAC三個主要標準

11、,OLAC Metadata (Qualified DC) OLAC MHP: Refinements to the OAI protocol OLAC Process: a procedure for identifying Best Common Practice Recommendations.,20,OLAC Metadata,2001 年10月推出0.4版本 以Dublin Core的15個元素為基礎 以OAI(Open Archives Initiative)為典藏架構的基礎 可經由XML的DTD或Schema編碼加以驗證 中譯本,請見語言典藏網站 http:/LanguageAr

12、chives.sinica.edu.tw/,21,OLAC Metadata 0.4版,貢獻者/單位(Contributor) 涵蓋範圍(Coverage) 創造者(Creator) 日期(Date) 資源描述(Description) 資源格式(Format) 資源cpu格式(Format.cpu) 資源編碼格式(Format.encoding) 標誌語言(Format.markup) 作業系統需求(Format.os) 程式語言(Format.sourcecode) 資源識別碼(Identifier),語言(Language) 出版者(Publisher) 關聯性(Relation) 權利

13、管理(Rights) 來源(Source) 主題(Subject) 主題使用語言(Subject.language) 資源標題(Title) 資源型態(Type) 軟體資源的功能(Type.functionality) 語言學上的資源型態(Type.linguistic),22,IRCS Workshop,IRCS Workshop on Open Language Archives 10-12 December 2002 University of Pennsylvania, Philadelphia, USA http:/www.language-archives.org/events/o

14、lac02/ 2002-12-11誕生1.0版本 proposal 2002-05-31 1.0版本Candidate Standard,23,OLAC Metadata 1.0版之變革,OLAC Metadata 格式 延伸機制(Extensions) OLAC的延伸 (OLAC extensions) OLAC建議的延伸(建議的控制詞彙) 第三團體的延伸 (a third-party extension) 延伸進行文件化,24,OLAC Metadata格式 #1,OLAC Metadata 格式遵從Guidelines for implementing DC in XML OLAC 綱要

15、(OLAC schema)為了限制DC所發展的兩個後設資料綱要經混合後的應用輪廓(Application profile) DC副本儲存處: 基本的DC:http:/www.language-archives.org/OLAC/1.0/dc.xsd 修飾語:http:/www.language-archives.org/OLAC/1.0/dcterms.xsd 最新版本的OLAC 後設資料綱要(附上簡單的記錄)請見: 綱要(Schema): http:/www.language-archives.org/OLAC/1.0/olac.xsd 例子: http:/www.language-arch

16、ives.org/OLAC/1.0/olac.xml,25,OLAC Metadata格式 #2,元素 來源:http:/www.language-archives.org/OLAC/1.0/ metadata容器(container): 元素名稱空間(Namespace) OLAC元素:olac DC元素:為預設值,所以不需要名稱空間 一筆有效的OLAC紀錄 Bloomfield, Leonard 1933 Language New York: Holt ,26,OLAC Metadata格式 #3,OLAC後設資料,也包括DC修飾語並遵從Guidelines for implementing DC in XML 使用refinement或encoding scheme在後設資料都必須要宣告dcterms名稱空間 xmlns:dcterms=“http:/purl.org/dc/terms/ 例如: 以W3C日期格式呈現創造日期: 2002-11-28,27,OLAC Metadata格式 #4,元素內容所使用的

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号