开放古籍平台的意义与实作

上传人:ldj****22 文档编号:45656380 上传时间:2018-06-18 格式:PDF 页数:9 大小:1,011.84KB
返回 下载 相关 举报
开放古籍平台的意义与实作_第1页
第1页 / 共9页
开放古籍平台的意义与实作_第2页
第2页 / 共9页
开放古籍平台的意义与实作_第3页
第3页 / 共9页
开放古籍平台的意义与实作_第4页
第4页 / 共9页
开放古籍平台的意义与实作_第5页
第5页 / 共9页
点击查看更多>>
资源描述

《开放古籍平台的意义与实作》由会员分享,可在线阅读,更多相关《开放古籍平台的意义与实作(9页珍藏版)》请在金锄头文库上搜索。

1、專題論述 佛教圖書館館訊 第39期 93年9月 51開放古籍平台的意義與實作 易符智慧科技 葉健欣 【摘要】本文首先探討漢文古籍在數位化出版的過程中,所面臨的兩個主要難題:交換碼導致的缺字問題,及專屬式軟體介面導致資料庫之間無法互通的問題。筆者提出以三個模組:1. 基於構字式的動態字形產生;2. 適用於古籍的XML描述語言;3. 開放式全文檢索系統,來構築一個開放古籍平台,以抒解古籍數位出版的問題。 關鍵詞:數位古籍出版;字形產生;全文檢索;開放平台 古籍數位化的主要問題 數位科技的發展對書籍的衝擊是全面性的,從創作方式、儲存介質、複製技術、乃至呈現和傳布形式,都和傳統的方法有很大的差別。數位

2、科技並不是突然取代所有傳統的出版技術,它是漸次發展,一部份一部份地替代了舊的系統。 商用電腦的發展重心,依序是計算、儲存、溝通。5070年代,電腦主要是用來代替數學家和工程人員進行重複繁雜的運算工作,此時的電腦,對數位出版沒有太大意義。8090年代,個人電腦興起,硬碟和光碟技術發展成熟,龐大的儲存容量和極底的複製成本,開始引起出版界、文化界和宗教界的注意,此階段主要的工作,就是文本的輸入。 輸入方法經過十幾年的發展,速度已達到相當的程度,光學辨識的精確度也在百分之九十以上。大量文字的輸入,不再是問題。 95年開始進入所謂的網路時代,電腦超越計算和儲存的角色,變成全方位溝通交流訊息的工具,對傳統

3、出版業最大的衝擊是:複製和傳遞的成本大幅降低,趨向可忽略不計的程度。這時從原子到電子的質變已經完成,網路蔓延需要時間,不是受制於技術,而是在等待人類的適應。 網路就好像一個新的物種,具有無與倫比的優勢,對傳統的訊息傳播,產生很強的排擠效應,很快地成為年輕人獲取資訊的主要的方式,傳統業者,面對此一潮流,已經不是在問why 和when 的時候,而是要思考how 了。 相對於流行性資訊的快速數位化,古籍除了學術界因為研究的需要、宗教界基於傳教之目的,而表現得比較極積之外,大量的古籍並沒有專題論述 佛教圖書館館訊 第39期 93年9月 52被排入數位化的時程,一來是由於古籍很難引起年輕一代的關注,所以

4、也就無法聚集足夠的商業力量來進行數位化;二來是就技術而論,古籍面臨更多更高的挑戰。簡言之,這是一項吃力不討好的工作。雖然如此,筆者深信無論科技再進步,對人們最有價值的內容、身心安頓之道,還是要回到這些經過數千年錘鍊的經典古籍中去尋找。因此在現階段,替古籍掃平技術障礙,降低製作成本,為將來古籍賦予新時代的意義奠基,是很值得做的事。 一、平台問題 由於數位科技這十幾年來都處於迅猛發展的階段,傳統的文史工作者對這麼快的變化速度往往有適應不良的現象,比較常聽到的抱怨是說:好不容易熟悉的一套系統,沒多久就過時了。傳統類比科技,如家電、辦公室設備、汽機車等,一般人都是用壞了才換,新一代的吸引力並不強。但數

5、位科技很不一樣,改朝換代的速度太快,往往才過了一、兩年,原本的作業方式就過時了,文史工作者若不是捨本逐末地持續投入大量精力追趕最新科技,就是無奈地遷就於效率欠佳的舊環境。 不過再老舊版本的數位科技,也應當比傳統的抄抄寫寫強,文史工作者以無比的熱情,默默地忍受著環境的不便,三年五載下來,也建立了不少資料檔案,終於到了可以和別人分享的階段,才發現數位出版也不是一件易事,直接散佈輸入校對好的文字檔案顯然是不可行的,一來是著作權沒有任何保護,二來功能也很有限,無法發揮數位檔案的真正效益。 最常見的解決方式是撰寫一個專屬程式作為資料的擷取介面,使用者只能透過這個程式,才得以運用資料庫。這樣,資料可以輕易

6、地透過特殊格式安排和加密的方式得到保護,使用者也有一個比純文字檔親切的操作環境。 但隨著數位資料庫的增加,這種方式的缺點,慢慢地呈現出來: 1. 由於電腦作業系統更新很快,讓產品的維護成本變高。若沒有持續投入程式的發展與更新,很快便會與主流環境脫節了。 2. 使用者同時要安裝很多不同的專屬程式,對操作和學習是一項很大的負擔。 3. 古籍資料庫多半以造字檔的方式,來解決缺字的問題,導致不同的資料庫彼此有 衝碼的情況發生,彼此之間不能互容。 二、缺字問題 以下,則對缺字問題做進一步的闡述。 對古籍來說,最令人頭痛的是缺字問題,從數位化之初,就開始浮現出來。我們發現,很多古字是無法輸入電腦的,或者說

7、,電腦中根本沒有定義這個字 。 謝清俊教授於1996年發表論文 (註1)時,缺字就到了非解決不可的地步。他曾指出,缺字造成了以下的問題: 1. 大幅增加了資料登錄的工作 2. 產生缺字管理和造字管理的困難 3. 字碼所允許的使用者造字空間不夠用 4. 缺字和異體字造成文件處理上的問題 5. 造成資訊共享的障礙 缺字問題不像其他的技術問題,會因為電腦速度的提升、應用程式的改善、記憶容量的增加等因素,逐漸獲得解決,它是一個肇因於對漢字不當認知所導致的錯誤編碼方式,埋藏在最深的專題論述 佛教圖書館館訊 第39期 93年9月 53層面,影響一切作業系統、應用程式、字型、輸入法。為了凸顯其嚴肅性和普遍性

8、,特別稱之為根本問題。 根本問題的嚴重性,不但在於其難以解決,更在於其廣泛的滲透性,容易造成急病亂投醫的情況。這十幾年來,各種頭痛醫頭、腳痛醫腳的治標方案層出不窮,從歷史最悠久的造字法、拼字法、替代字,到各種擴大字符集的方案,無一不勞民傷財,而收效有限,其中值得一提的是Unicode。從一般應用的角度而言,它舒緩了缺字和兩岸溝通的問題,也讓應用軟體的中文化大幅簡化(註2)。但深入地觀察,Unicode並沒有徹底解決缺字的問題,每一次Unicode漢字集的擴充,輸入法、字型,甚至作業系統本身都要進行相應的調整(註3) ,再加上使用者的轉換升級作業,成本是極其高昂的。 三年前,筆者下定決心要突破此

9、困難,於是從頭檢視整個問題的每個面向、綜合多位前輩的研究成果並仔細思考其根本。有趣的是,當問題被看穿看透時,解決方案竟然自動浮現出來:在系統核心用不定長度的編碼來描述漢字,並依據這個漢字結構式來生成字形,一舉解決所有古字、避諱字、新創字、甚至錯字的交換輸入和顯示需求,這是正本清源之道,捨此無他途。 實作 隨著古籍資料的增加,單純的文字檔形式無法滿足多樣化的需求,我們迫切需要一個通用的開放平台,作為高階古籍應用的基礎。 一、開放式資料庫 市面上的數位古籍產品,不是採用專屬的程式,就是利用Pdf , htmlhelp 等通用格式,來作為使用者的操作介面。前者的優點是可以提供豐富的功能,缺點是開發成

10、本較高,與其他資料庫的互通性很差,後者的優缺點剛好相反。一般來說,比較具規模的資料庫,都會傾向使用前者,而網上由個人發心整理的免費資料庫,以後者的形式居多。 資料庫從設計之初,就要考慮承納不同資料庫的能力。程式本身是由重用性高的功能模塊所構成,而資料庫本身不再是完全靜態被動的,要有自我描述的能力,即所謂的參數化。因此,純文字檔是不夠的,必須使用標記語言。 筆者採用XML(註4)語法搭配中文標記作為資料庫的標準格式。以下為範例: 印度之佛教 印度之佛教自序 編述之緣起、方針與目的 略 第一章 印度佛教流變概觀 佛教創始於印度釋迦牟尼,乃釋尊本其獨特之深見,應人類之共欲,陶 略 第二章 釋尊略傳

11、第一節 出家前之釋尊 專題論述 佛教圖書館館訊 第39期 93年9月 54XML的可延展性,用來處理複雜的古籍結構,是非常合適的。透過標記的方式,程式就能夠讀懂一份文件,從中萃取出所需的部份。本平台的進階功能,如樹狀目錄、超連結、交叉參考等,都是以此為基礎的。 基於程式重複使用的理念,本平台採用開放的架構,熟悉XML 的使用者可以輕易地製作資料庫,添加到這個平台上,此外,也可以從Word 檔直接轉換成本平台的資料庫。 本平台可以同時開啟多個資料庫,資料庫之間可以相互查詢,交叉參考,對使用者來說,可以省掉切換不同程式所花費的精力。更重要的是,將來作業系統升級,或者要移植到其他作業系統,原有的資料

12、庫都可以輕鬆的轉移過去。 二、動態字形產生 根據謝清俊教授和莊德明先生的研究成果:漢字構形資料庫,根本地解決缺字在編碼層次的表達問題,筆者在這個基礎上,開發了動態字形產生器模組(見圖一),此模組以構字式(字形的結構表達式)為輸入,經過部件比例計算、筆畫配置等程序,輸出一個字形。 舉例說明,當產生器收到釒本這個構字式,從第一個字元得知字形是左右結合,釒是一個末級部件,無法再拆分,故直接從部件資料庫中提取筆畫組資訊,本是 複合部件 ,可以進一步拆分為 木 及 一 ,再分別提出筆畫組資訊。從筆畫組資訊,計算每個部件的複雜度,以決定它們應佔的比例,最後,一筆一劃地將字形繪製出來。 產生器是以筆畫為繪製

13、單元,因此,只要有不同風格的基本筆畫,即可產生不同的字體。目前單線體、黑體、圓體和宋體的筆畫已完成,未來有更多的精力,再研製更多的字體筆畫。 造字碼和字形檔之間的連繫必須人工介入,是無機、隨意而武斷的,這是缺字問題的根本亂源;而構字式搭配字形產生的方案,則是全自動、開放的架構,能描述所有的漢字,包括異體字、避諱字、新字甚至錯別字。 此外,構字式允許使用者以部件的方式來搜尋缺字(見圖二),這也一併解決了缺字的輸入及檢索問題。因此在古籍的製作階段,這個方案也能展現無比的優勢,徹底免除了缺字的字形繪製、編碼管理和發佈造字檔等所有工序。 圖一:動態字形產生器 專題論述 佛教圖書館館訊 第39期 93年

14、9月 55圖二:以部件的方式來搜尋缺字 限於篇幅,本文無法深入探討動態字形產生的 背 後 的 原 理 , 有 興 趣 者 請 逕 往http:/.tw/efeditor/下載相關工具,或來信指教。 三、全文檢索 古籍所需的全文檢索技術,和一般應用於網頁的檢索引擎,有以下的不同點: 1. 文言文沒有明顯的詞組概念,很難進行自動分詞。 2. 網頁基本上是零碎的資料段,彼此間沒有密切的關連。古籍XML是有嚴密組織的大型資料庫,有明確的文件結構及豐富的原書訊息,如章目、頁碼、行數、校勘、版面樣式等。 3. 網頁檢索注重的是查準率,著重於如何從數以億計的網頁中,挑出最接近使用者需要的網頁。而古籍搜尋著重

15、查全,搜尋結果必須有精確的符合筆數,及書名、章節、原書頁碼、行數等資訊,必要時還需顯示古籍原始的影像圖片。 4. 網頁檢索引擎在網路伺服器上執行,程式龐大且複雜,只有專家才懂得安裝及維護。而筆者的理想是設計出可以在PC硬碟、PDA、隨身碟及光碟上直接運行的系統,免安裝,普通人都可輕鬆使用。 由於上述這些差異,市面上找不到現成可用的產品,因此,筆者開發了以Unicode為索引單元,並接受國際標準的表意文字描述序列(Ideographic Descriptive Sequence)的XML全文檢索核心,這個核心可以索引包括中英文在內的數十種語言。 本核心的索引檔結構和比對演算法經過精心的設計,速度

16、相當理想,經實際測試,以任意詞組檢索大正藏近六千萬字的本文,只要0.04秒(pentium 1.3 GHz),就可以找到所有該詞組出現的位置和次數。(見圖三) 由於檢索核心的反應速度很快,讓使用者介面擺脫了輸入字串查詢找不到(或找到太多)再輸入的傳統搜尋方式,提升到逼近式檢索(incremental search)的境界,也就是使用者每輸入一個字,程式即完成搜尋作業,將比對結果即時地反映出來,使用者可以隨意調整輸入,來逐步地逼近理想的結果。 全文檢索其實並不困難,基本的原理是,依序讀取所有的文件,記錄每個字所在的位置,製成反向索引(Inverted index)。搜尋程式利用這個索引,就可以快速得到每個字的所在位置。因此,搜尋所需的時間就和資料量大小沒有關專題論述 佛教圖書館館訊 第39期 93年9月 56係。古籍全文檢索真正的挑戰

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号