文字学入口网站的规画

上传人:ldj****22 文档编号:35213929 上传时间:2018-03-11 格式:PDF 页数:14 大小:1.18MB
返回 下载 相关 举报
文字学入口网站的规画_第1页
第1页 / 共14页
文字学入口网站的规画_第2页
第2页 / 共14页
文字学入口网站的规画_第3页
第3页 / 共14页
文字学入口网站的规画_第4页
第4页 / 共14页
文字学入口网站的规画_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《文字学入口网站的规画》由会员分享,可在线阅读,更多相关《文字学入口网站的规画(14页珍藏版)》请在金锄头文库上搜索。

1、文字學入口網站的規畫 莊德明 中央研究院資訊科學研究所研究助技師 鄧賢瑛 中央研究院資訊科學研究所研究助 摘 要 漢字有形、音、義三要素。在字形方面,中研院資訊所文獻處實驗已於 2008 5 月推出漢字構形資庫 2.52 版,這個版本收古今漢字 116,790 個; 其中楷書字形 62,942個,小篆及重文 11,100 個,文 21,413個,楚系簡帛文字 19,138個,甲骨文 2,197個;另收漢語大字典體字表 12,208組。我們已 用漢字構形資庫開發漢字部件檢字系統,並用解決缺字問題。經過這些 的驗證,這個缺字問題的解決方案,基本上是可的。目前, 位典藏與位 學習國家型科技計畫至少已

2、有 23 個資庫採用漢字構形資庫解決缺字問 題。 雖然經十五的開發,漢字構形資庫在資庫本身或推廣方面,仍 有很大的改善空間:一、漢字有形、音、義三要素,漢字構形資庫目前只著重 在字形知的整,尚未涉及字音與字義;建一個形、音、義俱備的漢字知 庫,仍是我們長遠的目標。二、漢字構形資庫的缺字解決方案,採用單位仍侷 限於中研院及位典藏與位學習國家型科技計畫 ,仍須再推廣。三、部件 檢字雖然比部首檢字,比筆畫檢字有效,但仍應再增加部首、筆畫等其他 檢字方式,以求完備。四、漢字構形資庫雖可透過網際網免費下載,然而 要增加使用人次,應再開發中文繁簡體、英文、日文、韓文版或網應用版。 上述問題的解決關鍵,其實

3、就在網際網。原先只想研發漢字構形資庫的 網版以解決缺字、檢字及下載安裝的問題,然而要建形、音、義俱備的漢 字知庫,最好的方式還是將漢字構形資庫的網版擴充成文字學入口網站。 文字學入口網站主要是用漢字的形、音、義知檢字,並提供漢字字典網站 的結;如此一,即可透過網際網,集眾人之建漢字知庫並推廣漢 字構形資庫。規畫中的文字學入口網站應具有下特色:一、多 語的使用介面。 二、多樣的檢字方式。三、可檢同字集。四、可解決缺字問題。五、提供字 典網站結。具有上述特色的文字學入口網站具有下效益:一、推動字書上網。 二、建漢字知庫。三、漢字知的擷取。四、闡揚漢字文化。 文字學入口網站的規畫 莊德明 中央研究院

4、資訊科學研究所研究助技師 derminggate.sinica.edu.tw 鄧賢瑛 中央研究院資訊科學研究所研究助 ying0419iis.sinica.edu.tw 壹、漢字構形資庫的研發與推廣 從殷商的甲骨文算起,漢字的使用已達 3,400之久;然而電腦及網科技 的蓬勃發展,只過是近幾十的事。今天漢字在電腦中的應用,應該只是 滿足使用者基本的需求,還完善,其最根本的問題為電腦中的漢字知嚴重 足。中央研究院資訊科學研究所文獻處實驗室自 1993 起,開始進漢字 位化的工作,我們的研究重心在於用電腦建漢字的知庫,同時透過這些知 提升電腦處漢字的能,而其中最主要的成果為建漢字構形資 庫 。 漢

5、字構形資庫是一個記漢字形體知的資庫,這些知包含古今文字 的源演變、字形結構及體字表。自從 1998 8 月推出第一個正式版本後, 其間為考使用者的需求及漢字的特性,經次重大的改版新,截至 2009 2 月份為止,所推出的版本已新至 2.52 版;漢字構形資庫的重要版本沿 革,可表一。2008 5 月推出漢字構形資庫 2.52 版,這個版本收古今 漢字 116,790 個;其中楷書字形 62,942 個,小篆及重文 11,100 個,文 21,413 個,楚系簡帛文字 19,138 個,甲骨文 2,197 個;另收漢語大字典體字表 12,208組。這個資庫的主要特色如下 1 : 1. 銜接古今文

6、字以反映字形源演變。 2. 收同史時期的體字表,以表達同中文字在各個史層面的使用 關係。 3. 記同史時期的文字結構,以呈現中文字因義構形的特點。 4. 使用構字式及風格碼解決古今文字的編碼問題。 我們已用漢字構形資庫開發漢字部件檢字系統,並用解決缺字問題。 經過這些的驗證,這個缺字問題的解決方案,基本上是可的。目前位 典藏與位學習國家型科技計畫至少已有 23 個資庫採用漢字構形資庫 解決缺字問題,其中規模最大的為中研院史語所漢籍電子文獻,漢籍電子文獻已 上線古籍達三億五千八百萬字。在解決缺字問題方面,除持續擴充漢字構形資 庫外,我們還進下工作: 1. 以公眾授權模式提供中研院漢字部件檢字系統

7、的原始程式碼及相關資 ,釋出給大眾使用。 21 請考漢字位化的困境及因應:談如何建漢字構形資庫,莊德明,第五屆岸三院 資訊交與位資源共享研討會,台,2007 10 月 2 請考http:/cdp.sinica.edu.tw/cdphanzi/declare.htm 12. 推動漢字構字標準,撰寫中文字構形別序標準草案,目前已函送 標檢局審議。 表一、漢字構形資庫的版本沿革 版本 /月/日 內容簡介 字 備註 1.0 1998/8/6 收五大碼字形 13,051 個。 13,051 1. 進字形結構分析。 2. 研發部件檢字技術。 1.4 2002/05/17 1. 增收漢語大字典字 頭,合計

8、54,711 個字形 2. 收漢語大字典體 字表 12,208 組。 54,711 1. 制定構字式以解決缺字 問題。 2. 收體字表。 2.1 2003/03/17 增收文解字詁的小 篆及重文共 11,100個。 65,811 收小篆,銜接古今漢字, 並開始走向文字學資庫。 2.2 2004/12/06 增收文編中的 3,459 個文及其楷定字。 73,779 收文構字。 2.3 2005/08/03 增收楚系簡帛文字編中 的 2,627個楚系簡帛文字及 其楷定字。 77,268 收楚系文字構字。 2.4 2006/8/2 增收殷墟甲骨刻辭纂 中的 1,970個甲骨文。 81,720 收甲骨

9、文構字。 2.5 2007/8/9 1. 增收文編中文, 總計 20,069 個文。 2. 增收楚系簡帛文字編 中的楚系文字,總計 16,801個。 3. 增收殷墟甲骨刻辭 纂中的甲骨文,總計 2,197個。 112,533 1. 大增收文及楚系簡 帛文字的重文,合計 30,462個。 2. 制定風格碼以解決古漢 字的編碼問題。 3. 研發出處檢字技術。 4. 新增 Microsoft Word自動 貼圖功能。 雖然經十五的開發,漢字構形資庫在資庫本身或推廣方面,仍 有很大的改善空間: 1. 漢 字 有 形、音、義三要素,漢字構形資庫目前只著重在字形知的整, 尚未涉及字音與字義;建一個形、音、

10、義俱備的漢字知庫,仍是我們 長遠的目標。 2. 漢字構形資庫的缺字解決方案,採用單位仍侷限於中研院及位典藏 與位學習國家型科技計畫 ,仍須再推廣。 3. 部件檢字雖然比部首檢字,比筆畫檢字有效,但仍應再增加部首、 筆畫等其他檢字方式,以求完備。 4. 漢字構形資庫雖可透過網際網免費下載 3 ,然而由於檔案太大(約 84M) ,而且只能在繁體中文版下使用,以致下載人次增加有限。目前每 天的下載人次約 10次,總下載人次為 14,662次(截至 2009 3月 26日3漢字構形資庫下載網址:http:/cdp.sinica.edu.tw/cdphanzi/ 2止) 。要增加使用人次,漢字構形資庫應

11、再開發中文繁簡體、英文、 日文、韓文版或網應用版。 上述問題的解決關鍵,其實就在網際網。原先只想研發漢字構形資庫的 網版以解決缺字、檢字及下載安裝的問題,然而要建形、音、義俱備的漢 字知庫,最好的方式還是將漢字構形資庫的網版擴充成文字學入口網站。 文字學入口網站主要是用漢字的形、音、義知檢字,並提供漢字字典網站 的結;如此一,即可透過網際網,集眾人之建漢字知庫並推廣漢 字構形資庫。這樣一個入口網站同於 Google、Yahoo等用關鍵詞找網頁的 入口網站,而這樣的需求也非 Google、Yahoo等入口網站所能達成。建文字學 入口網站的構想始於 2008 初,接著我們開始搜尋網際網的字典網站,

12、瞭解 這些網站的檢字方式及字典內容,同時也發現部分網站已具有文字學入口網站的 概。下一節先介紹幾個重要的網站,再明我們對文字學入口網站的規畫及 實施。 貳、漢字字典網站簡介 一、 體字字典 (網址:http:/dict.variants.moe.edu.tw/) 體字字典網站為教育部國語會所建置,介面採用繁體中文,收字 為 106,230 字(2004 1月版) ,其中正字 29,892字,體字 76,338字(含待考 之附字) 。本字典所用的正字標準據教育部常用字表 4 、 次常用字表 5 、 罕用字表 6 等三正字表。遇有三字表未收,而須獨音義之文獻字形,則 補收為新正字表 。體字收則考教

13、育部體字表 7 。 8 體字字典採用部首及筆畫檢字,檢字後再出該字的音及釋義。 如呡在作為正字時,音為,意思是微嚐 ;而當呡作為吻 字的體字時,則為,釋義同吻字。此外,在一旁的窗格中,還會 出該正字在文解字大徐本 、 文解字段注本或龕手鑑等 考資中的明。圖一為呡字的檢字界面, 呡字為口部 5 畫。圖二 為呡字可作為吻字的體字。 在體字字典網站中,字形的呈現方式是併用圖片與造字檔,因此使用 者可能必需匯入該網站提供的造字檔,才能正確的瀏覽網站內容。同時因為含有 大的字形圖片,因此根據使用者的電腦等級及頻寬等條件同,瀏覽的暢 也會受到影響。 4此處指教育部於 1982 9 月交正中書局印之 常用國

14、字標準字體表 , 共收常用字 4808 字。 5此處指教育部於民國 1982 10 月印之 次常用字國字標準字體表 , 共收次常用字 6334 字, 並含 9 個單位詞,共計 6343 字。 6此處指教育部於民國 1983 10 月印之罕用國字標準字體表 ,共收罕用字 18388 字。 7此處指教育部於民國 1984 3 月印之體國字字表 ,共收體 18588 字,補遺 22 字。 8以上資考教育部體字字典編輯 (http:/140.111.1.40/bian/fbian.htm) ,以及 體字字典系統用語 (http:/140.111.1.40/ex.htm) 。 3圖一、 體字字典 呡字的檢字界面 圖二、 體字字典 呡字為吻的體字 二、CNS11643 中文標準交換碼全字庫 (網址:http:/s11643.gov.tw) CNS11643中文標準交換碼全字庫是由政院主計處電子處資中心所建 置,介面採用繁體中文,5.0版可供查詢的字共有 87,047個中文字。查詢方式分 為:筆畫、部首、注音符號、倉頡碼、拼音、CNS碼、部件 9 及筆順序 10 查詢八 種選擇。以櫫字為, 櫫字的總筆畫為 19畫;部首為木部;倉頡碼9全字庫所依據的部件版本為CNS11643_2_94。 10全字庫所依據之筆順序版本為CNS11643_1_94 4

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号