植基於语意概念及使用者认知观点的诗词资讯检索系统设计

上传人:新** 文档编号:567962563 上传时间:2024-07-22 格式:PPT 页数:24 大小:157KB
返回 下载 相关 举报
植基於语意概念及使用者认知观点的诗词资讯检索系统设计_第1页
第1页 / 共24页
植基於语意概念及使用者认知观点的诗词资讯检索系统设计_第2页
第2页 / 共24页
植基於语意概念及使用者认知观点的诗词资讯检索系统设计_第3页
第3页 / 共24页
植基於语意概念及使用者认知观点的诗词资讯检索系统设计_第4页
第4页 / 共24页
植基於语意概念及使用者认知观点的诗词资讯检索系统设计_第5页
第5页 / 共24页
点击查看更多>>
资源描述

《植基於语意概念及使用者认知观点的诗词资讯检索系统设计》由会员分享,可在线阅读,更多相关《植基於语意概念及使用者认知观点的诗词资讯检索系统设计(24页珍藏版)》请在金锄头文库上搜索。

1、植基於語意概念及使用者認知觀點的詩詞資訊檢索系統設計:以全唐詩網站為例http:/cls.hs.yzu.edu.tw第三屆文學與資訊科技國際研討會日本學藝大學主辦2007年3月19-20日台灣元智大學中國語文學系羅鳳珠清華大學張智星、大葉大學許介彥错球弦置失唯讣蛆聋莹知挫磁逗梨帧枷钮惫韦灌僻汲呀仑易肤盛涕推结著植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计1人與電腦人:能分辨字形的符碼能解讀字詞含義的意碼 電腦:只能分辨字形的符碼電腦理性客觀,處理有規則而合邏輯的資料。 所以引用電腦做為偏重主觀抽象感知的詩詞文學研究輔助工具,比客觀知識

2、的自然科學困難得多。磋武陀园葛鸦扭啮企许幽猩延焦穆嗽疼钟莲气酸坷蹦逻猴淹盈辨樟掖忿署植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计2詩詞與電腦詩詞:感性主觀,講究:只可意會而不可言傳不著一字而盡得風流言有盡而意無窮電腦:電腦理性客觀處理有規則而合邏輯的資料。 都趋滁檬剪党姿刻侧纵牡试堑签沽停庇疯性羌酒二别吞智敌庶晋龋今颗更植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计3電腦的侷限電腦處理有規則及合邏輯的資料,其效率高於人腦何止千萬倍,但是電腦只能分辨字形的符碼,無法解讀字詞含義的

3、意碼,所以引用電腦做為偏重主觀抽象感知的詩詞文學研究輔助工具,比客觀知識的自然科學困難得多。電腦縱然有強大的記憶與搜尋能力,因為只能以字形分辨,無法辨別語意內涵,不具有思考能力,不具有人的認知、感知能力,不具備人的知識體系,無法滿足使用者的需求。 下则奄背株持腥俐酱黑据祟励肛暴茵溅都唬出票嘉淮淳烁突赦爱施脉克厄植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计4韻文的語言特色袁行霈教授在中國詩歌藝術研究原序論及:如果從語言學的角度給詩歌下一個定義,不妨說詩歌是語言的變形,他離開了口語和一般的文書語言,成為一種特異的語言形式。 無論從語意或語

4、言形式的角度,詩歌非但與一般口語、文書語言不同,與其他文體也存在著差異,再加上詩歌的形式受到詩歌格律之平仄聲調及字數、句法上的限制,語言更精鍊,語意更豐富,修辭更講究,語境更複雜,需要更多聯想,解讀更困難。 氮短价恃斥极册腻矛达范睛付甸稿喳凡养嘶独蛙利蚀峪馁抗耗削酞酣悯悸植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计5資訊檢索(Information Retrieval)的發展歷程科學使得人際間的交流非常的快速,科學也提供了思想的記錄,使人類能夠運用這些思想,知識就不再限於個人,而是屬於人類的所有生命。( Vannevar Bush )

5、記錄思想的文獻儲存在圖書館,圖書館的資料按照字母或數字排列的索引,只能一層一層往下尋找,不符合人類大腦以思維聯繫尋找資料的方式,因此,Vannevar Bush便構思著建立一個以聯繫(association)代替索引(indexing)以選擇資料的機械化個人文件夾和圖書館(mechanized private file and library) ( Vannevar Bush )資訊無論以任何物質非物質載體、任何媒體形式呈現,從資訊產生者到資訊接收者之間,都會有認知上的落差,提取方法的不同,而產生給予、接受與取得的障礙。 崭圭宫叹绰北酱懦阳蚤街杠玻却撇墨笆皮至舱粕逗深刑殴承牌穆辟说南西植基於语

6、意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计6詩詞文體語言的特性所衍生的資訊檢索需求1/2詩詞是特殊的語言形式,以不同的修辭技巧達到精緻凝練、語意無窮,情境高遠、言意與形神兼具的境界。 透過修辭的技巧,將作者主觀內化的情思意念,投注在客觀外顯的事物上,作為作者與讀者之間引發共鳴的溝通媒介。詩詞所使用的詞彙,有一些是客觀知識的描述闡釋,有一些是主觀情意的引導感發。 养鄂尚雇蚜各岿椎腐始场期猿懊署播烁零述肖壁食焚蜘忍卓阉扬菊咨鸟旋植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计7詩詞文體語言

7、的特性所衍生的資訊檢索需求2/2主觀情意的感發,往往因為讀者的學養、經驗、年齡、心理氣質、思想境界等各種背景差異而使感受各有不同,因此相同的詞彙,相同的作品,感受上存在者個別的差異,即便是同一個人,經過不同時空,重讀相同的作品,感受也會不同,這是客觀認知與主觀感知的問題。 文學表達的情感通常是主觀而抽象的,即便是藉助客觀的物象作為作者與讀者之間溝通的媒介,仍然存在著感知層次的不同,因此,資訊檢索的技術,應用在文學上,其困難度比自然科學領域高得多,應用在特殊語言形式的詩詞,困難度又高於小說、戲劇、散文等文體。话汞暮凭桔合侥辆棍尾唁傅镭姜彰挪厢浴眷评俞状咐谬催肛耻抵症枉胀魁植基於语意概念及使用者认

8、知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计8傳統文學網站資訊檢索功能及缺點1/2傳統的文學網站檢索都只能比對字形,不能分辨詞形、詞義。文學講究修辭變化,講究文采意境,一詞多義,一義多詞的現象比比皆是。只能比對字形的檢索,檢索結果的完整性及正確都不足,不能滿足一般的使用需求,對於文學領域以研究及教學為目的的使用者而言,尤其不足。以月為例:一詞多義:月常用的基本含義有四種,其一是月亮,其二是曆法單位,其三是季節代稱,其四是圓形如月亮的物品,這是一詞多義。一詞多義會使檢索時出現字形、詞形相符但語意不符的資料,影響正確性一義多詞月若作月亮解時,同義詞有月亮玉兔銀蟾

9、玉杯玉鉤玉盤玉輪玉蟾生魄冰輪兔降孤光明霽金波金輪桂華桂魄素娥掩夜清光寒暉嬋娟瓊瑤蟾影,這是一義多詞。 一義多詞會遺漏很多語意相同但字形、詞形不同的資料,影響完整性。 厂梯律丈饺话听皑趁赘儿钞帕绷侈廊饥淡神拟涕灌烬腰宗阎毛旬滓超抠锯植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计9傳統文學網站資訊檢索功能及缺點2/2電腦無法分辨詞組的構詞單位,所以檢索時會產生因為無法正確判斷詞組而造成檢索結果錯誤的情形。以春風為例從全唐詩網站檢索,共得1,182筆資料:劉長卿使回赴蘇州道中作詩:春風何事遠相催,路盡天涯始卻回。薛稷奉和聖製春日幸望春宮應制詩

10、:九春風景足林泉,四面雲霞敞御筵。白居易喜夢得自馮翊歸洛兼呈令公:已將四海聲名去,又占三春風景來。白居易三月三日:暮春風景初三日,流世光陰半百年。曹唐小游仙詩,九十八首之八十:玉洞長春風景鮮,丈人私宴就芝田。等4筆與春風無關的詩句,都會被檢索出來。 棒意音练鸦拍倘兄猫缴叙圆服掸纹棘涝仕串椽纷痰扑林鸵山锅冶诌鸟湍檬植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计10全唐詩的分類:以詩的主題分類唐詩分類大辭典,收錄唐詩10,197首詩,分類以題材為標準。分為四十部,一千零八十三類:天文部、四時節氣部、地理部、山部、河川部、京都部、州郡部、邊塞

11、部、帝王部、皇室部、職官部、治政部、禮部、樂部、文藝部、軍事部、人事部、儒家部、釋佛部、道家道教部、居處部、寺觀部、祠廟部、產業部、器用部、服飾部、飲食部、玉帛部、技藝部、方術部、花部、草部、果部、木部、鳥部、獸部、鱗介部、虫豸部、祥異部、雜部。 根據唐詩分類大辭典凡例所言分類以題材為標準,檢視全書,有幾個問題值得商榷: 1.分類與詩作內容不合 、2.標舉小類的體例不一、3.專名與通稱、俗名混合稚织温亮址狗淬孺谱降微蚁宋盟晒绢郴寒没信郴健誊哺遍急焙戍铺煤隐题植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计11詩詞語言語意標記對全文檢索的重

12、要性1/9詞彙的語意標記,可以幫助讀者解讀詞彙、體會詩作,與詩人的情思意念共鳴;語意標記資料庫的建立,也可以使電腦從只能分辨字形提升到可以理解字詞義,進而達到提升全文檢索質量的目標。 詩是特殊的語言,特別講究聲律及形式之美,受到字數及平仄押韻等格律的限制,詩的用語與語體文不同。這種特殊文體的特殊用語,若以傳統比對字形的方式開發檢索系統,檢索的質量勢必無法滿足使用者的需求。詩句的語意不一定在單一詞彙顯示,或說從單一詞彙解讀,不見得能夠完整理解整首詩的含義。整首詩的含義,有時需要從共現的詞彙、從作者及寫作的背景綜合判斷,非常複雜,也非常困難。 忧讹峦购矽迪蓑膝练礼植项染牵显末戚醇玫兄牛廓当衡松衍邱

13、豌煽腑拥玫植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计12詩詞語言語意標記對全文檢索的重要性2/9以酒為例寫酒的詩,不一定使用酒字,舉凡:瓊漿、玉液、濁醪、花釀、新醅等詞彙指的都是酒。李白舉杯邀明月,對影成三人、飛蓬各自遠,且盡手中杯,雖然沒有寫到酒字,杯中盛的都是酒。白居易效陶潛體詩詩:清光入杯杓,白露生衣巾。乃知陰與晴,安可無此君。的此君是酒。然而宋之問綠竹引詩:含情傲睨慰心目,何可一日無此君。的此君是竹子。王翰涼州詞,二首之一詩:醉臥沙場君莫笑,古來征戰幾人回。使之醉臥沙場的是葡萄美酒。 李白和盧侍御通塘曲詩:偶逢佳境心已醉,忽

14、有一鳥從天來。使他醉的,是佳境不是酒。 脂挟各屡晦揍棋劳绍锄园贤拴佃沉赔粟飘杏妨毒耕汤焊瘟咱冻褥嚼卢镶基植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计13詩詞語言語意標記對全文檢索的重要性3/9詩人寫詩,會創造新的詞彙,也會在已有的詞彙上賦予新的詞義,二者皆有可能為後代詩人沿用。 詩詞用語可以區分為:一、一般用語二、特殊用語:典故、意象、比喻三、情境用語昆栅拖频溜谨梧耸掺久挑你忧石总丝瞥拴沟詹亿风蓬怔砷楚耀糜诺道腥搁植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计14詩詞語言語意標

15、記對全文檢索的重要性4/9特殊用語:典故、意象、比喻因某位詩人所使用的意象,廣為後世詩人沿用而成為典故的詞彙,都有固定的詞義,在語意標記時,可以標記其典故詞義。例如南浦,最早出現於楚辭卷第二九歌河伯:與女遊兮河之渚,流澌紛兮將來下。子交手兮東行,送美人兮南浦。其後江淹別賦:春草碧色,春水淥波。送君南浦,傷如之何!這二處的南浦都附著了離別的感傷色彩。唐代王維寫下齊州送祖二:送君南浦淚如絲,君向東州使我悲。為報故人憔悴盡,如今不似洛陽時。之後,詩人寫水邊送行的感傷,都使用南浦,從此之後,南浦已經牢牢的與離別感傷結合在一起。 怠局字佛瞻莫绥阀裸亩轻率水疲操臼可妊旅郑欠测绕殃报耀轧诽坯茵舶瘟植基於语意

16、概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计15詩詞語言語意標記對全文檢索的重要性5/9情境用語詩人們以某些詞彙共現在同一首詩中,以達到傳遞心境,烘托情境的效果,所使用的詞彙,或所選擇共現的詞彙,與所要烘托的情境,必然具有物象本身的特徵及某些人際間共有的認知脈絡可以依循。這個共同的認知脈絡,引發讀者的認知、感知與聯想,成為作者與讀者之間共鳴的媒介,詩人因心境的感知,以聯想創造文學藝術,讀者以聯想、感知體會詩人的創意與心境、情境。 笑坦哆泉臀闪设呀婚剥透牌弓钟矛着裸釉俗擅妈救撅殃持苹蛾日木阿帅熔植基於语意概念及使用者认知观点的诗词资讯检索系统设计

17、植基於语意概念及使用者认知观点的诗词资讯检索系统设计16詩詞語言語意標記對全文檢索的重要性6/9情境用語:以苔蘚為例苔蘚植物是由水生生活趨向陸生生活的植物族群,生長於極端潮濕的向陽地區或是陰暗的環境中,以配合其親水性結構,不然便很快枯死。這些地方往往也是人跡罕至之處,這是我們對於苔蘚的認知基礎。詩詞中寫到苔蘚時,往往是江邊道路多苔蘚,塵土無由得上衣。 的失意文人,或是玉階陰陰苔蘚色,君王履綦難再得。 的失寵佳人,或是天花寂寂香深殿,苔蘚蒼蒼閟虛院。 的塵外僧人,或是肌膚銷盡雪霜色,羅綺點成苔蘚斑。 的空閨女子,或是花木閒門苔蘚生,滻川特去得吟情。 的山林雅士。苔蘚若是長於門前或台階,詩人將之與

18、門、階並列呈現時,更核心的集中在描寫因失寵而幽居空閨女子的淒清冷落。鄭谷長門怨,二首之二:流水君恩共不回,杏花爭忍掃成堆。殘春未必多煙雨,淚滴閒階長綠苔。以不再使用而長滿綠苔的閒階,婉轉呈現幽居於此的空閨女子,因君恩不回,沒有人前來,階閒無用而長滿綠苔的蒼涼景象。 亩喻踊茹递狞蝇鼻疾馒柒横纯泵欺势舵袁嘱造震狄很似黑绦揉岔撞姓焊狄植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计17詩詞語言的語意分類對全文檢索的重要性7/9 使用者還具備由各種單一詞彙的知識所建構的知識體系,這是只能分辨字形的電腦所無法具備的。詞彙經過語意標記,雖然已經能夠使

19、電腦初步具有分辨語意的能力,但也只是零星片段沒有組織的語意,不符合人的知識體系。無法符合人類以思維聯繫搜尋資料的行為模式。 詞彙經過語意標記之後,需要建立符合知識結構及人的知識體系的知識架構,建立知識連結的軌跡,才能夠使全文檢索從索引式提升為思維聯繫式的檢索。 椿冰痘湿络县猪瘟氧卒柳畔卒形肠扑昂胰冀蚕遂肚浚蜒偏惑淘谋鸵杖卤芭植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计18詩詞語言的語意分類對全文檢索的重要性8/9梅家駒主編,上海辭書出版社出版的同義詞詞林最具代表性。本書第一版發表於1983年,第二版發表於1996年,收錄詞彙54,23

20、5筆,將詞義分為12大類,95中類,1,428小類,3,925詞群。每一次類所包含的詞彙以及該詞彙的同近義詞依序列出,成為研究詞彙語意學及語意概念分類的重要工具書。 妨漆至庇严曹苇袋曰喳厢屯吾岁巨靶详甫怜拼虫倍买蕾咙牟亥认泉院史繁植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计19詩詞語言的語意分類對全文檢索的重要性9/9同義詞詞林從語言學的學理做專家分類,詩詞韻文語意分類,最優先的考慮是文學文本內容的修辭特性與文體語言的特性。文學的內容以人為主軸,人、事、時、地、物五個要素是小說、戲曲內容必備的元素,詩詞因為受到字數的限制,在有限的文字

21、裡時常省略一些用語,所以詩詞內容的文字,雖然不一定直接寫及這五項元素,但整體而言,所描述的內容,仍然包含了這些元素,例如:柳宗元的江雪:千山鳥飛絕,萬徑人蹤滅。孤舟蓑笠翁,獨釣寒江雪。詩中有人(孤舟蓑笠翁)、有事(獨釣)、有時(雪,冬天)、有地(寒江)、有物(孤舟)。 詩詞韻文語意分類表 人名資料庫 地名資料庫(行政地名、通俗地名) 典故資料庫 廣群芳譜抡妖豫喷蹄鹰尚磅酣九碉烘跺亮菇硼乞析笔四羚掠对血尝柏与避极胁遣娜植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计20植基於語意學及使用者認知觀點的全唐詩全文檢索設計钉藐惟翌奎制句欺勇憾畸骤

22、熏洒尚细攻经钵健挡扶衍鹤挪挤栈创虫折铭肤植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计21結論與未來的發展詩詞語意標記及分類的困難1/3一、詩詞語言的特殊性,包含構詞的特殊、詞義的特殊,篇章結構的特殊,這些特殊性增加了詩詞詞彙切分及語意標記、語意分類的困難,也使得詩詞語意概念的分類,除了必須符合知識認知層次的語言知識分類,還需顧及情感認知層次的意象取向分類。二、詩詞語意標記的困難,還包括詩詞喜用多義字來創造聯想的空間,以引出無窮的趣味及意在言外的情境。 封毒缴祈案倡违猿遥克吩见瞻簿翠懦准坍蛮公认贯贰粒墟嗡棋溯砍勘靖嘶植基於语意概念及使用

23、者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计22結論與未來的發展詩詞語意標記及分類的困難2/3三、宋代以後,受到理學發達及禪宗思想的影響,有很多的哲理詩,如蘇軾題沈君琴:若言琴上有琴聲,放在匣中何不鳴?若言聲在指頭上,何不於君指上聽?楊萬里戲筆:野菊荒苔各鑄錢,金黃銅綠兩爭妍。天公支與窮詩客,只買清愁不買田。這些哲理詩正是劉大魁所說的只可意會而不可言傳的作品,需仰賴讀者的哲理思維領悟,當然也不是單獨的詞義標記所能夠清楚描述的。四、除了構詞與詞義的特殊性之外,詩詞文體的格律限制,句法結構與其他文體不同,詩詞常因受限於平仄格律而使用倒裝、典故、雙關義、縮略語

24、等修辭技巧,如蘇軾和子由柳湖久涸,忽有水,開元寺山茶舊無花,今歲盛開二首:其一:如今勝事無人共,花下壺盧鳥勸提。 這個句子的下句花下壺盧鳥勸提,完整的詞句是花下提壺盧鳥勸人提起葫蘆喝酒。 挑此疥亡瞎雁架西蹋哪吱群颧位痞兔销纸育耍榜示誉芥劳吕途捷吼压八炬植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计23結論與未來的發展詩詞語意標記及分類的困難3/3從以上所述可知,可以透過語意標記及語意概念分類,讓電腦從分辨字形提升到理解詞義,使電腦的認知能力更接近人的知識體系,以提升全文檢索的品質。人的知識體系分為對知識的認知、對情意的感知、對哲理的辨知,認知是表述的層次,感知需要聯想輔助,哲理詩的解讀體會,卻不是單純的邏輯思維能解決,也就更難以用語意標記處理。全唐詩網站所包含的文本數量龐大,人工校對所需要花費的人力很多,加上虛詞的語意標記及分類的困難度比實詞高,本研究的語意標記及分類只針對表中項目所訂的類別分類,撰寫本文時,還來不及完成人工校對,語意的分類也不完整、不精確,尚待後續的研究修正及補足。 耐粤释辨酵惊谰扣停药惹任衫饱凳爸明锨楚产龄昂侄跟碌毗呛氮胰汤笼酋植基於语意概念及使用者认知观点的诗词资讯检索系统设计植基於语意概念及使用者认知观点的诗词资讯检索系统设计24

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号