多义词甄别的知识库建构与对传统词典义项的改造

上传人:宝路 文档编号:49965765 上传时间:2018-08-05 格式:PPT 页数:69 大小:225.43KB
返回 下载 相关 举报
多义词甄别的知识库建构与对传统词典义项的改造_第1页
第1页 / 共69页
多义词甄别的知识库建构与对传统词典义项的改造_第2页
第2页 / 共69页
多义词甄别的知识库建构与对传统词典义项的改造_第3页
第3页 / 共69页
多义词甄别的知识库建构与对传统词典义项的改造_第4页
第4页 / 共69页
多义词甄别的知识库建构与对传统词典义项的改造_第5页
第5页 / 共69页
点击查看更多>>
资源描述

《多义词甄别的知识库建构与对传统词典义项的改造》由会员分享,可在线阅读,更多相关《多义词甄别的知识库建构与对传统词典义项的改造(69页珍藏版)》请在金锄头文库上搜索。

1、多义词甄别的知识库建构与 对传统词典义项的改造厦门大学中文系 国家语言资源监测与研究中心 教育教材语言分中心 苏新春 2009-9-14 北京大学计算语言学研究所要点: WST系统介绍 义项库的来源与作用 传统词典义项WSB存在的问题 对传统词典义项的改造 词义标注就是用计算机为真实语境中 的每个词选择、确定并标示一个适切 、对应的义项。 北大计算语言学所对这一研究进行了卓越 的研究。 吴云芳、俞士汶信息处理用词语义项区 分的原则和方法(2007) 吴云芳词义消歧研究:资源、方法与评 测(2009) 。 国内学者在这一领域发表了重要成果的还 有黄昌宁、童翔、李涓子、金澎、卢志茂 、刘挺、李生、

2、鲁松、白硕、段慧明、郭 涛、杨尔弘、张国清、张永奎等先生。详 见吴文(2009) 我们开始此项研究的缘起: 承担了国家社科基金课题:基于国家 语委“通用语料库”之上的汉语义频 词库的开发(04BYY009)。 原课题目标主要是理论探索与数据获 求,无意走上了这条不得不走的艰难 之道。主持人:苏新春 主要参加人:李安、卢伟清、洪桂治、蒋 媛、曾妍妍、刘海燕 参加人:张蕾、唐师瑶、张玉彪、田立宝 、武超杰、王艳春、王珊、石梦苏、王建 军、郭佳、徐晓煜、黄挺、刘楠、王天佐 、周蕾、张丹丹、刘名、叶醒悦、肖婷华 、余龙浩、张其良、赵方、徐婧、栾玉皎 等。2004年以来经历过的阶段:建设语料库;讨论理论

3、模型; 提取规则; 修订义项; 验证库; 苏新春、王惠、卢伟清、秦少康,以义 项为单位,以义群为纽带,以词义辨析为 内容进一步完善机用语言知识库之方 案,第六届汉语词汇语义学会议论文 集(SINGAPORE COLIPS PUBLICATIONS),2006。 苏新春、李安,计算机多义词自动识别 中的语义标注,第9届汉语词汇语义学 术研讨会报告论文,新加坡,2008 “现代汉语多义词词义自动标注系统” Automatic Polysemous Sense Tagging of Modern Chinese 简称WST WST包括以下七个分库: 语料库 义项库 规则库 语法库 语义库 验证库 义

4、频库1语料库全称为“现代汉语语料库”。 容量达1.9亿字,包括新闻语料、文 学作品、教材、科普作品等。义项标 注提取规则的来源库,所有词的使用 规则的提取都是根据对该库里词语真 实状态进行概括、提炼的结果。2义项库全称为“现代汉语词义标注用义项 库”(Word Sense Base for Automatic Polysemous Sense Tagging of Modern Chinese),简称WSB。 包括词8万余条,义项9万余个。有多义词 近9千条。主要吸收了现代汉语词典 第3版、第5版的内容,个别参考了汉语 大辞典,另增加了2万余条语文性词语 及部分义项。义项库是词义标注的来源,

5、也是衡量词义标注效果的主要标准,更是 寻找词义特征、确定规则时的依据。3语义库全称为“现代汉语语义分类 库”(A Thesaurus of Modern Chinese),简称TMC。 分一级类9个,二级类62个,三级类 516个,四级类2086个,五级类 12602个。嵌于其中,起帮助识别义 项语义特征的辅助作用。在标注工作 中能起到鉴别作用的最低可至3或4 级类。4语法库全称为“现代汉语语法信息 词典” ,北大俞先生主持研制。起帮 助识别义项语法特征的辅助作用。5规则库全称为“现代汉语多义词词义搭配 知识库(Polysemy Word Sense Collocation Knowledge

6、 Base of Modern Chinese)”,简称PCKB。 是确定一个词在具体语境中使用义项的条 件与依据。该库保存了对高频、义项在2- 5之间、词频在100以上的3700多条双音 节多义词所提取的全部使用规则。为每个 词语描绘出具体规则,平均每个词9条规 则共27000条。6验证库全称为“现代汉语词义标注 验证库”(Word Sense Tagged Corpus of Modern Chinese),简称 WSTC。 是人工标注了义项的语料库,主要作 为对词义标注效力进行检验,对规则 提取、修订、完善起校正、验测作用 的实验库。7义频库全称为“现代汉语多义词词义频级 库”(Poly

7、semous Senses Frequency Rank base of Modern Chinese),简称 PFRD。 是一个动态数据库。最初根据语感、简单 语料调查以及词典义项属性标识给义项进 行粗糙义频分级,并在词义标注过程中起 帮助作用。最后根据标注结果不断调整、 细化,最终形成精细、准确的义频调查结 果库。语法库语义库规则库义频库义项库自动标 注语料库分词语 料标注语 料验证库形式特征标 注 过 程资 源 建 设 过 程二、义项库的来源与作用 义项库WSB是词义标注时义项选择的来 源。但又不仅仅是如此。WSB对研究中 的几乎所有环节都起着重要的制衡作用: 机器识别的对象; 提取规则

8、的依据; 标注的对象; 对语料进行识读的语义单位; 标注义项的应用目的;义项库在整个系统中的作用: 来源于语料库; 延伸至语法库语义库; 衍生出规则库; 服务于验证库; 最后显示于大规模的真实文本语料库 。 根据中文信息处理的目的、条件、需 求,在改造、完善传统词典义项的基 础上来建构机用义项库成为当务之急 。 传统词典义项与机用词典义项有何不 同? 收录对象?功能与目的?识别能力? 识别手段? 义项来源于何处: 传统词典的义项是否符合机用词 义标注的需要?义项底库为现代汉语词典 多义词12400个; 复音多义词8300个; 双音多义词7278; 词频在100次以上、义项在2-5个之 间的双音

9、词3774个; 3774个多义词共有义项8608个。 对3774个多义词中的每个词都人工 进行了义项特征的提取工作。 词义标注所有工作的重点与难点都集 中于下面两个问题:一、什么样的义项 义项库是否齐备?有无缺损?是否与真 实语料相符? 义项如何划分?根据什么标准? 义项分立是否清晰? 二、如何让计算机能识别 义项有无形式特征? 什么样的特征能为计算机所识别? 目前机用词典的义项内容一般都是借 用了面向人的传统词典。这是一种取 巧,也是不得已而为之的办法。 由于机用词典与传统词典有着完全不 同的服务对象,使用环境、识别条件 、实现目标也各不相同,将传统词典 简单地套用于机用词典肯定会扞格不 入

10、,面临着许多的困难。 在词义标注之路上的先行者已经关注 到了机用词典的特征问题,并试图寻 找解决的问题。如有的认为传统语文 词典义项切分太细,应该调整义项粒 度;有的主张以用法代替词义辨析( 吴云芳、俞士汶,2007)。 在“第十届汉语词汇语义研讨会”(山东 烟台,2009-7-25),有多篇论文都以词 义标注为题: 肖航的多义词义项关系对语料库词义标注的 影响 王宏显等的构建词汇语义关联度人工标注集 王莉等基于语料库的多义动词标注方法研究 乔剑敏等的面向语义标注一致性检验的汉语 词义相似度计算 俞士汶、贾玉祥关于隐喻的报告。 都把问题的焦点指向“义项”。问题还有: 既有词义颗粒太细的问题,也

11、有词义 颗粒太粗,甚至义项缺损的问题; 既有义项包含与被包含问题,还有上 下位交叉覆盖的问题; 有语料库有义项库无,也有语料库无 义项库有,彼此阙如的问题。 三、传统词典义项存在问题分析词数义项数动词14852064名词14814592形容词8081952总计37748608存在问题的类型:(一)义项包含 (二)义项交叉 (三)义项边缘模糊 (四)语义连贯 (五)义项过近 (六)义项过窄 (七)义项缺损 (八)罕用义(一)义项包含【封面】线装书指书皮里面印着书 名和刻书者的名称等的一页。新式 装订的书刊指最外面的一层,用厚纸 、布、皮等做成。特指新式装订的 书刊印着书刊名称等的第一面。也叫 封

12、一。 【噪音】音高和音强变化混乱、听 起来不谐和的声音。是由发音体不规 则的振动而产生的(区别于乐音)。 噪声。 【资产】财产。企业资金。资 产负债表所列的一方,表示资金的运 用情况。参看资产负债表。 【终点】一段路程结束的地方: 站。特指径赛终止的地点。 【支部】某些党派、团体的基层组 织。特指中国共产党的基层组织。(二)义项交叉 【评论】批评或议论:好坏。 批评或议论的文章:发表。 学术界/n 当时/TIM 这些/r 公正/a 的/u 评论/vn ,/w 立即/d 遭到/v 了/u 江/ALOC 青/ALOC 一/NUM 伙/q 的/u 反革命/n 围攻/vn 。/w 【带领】在前带头使后

13、面的人跟随 着。 领导或指挥(一群人进行集 体活动)。(三)义项边缘模糊 【歇息】休息:病刚好,还是几 天吧。住宿;睡觉:洗过澡就上床 了。 所以/c 在/p 漫长/a 的/u 旅途/n 当 中/f ,/w 我们/r 常常/d 选择/v 这 块/r 地方/n 落脚/v 歇息/v 。/w 【亲切】亲近;亲密:他想起延安 ,象想起家乡一样。形容热情而 关心:老师的教导。(四)语义连续 【出门】(儿)外出:他刚, 你等一会儿吧。(儿)离家远行 :在外丨后时常接到家里来信。 方出嫁。 例:“出门三天家中遭洗劫”齐鲁晚 报2007年02月08日 【摩挲】 ms用手轻轻按着并一下一下地移 动:衣裳。 ms

14、u用手抚摩。 【同居】同在一处居住:父母死后 ,他和叔父。指夫妻共同生活。 也指男女双方没有结婚而共同生活。 大量语例为“男女双方没有结婚而共 同生活”,介于两个义项的中间状态 。 (五)义项过近【冰箱】冷藏食物或药品用的器具 ,里面放冰块,保持低温。电冰箱 的简称。 【韵味】声韵所体现的意味:他的 唱腔很有。情趣;趣味:这首诗 的很浓古塔古树相互映衬,平添 了古朴的。 【浴室】有洗澡设备的房间。澡 堂。 【救灾】救济受灾的人民:放粮 。消除灾害:防洪。 查看/v 灾情/n ,/w 慰问/v 受灾/vn 群众/n ,/w 指导/vn 抗灾/vn 救灾 /vn工作/vn 。/w(六)义项过窄 【

15、出场】演员登台(表演)。 运动员进运动场(参加表演或竞赛) 。 “有人怕闹事,开始退场,剧团的领 导|出场,恳求大家安静。”(戴厚 英文集流泪的淮河) (七)义项缺损 【字号】 商店的名称:这家商店是什么? 指商店:这是一家老这家名 气大。 缺“字体的大小” 【装扮】打扮:节日的广场得分 外美丽。化装:他算命先生进城 侦察敌情。假装:巫婆神仙欺骗 人。 缺“打扮出来的模样。” 语例:他这个,哪里是个丁忧的样 子。 【庄子】村庄:他是我们里的人 。田庄。 删“田庄” 缺“人名,战国时期思想家,道家思想集 大成者。”(八)罕用义造成极低频义项的有多种原因: 方言义 行业义 临时义 【巴结】趋炎附势,极力奉承: 上司。方努力;勤奋:他工作 很。 【安排】有条理、分先后地处理( 事物);安置(人员):工作丨生活 丨他当统计员。规划;改造:重 新家乡的山河。 【霸道】我国古代政治哲学中指凭 借武力、刑法、权势等进行统治的政 策。强

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 教学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号