现代汉语词典系列数据库.ppt

上传人:汽*** 文档编号:568491232 上传时间:2024-07-24 格式:PPT 页数:22 大小:280.31KB
返回 下载 相关 举报
现代汉语词典系列数据库.ppt_第1页
第1页 / 共22页
现代汉语词典系列数据库.ppt_第2页
第2页 / 共22页
现代汉语词典系列数据库.ppt_第3页
第3页 / 共22页
现代汉语词典系列数据库.ppt_第4页
第4页 / 共22页
现代汉语词典系列数据库.ppt_第5页
第5页 / 共22页
点击查看更多>>
资源描述

《现代汉语词典系列数据库.ppt》由会员分享,可在线阅读,更多相关《现代汉语词典系列数据库.ppt(22页珍藏版)》请在金锄头文库上搜索。

1、现代汉语词典现代汉语词典系列数据库系列数据库中国社会科学院语言研究所2006概述概述来源:来源: 根据现代汉语词典的系列辞书建立的数据库;用途:用途: 电子辞书的查询和发布; 辞书编纂和修订的参考资料; 从聚合的角度研究汉语词汇的资料; 用比较的方法研究辞书的资料; 现代汉语词典系列数据库现代汉语词典系列数据库一、数据库主要内容一、数据库主要内容 二、数据的一致性二、数据的一致性 三、数据库的主要应用功能三、数据库的主要应用功能 四、关于缺字问题四、关于缺字问题 一、数据库主要内容一、数据库主要内容词典的版本信息词条信息偏旁部首检字表其他一、数据库主要内容一、数据库主要内容词典的版本信息(以第

2、三版为例)包括:词典的版本信息(以第三版为例)包括: 书号 书名 版次 作者 出版单位 出版时间 发行单位 印刷单位 印次 印数 开本 字数 印张 定价 防伪 前言 说明 总目 音节表 检字表 凡例 附录等。词条信息包括:词条信息包括: 词目 异体繁体字 拼音 释义 特征。一、数据库主要内容一、数据库主要内容偏旁部首:偏旁部首:偏旁部首、偏旁部首笔画。检字表:检字表:归属于某偏旁部首的汉字、除去偏旁部首笔画外的汉字笔画。其他:其他:词条中其他一些可供查询、统计的语法、语义、语用、构词等特征。 二、数据库与辞书数据的一致性二、数据库与辞书数据的一致性数据的原始排列顺序与辞书数据保持一致数据内容和

3、辞书数据保持一致数据库主体结构保持一致各版本现代汉语词典辞书之间同种标记不同标法的数据在库中也要保持一致(主要表现在各种计算机字库中没有的标记、符号、序号等)。三、数据库的主要应用功能三、数据库的主要应用功能 经过对词典内容的结构化处理,数据库里有以下几类信息可以用于检索、统计、分析和比较:1 1、词目部分:、词目部分:字、词、语素、字数、偏旁部首、偏旁部首笔画、除去偏旁部首笔画外的汉字笔画、繁体字、异体字、可插入特征、结构词特征、重叠词特征、儿化等。2 2、语音部分:、语音部分:原拼音、转写拼音、同音、轻声、第二音节无辅音特征、重读、结构词发音等。 三、数据库的主要应用功能三、数据库的主要应

4、用功能3 3、语语用用部部分分:学科分类(语、经、地质、地、等)。语用信息(、等)。4 4、词类部分:、词类部分:个词类。5 5、释释义义部部分分:释义中所包含的字、词、短语、句子 等字符串。6 6、其其他他部部分分:多音、近义词、从属条目、外来语、专有名词、义项数等。7 7、版本信息:、版本信息:凡例中的信息、偏旁部首、检字表、版次、时间、作者、前言、说明等。 三、数据库的主要应用功能三、数据库的主要应用功能1、查词释疑2、模糊查询3、类别查询4、比较查询5、统计查询6、逆序查询7、版本信息四、关于缺字问题四、关于缺字问题在WINDOWS XP操作环境中,使用GBK宋体字库,以现代汉语词典第

5、三版为例,缺字共计个汉字(不包括各种符号)。我们对这些缺字逐个作了字形分析,决定用字形描述的办法来说明这些字。 四、关于缺字问题四、关于缺字问题1 1、缺字的分析、缺字的分析个缺字中,有个汉字在计算机字库中没有对应的简体字、繁体字或异体字,我们称其为绝对缺字。另外个缺字在计算机字库中可以找到各自对应的简体字、繁体字或异体字,我们称其为相对缺字。对这些缺字都要进行缺字描述。四、关于缺字问题四、关于缺字问题2 2、缺字的描述、缺字的描述缺字描述公式缺字描述公式字型描述:结构描述词典数据库中的缺字标记。字字型型描描述述组成该字的若干个拆分的部首或字形。:字形描述与结构描述的分隔符号结构构描描述述该字

6、由若干个拆分的部首或字形所组成的方式。 四、关于缺字问题四、关于缺字问题2 2、缺字的描述、缺字的描述A A、绝对缺字的描述缺字的描述结构构描描述述:左右、上下、外里、左中右、上中下、左上下、上下右、上外里等字形描述字形描述:直接对应结构顺序进行字形排列举例:举例:是鸟:左右;彳亢亍:左中右;思:上下;九田:上下;四、关于缺字问题四、关于缺字问题2 2、缺字的描述、缺字的描述B B、相相对缺字的描述缺字的描述 用修改汉字结构中部分部首或字形的办法来描述举例:举例:鰶:魚改鱼;顣:頁改页; 譆:訁改讠; 四、关于缺字问题四、关于缺字问题3 3、计算机缺字分算机缺字分类统计: A A、绝对缺字个:

7、绝对缺字个:左右结构汉字有246个;左中右结构汉字有个;左上下结构汉字有5个;外里结构汉字有16个;外里右结构汉字有个;外里下结构汉字有个;上下结构汉字有63个;上左中右结构汉字有个;上下右结构汉字有个;上外里结构汉字有个;结构和修改结合及结构和短语描述结合的结构描述的汉字有个;采用修改缺字结构中拆分部分的偏旁部首或字型来描述的汉字有55个; 四、关于缺字问题四、关于缺字问题3 3、计算机缺字分算机缺字分类统计: B B、相对缺字个:相对缺字个:通过简写偏旁部首进行缺字描述的有142个;通过简写非偏旁部首部分进行缺字描述的有142个;通过繁写非偏旁部首部分进行缺字描述的有2个;即要简写偏旁部首

8、部分又要简写非偏旁部首部分的有10个; 四、关于缺字问题四、关于缺字问题3 3、计算机缺字分算机缺字分类统计: C C、几个因字体变化而产生的缺字:几个因字体变化而产生的缺字:计算机中的汉字由于字体的变化而字型有所改变的汉字有4个。这四个汉字在处于小四号字体时该字字型与词典中汉字字型不一致,而处于其他字号字体时该字字型则与词典中汉字字型相一致。这四个汉字是:四、关于缺字问题四、关于缺字问题4 4、关于、关于GB18030-2000GB18030-2000大字符集大字符集个缺字在中的补充情况:GB18030-2000简体繁异体总字数已补充 仍然缺少 四、关于缺字问题四、关于缺字问题另外,在GBK和大字符集中有个别汉字字形与现代汉语词典中的字形有细微的差别,这会影响数据库与纸质词典在字形上的一致性:现代汉语词典拼音字符集差别最:日改宀 宀取:上下GB18030 取与最的下半部分 忄朮:左右怵GBK 术与朮 山厂火:上外里炭GBK 中间部分 四、关于缺字问题四、关于缺字问题5 5、缺字的检索、缺字的检索检索中设计了偏旁部首检索方式。通过偏旁部首在数据库的检字表中检索出相应的汉字,其中包括缺字描述式,选择这个缺字描述式,就能够从数据库中读取该字的相关内容。 谢谢!谢谢!

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 高等教育 > 研究生课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号