计算所汉语词性标记集ICTPOS3.0

上传人:ni****g 文档编号:477350744 上传时间:2022-09-10 格式:DOC 页数:6 大小:94.50KB
返回 下载 相关 举报
计算所汉语词性标记集ICTPOS3.0_第1页
第1页 / 共6页
计算所汉语词性标记集ICTPOS3.0_第2页
第2页 / 共6页
计算所汉语词性标记集ICTPOS3.0_第3页
第3页 / 共6页
计算所汉语词性标记集ICTPOS3.0_第4页
第4页 / 共6页
计算所汉语词性标记集ICTPOS3.0_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《计算所汉语词性标记集ICTPOS3.0》由会员分享,可在线阅读,更多相关《计算所汉语词性标记集ICTPOS3.0(6页珍藏版)》请在金锄头文库上搜索。

1、计算所汉语词性标记集Version 3.0制订人:刘群 张华平 张浩0. 说明计算所汉语词性标记集主要用于中国科学院计算技术研究所研制的汉语词法分析器、 句 法分析器和汉英机器翻译系统。本标记集主要参考了以下词性标记集:1. 北大人民日报语料库词性标记集;2. 北大 2002 新版词性标记集(草稿) ;3. 清华大学汉语树库词性标记集;4. 教育部语用所词性标记集(国家推荐标准草案 2002 版);5. 美国宾州大学中文树库( Chi nesePe nn TreeBa nk)词性标记集;由于计算所的汉语词法分析器主要采用北大 人民日报 语料库进行参数训练, 因此本 词性标记集主要以北大人民日报

2、 语料库的词性标记集为蓝本, 并参考了北大汉语语法 信息词典中给出的汉语词的语法信息。本标记集在制定过程中主要考虑了以下几方面的因素:1. 有助于提高汉语词法分析器的切分和标注正确率;2. 有助于提高汉语句法分析器的正确率;3. 有助于汉英机器翻译系统进行翻译;4. 易于从北大人民日报语料库词性标记集进行转换;5. 对于语法功能不同的词,在不造成词法分析和句法分析歧义区分困难的情况下, 尽可能细分子类。基于以上考虑, 我们在标注过程中尽量避免那些容易出错的词性标记, 而采用那些不容 易出错、而对提高汉语词法句法分析正确率有明显作用的标记。例如,在动词的子类中,我们参考了宾州大学中文树库的做法,

3、把汉语动词“是”和“有”分别做成单独的标记,而没 有采用“系动词”的标记。因为同样是“是”这个动词,其句法功能很多,作“系动词”只 是其中一种功能,而要区分这些功能是非常困难的,会导致词法分析的正确率下降。在名词子类中,我们区分了“汉语人名” 、“日语人名”和“翻译人名” ,这不仅仅是因 为这三种人名要采用不同的参数进行训练与识别, 而且在汉英机器翻译中也要采用不同的分 析算法进行翻译。又如,我们把表示时间的“数词年 ”(如“ 1995 年”)合并成一个时 间词,而表示年头的“数词年 ”分别标注为“数词”和“量词” ,这是因为我们通过实 验发现这种区分在词法分析阶段通过统计方法可以达到较高的正

4、确率, 而且这种区分对于后 续的句法分析和机器翻译有非常重要的作用。对于某些词类(助词和标点符号) ,基本上是一个封闭集,而这些词类中各个词的语法 功能相差很大,在这种情况下,我们尽可能地细分其子类。另外,与其他词性标记集类似, 在我们的标记体系中, 小类只是大类中一些有必要区分 的一些特例,但小类的划分不满足完备性。1. 名词名词分为以下子类:n 名词 nr 人名nr1 汉语姓氏 nr2 汉语名字 nrj 日语人名 nrf 音译人名ns 地名nsf 音译地名 nt 机构团体名 nz 其它专名 nl 名词性惯用语 ng 名词性语素2. 时间词t 时间词tg 时间词性语素3. 处所词s 处所词4

5、. 方位词f 方位词5. 动词v 动词 vd 副动词 vn 名动词 vshi 动词“是” vyou 动词“有” vf 趋向动词 vx 形式动词vi 不及物动词(内动词) vl 动词性惯用语 vg 动词性语素6. 形容词a 形容词ad 副形词 an 名形词 ag 形容词性语素 al 形容词性惯用语7.区别词b 区别词bg 区别词性语素 bl 区别词性惯用语7.区别词7.区别词8.状态词7.区别词z 状态词7.区别词7.区别词9.代词7.区别词r 代词rr 人称代词 rz 指示代词 rzt 时间指示代词 rzs 处所指示代词 rzv 谓词性指示代词 ry 疑问代词 ryt 时间疑问代词 rys 处

6、所疑问代词 ryv 谓词性疑问代词 rg 代词性语素10. 数词m 数词 mq 数量词11. 量词q 量词qv 动量词 qt 时量词12. 副词d 副词13. 介词p 介词pba 介词“把” pbei 介词“被”14. 连词c 连词cc 并列连词15. 助词u 助词uzhe 着ule 了 喽uguo 过ude1 的 底ude2 地ude3 得usuo 所udeng 等 等等 云云uyy 一样 一般 似的 般udh 的话uls 来讲 来说 而言 说来ujl 极了uzhi 之ulian 连 (“连小学生都会” )uqj 起见16. 叹词e 叹词17. 语气词y 语气词18. 拟声词o 拟声词19. 前缀h 前缀20. 后缀k 后缀21. 字符串x 字符串xx 非语素字xu 网址 URL22. 标点符号w 标点符号wkz左括号,全角:(【半角:( wyb 半角引号,半角: wyz 左引号,全角:“wyy 右引号,全角:”wj 句号,全角: 。ww 问号,全角:?半角: ?wt 叹号,全角: !半角: !wd 逗号,全角: ,半角: ,wf 分号,全角: ;半角: ;wn 顿号,全角: 、wm 冒号,全角: :半角: :ws 省略号,全角:J JJwp 破折号,全角: 半角wb 百分号千分号,全角: ? 半角: %wh 单位符号,全角:$C 半角:$

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 资格认证/考试 > 自考

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号