汉字汉语拼音自动化标注方法研究

上传人:E**** 文档编号:118262328 上传时间:2019-12-11 格式:PDF 页数:6 大小:139.04KB
返回 下载 相关 举报
汉字汉语拼音自动化标注方法研究_第1页
第1页 / 共6页
汉字汉语拼音自动化标注方法研究_第2页
第2页 / 共6页
汉字汉语拼音自动化标注方法研究_第3页
第3页 / 共6页
汉字汉语拼音自动化标注方法研究_第4页
第4页 / 共6页
汉字汉语拼音自动化标注方法研究_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《汉字汉语拼音自动化标注方法研究》由会员分享,可在线阅读,更多相关《汉字汉语拼音自动化标注方法研究(6页珍藏版)》请在金锄头文库上搜索。

1、汉字汉语拼音自动化标注方法研究 赵建国 在叙词表编制过程中,需要对款目词标注汉语拼音和声调,以便编制主表、首汉字拼音索 引和族首词索引。汉语存在同形异音词和同形异声调词,如不能予以正确标注,则会严重影响 叙词表的使用。本文介绍了采用基于汉字属性知识库的机辅标注汉字汉语拼音和声调的方 法,分析了两项试验的结果,提出了一种基于汉字属性库和汉语词汇拼音声调知识库采取从 左至右最长匹配分词法,自动标注汉字汉语拼音和声调的方法。两项试验表明,该方法优于前 一种方法。 众所周知,编制汉语叙词表( 包括编纂任何辞书) ,必须对款目词或条目进行排序,以便读 者检索、查阅。或是以拼音排序,或是以字( 笔) 形排

2、序,或是以分类排序,不管以哪种或哪几 种形式,这是一项不可缺少的工作。十多年来,我参与编制的十几部词表( 包括辞书) ,都采用 拼音排序。拼音排序有时用在主表或正文中,有时用在首汉字索引或条目索引里,也可用在同 级或同类的并列款目词或条目上。鉴于汉语存在同形异词和同形异声调词,必须正确标注汉 字的汉语拼音及声调。 汉字属性库中共有6 7 6 4 个汉字,其中9 0 4 个为多音字,占库存总字数1 3 3 6 ,能直接标 注拼音的汉字只占8 6 6 4 左右,其余汉字需要根据汉字所在款目词或条目的上下文语义环 境,从该字的多个可选拼音及声调中,人工选取一个正确的拼音及声调。过去,我在标注汉语 拼

3、音和声调时,一直采取基于汉字属性知识库的方法。具体算法如下。 十,it十十十 。依托 知识库,以单字方式,为款目词或条目标注拼音和声调。 s 统计未定单字和待定款目词或条目个数,并统计汉字总数和款目词或条目总数。 + 2 0 0 0 0 8 0 l 十十十$十$十$ S E I 正C T2 U S E 汉字属性D B FI N D E X 汉字 S E L E C T l U S E 装备术语目录表D B F D B D Z = o 待标单字。 D B C M = 0 待标款目词或条目。 H Z Z S = 0 汉字总数。 C M Z S = 0 款目词或条目总数。 S C A N 1 5 8

4、 C H D Y = T R I M ( 词汇短语) n 亿Y = f C M z s = c M z S + 1 款目词或条目总数。 D OW H I L EL E N ( C H D Y ) 0 C H = L E 订C ( C H D Y 1 ) c H D Y = S U B S T R C ( C H D Y ,2 ) S E I 正C T 2 I FS E E K ( C H ) H Z Z S = H Z Z S + l 汉字总数。 I FL E N ( T R t M ( 拼音二) ) O 双音字拼音注音。 D B D Z = D B D Z + 1 待标单字。 P Y Z Y

5、 = P Y Z Y + 拼音一+ + 拼音二+ I FL E N ( T P J M ( 拼音三) ) O & 三音字拼音注音。 P Y Z Y = P Y Z Y + 拼音三+ I FL E N ( T R I M ( 拼音四) ) o 四音字拼音注音。 P Y Z Y = P Y Z Y + 拼音四+ I FL E N ( 1 瞰M ( 拼音五) ) O P Y Z Y = P Y Z Y + 拼音五+ I FL E N ( T R I M ( 拼音六) ) 0 P Y Z Y = P Y Z Y + 拼音六+ I FL E N ( T R I M ( 拼音七) ) 0 P y Z Y

6、= _ z Y + 拼音七+ 3 I FL E N ( T R I M ( 拼音八) ) o P Y Z Y = P Y Z Y + 拼音八+ E N D I F E N D I F E N D I F E N D I F E N D I F E N D I F E I S E P Y Z Y = P Y Z Y + 拼音一独音字拼音注音。 E N D I F E L S E P Y z Y = P Y z Y + C H E N D I F E N D D O S E U C T l I Fr 1 S P Y Z Y 1 5 9 D B C M = D B C M + 1 待标款目词或条目。

7、 E N D I F R E P L A C E 单字注音W I T HP Y Z Y E N D S C A N ? 待标款目词或条目= + S T R ( D B C M ) ? 款目词或条目总数= + S T R ( C M Z S ) ? 待标款目词或条目款目词或条目总数= + S T R ( D B C M C M Z S ) ? 待标单字= + S T R ( D B D Z ) ? 汉字总数= + S T R ( H Z Z S ) ? 待标单9 汉字总数= + S T R ( D B D Z H Z Z S ) R E T U R N 试验之一用这种基于单、汉字知识库的方法为国

8、际情报词表的款目词标注汉语拼音 及声调,其统计结果如下:需要处理的汉字总量为2 93 8 8 个,其中63 7 9 个汉字的拼音和声调 需要人工选取,汉字拼音和声调的人工选取率为2 l ,7 1 ;需要处理的款目词总量为74 0 6 条, 其中43 3 8 条款目词的汉字拼音和声调需要人工选取,可得出款目词的汉字拼音及声调的人 工选取率为5 8 5 7 。 试验之二用这种基于单汉字知识库的方法为技术情报词表的款目词标注汉语拼音 及声调,其统计结果如下:需要处理的汉字总量为3 44 2 2 个,其中79 0 0 个汉字的拼音和声调 需人工选取,汉语拼音和声调的人工选取率为2 2 9 5 。款目词

9、总量为81 0 8 条,其中50 6 8 条条目有汉字拼音和声调需要人工选取,款目词的汉字拼音和声调的人工选取率为6 2 5 1 。 上述两项试验结果表明,每处理1 0 0 个汉字,约有2 1 2 3 个汉字需要人工选取正确的汉 语拼音和声调;每处理1 0 0 条汉语款目词,约有5 8 6 3 条需要为其中的某些字选取正确的汉 语拼音和声调。可见,2 1 以上的手选率,虽然满足了词表出版工作的急需,但自动化程度的 确有限。当所处理的款目词或条目总量数以万计时,其中需要人工选取的数量将高达数千,甚 至数万。显然,将给编表人员带来很大的劳动强度,误选率也会随着人的疲惫和知识面不足而 增加。如,现有

10、2 0 部专业词表需要电子化,款目词总量近2 0 万条,汉字总量近2 0 0 万个。其 手选量约1 4 万条,2 8 万个汉字,是人力所不及,时间所不许。两年来,我在应用计算机技术辅 助词表( 词书) 编制过程中感到,应充分发挥计算机的作用,以减轻人的劳动负担,减少误选 率,提高工作效率,提高汉字汉语拼音和声调标注的正确率。 因此,改进汉语拼音和声调标注方法,提高自动化程度成为我的关注点和思考点。基本思 想是储备汉语词汇的拼音和声调,建立词汇拼音和声调知识库,研究汉语分词方法,以提高汉 语拼音和声调标注的效率和正确率。具体算法如下。 十$+十$十十十$ + 基于汉字属性库和汉语词汇拼音和声调知

11、识库,采取从左至右最长匹配分词法,自动标 注拼音和声调。统计未定单字和待定款目词或条目个数。 女$十$十$十$ S E I 正C T l U S E 词汇拼音和声调D B FI N D E X 词汇短语 S E L E C T2 】6 0 U S E 汉字属性D B FI N D E X 汉字 S E L E C T3 U S E 装备术语目录表D B F 为装备术语条目加拼音和声调。 D B D Z = o 待标单字。 D B C M ;O 待标款目词或条目。 S C A N C S = T R I M ( 词汇短语)逐个处理术语条目。 C S P Y = C SL E N C = L E

12、N C ( C S ) D O W H 正C SL E N C 0 S E L E C T l F O R I = C S _ L E N CT O1 S T E P 一1 B F Z C = L E F r c ( C S ,I ) I FS E E K ( B F Z C ) C S P Y = C S P Y + T R I M ( 拼音和声调) D OW H I L EB F 7 _ , C = = T R I M ( 词汇短语) S K I P I FB F Z C = = T R I M ( 词汇短语) & 处理多音词。 C s P Y = C S P Y “、 + T R I M

13、 ( 拼音和声调) “、 E N 阱F E N D D 0 I FR I G H T ( C S P Y ,1 ) = D B D Z ;D B D Z4 - I 待标单字。 E N D I F C S = S U B S T R C ( C S ,I4 - 1 ) C S L E N C = L E N C ( C S ) N O T F I N D = F E X _ E L S E N O T F I N D = T E N D I F E N D F O R I FN O T F I N D S E I 正C T2 I FS E E K ( B F Z C ) I FL E N ( T

14、 R I M ( 拼音二) ) O 双音字拼音注音。 C S P Y ;C S P Y + 拼音一+ + 拼音二+ I FL E N ( T R I M ( 拼音三) ) 0 三音字拼音注音。 C S P Y = C S P Y + 拼音三+ 1 6 1 1 6 2 I FL E N ( T R I M ( 拼音四) ) 0 四音字拼音注音。 C S P Y = C S P Y + 拼音四+ I FL E N ( T R I M ( 拼音五) ) 0 C S P Y = C S P Y + 拼音五+ I FL E N ( T R I M ( 拼音六) ) 0 C S P Y = C S P Y

15、 + 拼音六+ I FL E N ( T R I M ( 拼音七) ) 0 C S P Y = C S P Y + 拼音七+ I FL E N ( T R I M ( 拼音八) ) O C S P Y = C S P Y + 拼音八+ E N D I F E N D I F E N D I F E N D I F E N D I F E N D I F E L S E C S P Y = C S P Y + 拼音一独音字拼音注音。 E N D I F I FR I G H T ( C S P Y ,1 ) = D B D Z = D B D Z + 1 待标单字。 E N D I F E 1 5 E C S P Y = C S P Y + B F Z C E N D I F C S = S U

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 其它学术论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号