基于角色标注的中文机构名识别(

资源描述

《基于角色标注的中文机构名识别(》由会员分享，可在线阅读，更多相关《基于角色标注的中文机构名识别(（11页珍藏版）》请在金锄头文库上搜索。

1、基于角色标注的中文机构名识别*俞鸿魁张华平I刘群1，31中国科学院计算技术研究所软件研究室北京1000802北京化工大学信息科学与技术学院北京1000293北京大学信息学院计算机系计算语言所北京100871E-mail： yhkpublic3.bla.gen摘要：中文机构名自动识别是命名实体识别的重点和难点，目前各种解决方案的实际效果还难以满足人们的实际需求。本文提出了一种基于角色标注的中文机构名自动识别方法，其基本思想是：根据在机构名识别中的作用，采取Viterbi算法利切分结果进行角色标注，在角色序列的基础上，进行字符申识别，最终实现中文机构名的识别。识别过程中我们只需要某个词作为特

2、点角色的概率以及角色之间的转移概率。该方法的实用性还在于：这些角色信息完全可以从真实语料库中自动抽取得到。通过对大规模真实语料库的封闭测试中，该方法取得了接近 90%的召回率和准确率，即使在开放测试中，准确率也高达88%。不同实验从各个角色表明：基于角色标注的机构名识别算法是行之有效的。关键词：中文机构名识别：未登荥词识别：角色标注：Viterbi算法Recognition of Chinese Organization Name Based on RoleTaggingYU Hong-Kui12 ZHANG Hua-Ping1 LIU Qunu31 Institute of Comput

3、ing Technology, The Chinese Academy of Sciences, Beijing, 100080 China2 Information science & technology college, Beijing University of Chemical Technology, Beijing, 100029 China3 Inst, of Compulational Linguislics, Peking University, Beijing, 10(X)871 ChinaE-mail: yhkpublic3.bla.nel.ciiAbstract: au

4、tomatic recognition of organization name is emphasis and difficulty for named entity identification. Because of their inherent deficiencies, previous solutions are not satisfactory. This paper presents an approach tbr organization name recognition based on role lagging. Thai is: tokens after segment

5、ation are tagged using Viterbi algorithm with different roles according to their functions in the generation of organization name; the possible names are recognized after sting identification on the roles sequence. During the recognition process, only the possibilities of tokens being specific roles

6、 and the transition possibilities between roles arc required. The significance is that such lexical,本文得到国家重点基础研究项目(G19980305074 G1998030510)和计算所领域前沿青年基金项目20026180-23资助作者俞鸿保.男，1978年生.北京化工大学计算机系研究生.中科院计算所客座学生.主要研究方向为计算机语言学。张华平，男，1978 年生，博士研究生,主要研究方向为计算语言学,中文信息处理与信息抽取。刘群，男,1966年生，在职博士研究生,副研究员,主要研究方向为机

7、器翻译，自然语言处理与中文信息处理。knowledge can be totally extracted from corpus automatically. In both close and open test on large realistic corpus, its recalling rate and precision is nearly 90%, and precision is nearly 88% in open test. Various experiments show that: our role-based algorithm is effective for or

8、ganization recognition.Keywords: organization name recognition; unknown words recognition; role tagging; Viterbi algorithm.1.引言命名实体识别是自然语言处理中的一项基本工作，命名实体的识别也是句法分析、机器翻译、信息抽取等任务的一个非常重要的预处理模块。一般来说，命名实体识别的任务就是对于一篇待处理文本，识别出其中出现的人名（Person）、地名（Location）、机构名（Organization）、U期（data）、时间（time）、百分数（percentage

9、）a货币（monetary value）这七类命名实体。其中命名实体中人名、地名、机构名的识别是最难识别、也最重要的三类。对于机构名识别来说，所要识别出来的机构名主要包括股票交易所、国际组织、商业组织、公私企业、也视台或广播台、政党、宗教组织、乐队或音乐组织、政府实体、运动队、军队等等。例如“中国国际航空公司”、“北京商业银行”、“北京电影学院青年电影制片厂”、“联想集团”、 “国家经委”、“中百.机关工委”、“中共中央统战部”等等。人们己经对人名和地名的识别作了非常细致的研究1-6,提出了各种各样的处理方法。目前人名和地名识别已经能满足人们的需求，但是机构名无论是从理论上还是从实际上

10、，都远远达不到人们的要求。1.1. 机构名识别的难点对于机构名识别来说，主要的瓶颈在于存在大量的未登录机构名。未登录词在人名、地名和机构名中都占有很大一部分的比例，未登录机构名的识别比未登录人名和地名的识别要难得多，归根到底还是由机构名的日身特点所造成的：第一，中文机构名组成方式非常夏杂。机构名识别中的机构种类繁多，各类机构都有其自已独特的命名方式。例如，公私企业命名大多以地名作为开头，中间加以企业字号，如“金山”、 “亿阳”等等，结尾一般都是“公司”、“集团”类的普通名词。而机关团体类的机构名则相对比较正规，一般以上级部门开头，结尾为“所”、“部”、“院”、“委”等单字。序数词在一

11、般的机构名中很少出现，但是在军队、医院类的机构名中，序数词确占有相当大的比例。而且机构名中还嵌套的情况，机构名中包含有另一个机构名，如“北京电影学院青年电影制片厂二第二，机构名中含有大量的其它命名实体。在这些命名实体中，地名所占的比例最大，其中未登录地名又占了相当一部分的比例。其它命名实体的识别大大制约了机构名的识别。第三，中文机构名用词非常广泛。通过对1998年1月人民日报语料中的10817个机构名所含的19986个词进行统计，共计27种词，其中名词最多（9941个），地名其次（5023个）。所用词如此之广泛，是命名实体中绝无仅有的。最为严重的的是，在这些词中有很大一部分词是未登

12、录词，例如大部分的企业字号。第四，机构名的长度极其不固定。不像中国人名，一般为两到三个字，最多不超过四个字, 地名最多也只是由三到四个词组成。机构名的长度少到两个字（“北大”、“首钢”），多到几十个字（“中国人民政治协商会议第八届全国委员会常务委员会”），在人民廿报的其实文本中，由十个以上的词构成的复合机构名占了相当一部分的比例。机构名称长度的不确定性，导致机构名称的边界很难确定，加大了机构名识别的难度。第五，大多数机构名都有其简称。简称一般都是取其全称中的几个关键字或关键词，例如“联想”、“人大”。大量的机构名简称的出现，使得本来已经十分困难的问题变得更加困难。综上所述，机构名的这些特

13、点，使得机构名的识别变得困难重重。1.2.已有的工作命名实体识别不外乎基于规则7的方法、基于统计的方法以及把规则和统计相结合8的方法。其实在实际应用中，纯的基于统计的方法并不多，统计中或多或少引入一些规则。机构名大多都有非常有特点的词作结尾，尤其是在特定的领域内，例如在金融领域内的机构名，大多都是以“公司”、“集团”作为结尾。金融类机构名7的这种表面上的规律使得人们很容易就想到使用规则的方法来识别这类机构名。虽然在封闭测试中，能达到百分之九十多的准确率和召回率，但是在开放测试中，仅能达到百分之六十多一点，远远不能满足人们的实际需求。在特定领域内尚且如此，如果把基于规则的方法推广到全领

14、域内，其效果是可以想像的到的，nJ 见单纯地使用规则的方法来处理这种最为复杂的命名实体是不适宜的。使用基于规则的方法之所以行不通，关键是只注意到了机构名结尾的规律性，而忽视了机构名用词的无规律性。大量未登录词作为机构名用词，使得规则系统变得无能为力，这点在开放测试中，显得尤为突出。文献9提出了一个专名的一体化识别方法，从语料和专名表中统计和分析了各种专名的内部构成，其中有关机构名的有：企业字号常用字（词）、企业经营内容、企业经营内容前修饰成分、企业机构类型等属性，然后对具有各种专名属性特征的单字和多字词进行穷尽式的标注，最后用一个逆向的规则系统，使用逆向扫描、尾字激活的策略，运用27

15、条规则对机构名进行识别, 在小规模的语料上测试，取得了不错的效果。不过识别规则过于发杂。在机构名识别方面，前人们还一项非常有参考价值的工作，就是文献11提出的采用基于类的语言模型把中文分词和命名实体识别结合在一起，其中在机构名识别上也取得了不错的成果。在总结前人工作的基础上，木文提出了一个新的机构名识别方一基于角色标注的方法。首先，在人名和地名识别的基础上，对机构名内部构成角色进行有选择的分类，然后采用隐马模型1213,对分词结果进行机构名构成角色的标注，最后，在角色序列上进行模式串识别，并最终识别出机构名。这套识别方法，己经实际应用到我们的汉语词法分析系统（ICTCLAS）中, 取

16、得了非常好的结果。本文以下将详细介绍有关基于角色标注的机构名识别的方法，然后给出详细的系统测试数据并分析有关试验的结果，最后阐明我们的结论。2.基于角色标注的中文机构名自动识别方法2.1. |文机构名的构成角色就组成方式上来讲，机构名比其它专有名词复杂得多。基木上，完整的机构名可以为前段（名字部分），还有后段（关键字）两部分。关键字一般为普通的名词，用词也相对集中，是机构名中唯一较有规则可循的部分。附属的名字部分似乎亳无规律可循，可能是一些常见的词，也可能是被切分成碎片的单字。但是通过对人民廿报（我们训练和测试用的语料都是采用北大标注集的人民口报语料）1998 年1月中的10817个机构名的19986个前段进行统计，发现它们并非亳无规律可循。在从词性上来分，地名、专有名词、简称、机构名占有相当一部分的比例，而且在普通名词中，又有许多在机构名中经常出现的高频词（其

展开阅读全文

基于角色标注的中文机构名识别(

最新文档