语块语料库的建设－金锄头文库

资源描述

《语块语料库的建设》由会员分享，可在线阅读，更多相关《语块语料库的建设（6页珍藏版）》请在金锄头文库上搜索。

1、构建大规模的汉语语块库构建大规模的汉语语块库周强詹卫东任海波智能技术与系统国家重点实验室，清华大学计算机系，北京 100084 北京大学中文系，北京 100871 上海师范大学国际文化交流学院，上海 200234 摘要：本文介绍了构建 200 万字的汉语语块库的主要工作，包括设计语块标注体系、总结语块标注规范和协调语块加工流程等，分析了我们的标注体系与英语的 CONLL-2000 语块任务的主要差异，并提出了对现有标注体系的进一步理论思考和在现有语块库上的一些应用设想。 1 引言引言构建大规模标注语料库是语料库语言学发展的重要基础。在英语方面，百万词次规模的词

2、性标注语料库Brown 语料库的建成，直接促使了基于统计的词性标注模型：HMM 模型和自动标注算法：Viterbi 算法的提出和完善。大规模的句法树标注语料库Penn 树库的建立，则为许多基于统计的自动句法分析模型提供了基础的训练素材。同时，作为一个统一的训练和测试平台，也为不同分析算法处理性能的评估提供了客观的依据。近几年来，随着部分分析技术的不断发展和应用范围的不断扩大，对处于中间层次的语块（chunk）标注语料库的开发也越来越受到重视，出现了一些较大规模的语块标注语料库，如 CONLL-2000 的语块库TB00等。在汉语方面，经过近几年的研究，已经建立了几个较大规模的切分和

3、词性标注语料库，包括清华大学的 200 万字的平衡语料库和北京大学与富士通合作开发的人民日报语料库。在树库构建方面，也已取得一些成果，包括清华大学的汉语测试树库ZS99、美国宾州大学的 UPenn 树库XP00和台湾中研院的树库项目HCC00。但对语块标注和部分句法分析的研究还比较少。本文介绍了我们在汉语语块标注体系设计和大规模语块库构建方面进行的一些初步探索。下面的第 2 节比较详细地介绍了我们的语块描述体系，并与 CONLL-2000 的标注体系进行了比较，分析了两者的不同之处。第 3 节介绍了我们的语块库构建工作，包括基础语料库资源、语块标注规范和语块加工流程等，并给出了

4、一些基本的语块库统计数据。第 4 节进一步分析了语块与论元结构的关系以及语块与韵律结构的关系等。最后的第 5 节展望了在现有的语块库上可以进一步进行的一些句法分析和知识获取研究设想。 2 语块描述体系语块描述体系 Abney(1991)最早提出了一个完整的语块描述体系。他把语块定义为句子中一组相邻的属于同一个 s-投射（s-projection）的词语的集合，建立了语块与管辖约束（GB）理论的 X-bar 系统的内在联系，从而奠定了这个语块描述体系的比较坚实的理论基础。在此前后，一些应用系统的研究重点则主要集中在名词短语的识别上，其中包括基本名词短语（BaseNP） (Ch

5、u88, RM95)和最长名词短语（MNP）(LZ95, ZSH00)。在其他语块或基本短语方面的研究则比较少。最近比较完整的工作是 Buchholz & al.(1999)。他们探索了 NP, VP, PP 和 ADJP 等基本短语的自动识别方法。另外，Veenstra(1999)也识别了 NP, VP 和 PP 块。他们的研究为 CONLL-2000 提出的语块共享研究计划打下了基础。去年举行的自然语言学习国际会议（CONLL-2000）提出的语块共享任务（Chunking Shared Task）旨在开发出一个大规模的英语语块库，为基于统计的不同部分分析方法的探索提供统一的训

6、练和测试库。他们采用了 Abney 的语块描述框架，并对一些语块进行了分解和细化，其中的一些差异可以从下面的例子中看出来（其中例句 1 采用了 Abney 的标注体系）： (1) He reckones the current account deficit will narrow to only $1.8 billion in September. (2) NP He VP reckones NP the current account deficit VP will narrow PP to NP only $1.8 billion PP in NP September . 语料则取自

7、Penn 树库的华尔街日报（WSJ）部分。利用自动程序将分析树标注文本直接映射成不相交、无嵌套的语块标注文本，并保留了原来的大部分句法成分标记。目前抽取的语料规模约为 30 万词，平均每个语块包含 2 个词。表 2 列出了其中最常见的几个语块的信息描述，有关的详细资料可参阅TB00。我们从 2000 年 3 月起，开始进行大规模汉语语料库的语块标注研究。最初的设想是通过语块划分和标注，描述一个句子的基本结构骨架，从而为进一步构建汉语树库，进行深层的句法分析和知识获取打下基础。遵循以下几两条原则： ? 穷尽性在完成语块标注的句子中，任何一个词都必须无遗漏地进入某个语块。 ? 线性

8、在完成语块标注的句子中，全部语块将形成一个线性序列，即没有嵌套。我们设计了包含 8 个标记的语块标记集（详见表 1）。下面是一个具体标注实例： D 自/p 古/t 以来/f ，/， S 人类/n D 就/d P 重视/v O 档案/n 的/u 保存/vN 和/c 利用/vN ， /， P 设置/v O 馆库/n 、 /、 P 选派/v O 专人/n P 进行/v O 管理/v 。/。从语块描述内容上看，两个语块库的差异还是很明显的。CONLL 的语块强调对局部的句法相关词语的描述，侧重于从底向上地把句子分隔成不同的基本短语；我们的语块则强调对句子整体功能块的描述，侧重于自顶向下地

9、描述句子的基本骨架。这种差别使得 CONLL 的语块一般比较简单，平均每个块只包含 1-2 个词语，而我们的语块则比较复杂，有的语块甚至包含 10-20 个词语。但两者具有很好的信息互补性。在适当的条件下，将两者的描述信息进行合并，形成分层次的语块描述体系，并构建相应的语块库，将是一个很有意义的研究课题。 3 语块库构建语块库构建 3.1 基础语料库基础语料库我们的语块加工对象是清华大学的 200 万汉字的平衡语料库（ThCorp）。它的主要语料来源是 90 年代的现代汉语书面语以及准口语（包括剧本、谈话录、演讲录等）的真实文本，按文体分为文学、新闻、学术、应用四类。经过自动切词、

10、词性标注和人工校对，已经形成了准确度很高的切分和词性标注精加工文本，为进一步进行语块信息标注打下了很好的基础。表 3 列出了目前的 ThCorp 的一些基本统计数据，其中词项数包括汉语词和标表 1 我们的语块标记集语块标记语块描述 S 主语短语 P 述语短语 O 宾语语块 J 兼语语块 D 状语语块 C 补语语块 T 独立语块 Y 语气块表 2 CONLL-2000 的常见语块描述语块标记语块描述 NP 名词短语 VP 动词短语 PP 介词短语（大部分情况下只包含一个介词） ADVP 副词短语 SBAR 小句（subordinated clause）(大部分情况下只包含一个

11、从属连词) ADJP 形容词短语点符号，汉字数包括汉字和汉字标点。表 3 ThCorp 切分和词性标注语料库的基本统计数据文体文件数句子数词项数汉字数学术 29 9846 273017 447288 新闻 376 16921 427649 674566 应用 258 4302 88452 144027 文学 295 38258 740445 1018839 合计 958 69327 1529563 2284720 3.2 语块标注规范语块标注规范大规模语料库的标注是一个庞大的语言工程项目，需要投入大量的人力和物力。因此，预先制定一部比较完善的语料标注规范，对保证标注结果的规

12、范性和一致性将起到重要作用。但真实文本中涉及到的语言现象又是非常复杂的，不可能通过一部规范就能完全包括。因此，比较好的处理思路是在标注过程中不断发现新问题，对现有规范进行补充和修订，使之能更好地符合新的语言事实。经过不断摸索，我们已初步形成了一套比较完善的汉语语块标注规范，基本上覆盖了目前语料库中遇到的各种语言现象。下面简单地列出其中状语块的基本规范条款，有关的其他详细资料，可参阅Th00。 1副词性成分（词性标记为 d,dB,dD,dN）连续出现作状语，可以整体标注为一个状语语块D，其他不同类成分连续出现作状语，都必须分别单独标出状语块。 2名词直接作状语，需单独标注状语

13、块标记D。 3动词直接作状语，需单独标注状语块标记D。 4形容词直接作状语，需单独标注状语块标记D。 5数量词作状语，需单独标注状语块标记D。这里的数量词主要有：半年、半日、半晌、半天、多年、一辈子、一会、一会儿等。 6介词结构、方位结构和“地”字结构、数量结构等成分在句中作状语（我们称之为 “复杂状语”结构），需单独标注状语块标记D。特别应注意它们与上面的简单状语连用的情况，这时每个状语块都应显性标注，比如方位结构、“地”字结构状语的左边界，介词结构作状语的右边界等。 3.3 语块加工流程语块加工流程目前的所有语块信息都是由人工标注的。利用 WORD 编辑器中的宏命令定义不同的快捷

14、键，可以做到每个语块通过一键输入，大大提高了标注效率。初步统计显示，最初的标注速度约为每小时处理 1200 个词。随着对标注规范和加工过程的不断熟悉，标注速度不断提高，1 至 2 月后基本上可以达到每小时处理 2400 个词。为了保证标注结果的质量，我们设计了两级检查机制。首先，依据语块标注规范，开发自动检查程序，发现大部分不合规范的标注语块，提供标注者进一步确认或修改。这个过程重复数次后，可以大大减少标注“硬伤”。然后，对标注结果进行随机抽样检查，发现并改正遗留的标注错误，直至最终标注质量达到要求为止。 3.4 语块库基本统计语块库基本统计表 4 列出了现有语块库的基本统计数据

15、，包括不同语块总数及语块中的词语分布。表 5 进一步计算了具有不同数目的词语的语块的分布特征，以 5 为界分为 4 个区间：1) 词数5, 2) 5=词数10, 3) 10=词数15, 4) 15=词数。从中可以看出不同语块的分布特点： ? 语气块定义为句尾的一个或多个语气词。由于汉语里多个语气词连用的情况很少，因此其平均词长最小，为 1.01。 ? 汉语句子的述语块大多由谓词性成分充当，在我们的标注规范中对它们进行了严格规定，其词语数都不超过 5 个。这些分布特点在两个表中都有很好的体现（词数 5 的语块占 99%以上，平均词长为 1.31）。 ? 状语块和补语块的平均词长约为 2

16、，90%以上的语块中的词数都小于 5，表明汉语真实文本中复杂状语和补语出现的频度不是很高。由于它们一般都有明显的边界标志（介词、方位词、助词地、助词得等），因此自动识别难度不太大。 ? 兼语块、主语块和宾语块得平均词长较大，特别是宾语块更达到 4.13。主要原因是其中往往包含了复杂的定语。它们是自动识别的难点所在。 ? 在我们的标注体系中，独立语块的内容比较杂，包括句子中的插入语、应答语、呼语、同位性插入成分、句中的补充说明部分（一般在括号内）、句首的序号等，因此分布比较特殊。如何对其中的不同情况进行分化处理，将是以后的一个研究课题。表 4 不同语块的词语分布统计语块类别语块总数

展开阅读全文