基于规则抽取的汉语语块识别

上传人:E**** 文档编号:118240435 上传时间:2019-12-11 格式:PDF 页数:44 大小:3.02MB
返回 下载 相关 举报
基于规则抽取的汉语语块识别_第1页
第1页 / 共44页
基于规则抽取的汉语语块识别_第2页
第2页 / 共44页
基于规则抽取的汉语语块识别_第3页
第3页 / 共44页
基于规则抽取的汉语语块识别_第4页
第4页 / 共44页
基于规则抽取的汉语语块识别_第5页
第5页 / 共44页
点击查看更多>>
资源描述

《基于规则抽取的汉语语块识别》由会员分享,可在线阅读,更多相关《基于规则抽取的汉语语块识别(44页珍藏版)》请在金锄头文库上搜索。

1、河北大学 硕士学位论文 基于规则抽取的汉语语块识别 姓名:王呈艳 申请学位级别:硕士 专业:计算机软件与理论 指导教师:李新福 2011-05 摘 要 I 摘 要 语块可用于自然语言处理领域中,其中包括信息抽取、问答系统、语句相似度的比 较等应用系统研究中,也可以应用于句法分析。并在这些领域中发挥了重要的作用。 本文主要从句法分析的角度以基于规则的方法为出发点来对汉语功能语块进行识 别,这种方法根据词性在句法分析中所起的作用来区分不同的功能语块,以标注显示句 子的结构骨架。这种方法相比较于其它方法所选择的特征少,识别的速度快,同时提高 了对多动词连用结构的识别率。此后又用决策树的方法对汉语功能

2、语块进行识别,这种 方法不需要人工抽取规则,在一定程度上提高了识别率。对于汉语基本语块,根据词汇 之间的关联信息, 语义关系以及句法形式来确定汉语基本语块。 对汉语基本语块的识别, 采用了规则抽取和统计相结合的方法,有效地提高了识别率。这种方法使汉语基本语块 有很强的内聚性,把句法形式与语义内容关联起来,同时也考虑到了语义消歧,在一定 程度上避免了歧义的发生,补充了单纯依靠置信度进行消歧的缺陷。 关键词 汉语功能块识别 汉语基本块识别 词性 决策树 语义消歧 Abstract II Abstract Chunking can be used in the field of natural la

3、nguage processing which includes information extraction, Q&A System, and statements similarity comparison application systems and so on, it can also be applied to syntactic analysis. It plays an important role in these areas. Chinese functional chunk is identified mostly based on the rules which com

4、e from the syntactic analysis , it is mainly according to the role played by part-of-speech in parsing to mark the skeletal structure of the sentence. Compared to other methods, this method selects few features and has improved the recognition rate. Meanwhile, it also improves the recognition rate f

5、or the structure of multi-verb. After that the method of decision tree is used to identify Chinese functional chunk, this method improved the recognition rate on a certain extent. For Chinese basic chunk, The information based on the relationship between words, semantic relations and syntactic form

6、are used to determine them. The method of the combination of rule extraction and statistical is used to determine Chinese basic chunk, this method effectively improved the recognition rate. This approach makes the Chinese basic chunk have a strong cohesion, it associates syntactic form and semantic

7、content. The semantic disambiguation is also considered and has avoid them in a certain extent, rely the defects of solely on supplements. Keywords Chinese functional chunk identification Chinese basic chunk identification Part of speech Decision tree Semantic disambiguation 第 1 章 引 言 1 第 1 章 引 言 1.

8、1 研究背景和意义 汉语句法分析在自然语言处理领域中有很重要的地位, 但是由于汉语句子的复杂性 和灵活性,使得人们对汉语句子的完全句法分析处理起来比较困难。为了降低汉语句子 分析的难度,首先从浅层句法分析入手,因为浅层句法分析是完全句法分析的基础1, 所以先对浅层句法分析进行研究,这样不仅可以降低句子分析的难度,而且提高了句子 分析的效率。 本文主要进行语块分析,语块分析属于浅层句法分析的一部分,通过对汉语语块的 分析可以将分析出的句法块整理组合成句法树,语块之间是有依附关系的,语块和这些 关系一起可以组成完整的句法分析树。通过浅层句法分析,深层次的句法分析可以被分 解为两个比较小的任务: (

9、1)识别出语块的类别并对其进行分析; (2)对语块之间的关 系进行分析,其中语块的识别和分析是主要任务 1。 1.1.1 浅层句法分析 浅层句法分析也就是部分句法分析,属于自然语言处理范畴1。浅层句法分析包括 分词和词性标注等,是对句子的局部也是比较浅层次的语言分析。语块分析属于浅层句 法分析。因为它是深层语言分析的基础,所以近年来自然语言处理在这方面有所发展。 浅层句法分析属于自然语言分析中的一个比较新的领域, 与完全句法分析不同的是浅层 句法分析相对来说比较简单易行,研究起来更加容易着手,可以化解完全句法分析中的 难点。完全句法分析对自然语言分析的比较彻底,可以得到句子的完整的句法树。与完

10、 全句法分析不同,浅层句法分析属于比较浅层次的,只需要其中一些相对简单的成分, 可为进一步进行更好的深层次的句法分析打下坚实的基础, 是深度句法分析不可缺少的 步骤。 这些相对简单通过浅层句法分析得来的句法成分构成了自然语言处理的完整句法 树的子图。 1.1.2 Abney 的组块分析体系 Abney 为了使句法分析变得简单一些,提出了语块描述体系,并且提出组块分析的 想法并将其分为三步2: 河北大学工学硕士学位论文 2 1对语块进行识别:用语块识别器(Chunker)将句子中所有的语块识别出来; 2分析语块的内部结构:对语块内部的句法关系进行分析; 3分析语块之间的关系:分析不同的语块之间的

11、句法关系。这样不仅可以对不同的 块进行了准确的功能定位,而且还分析了块的内部结构,既可以提高分析的效率又可以 降低句子分析的难度。 由于英语和汉语语言的固有特点,句法形式也自然有所不同,所以 Abney 的语块分 析体系不能一成不变地应用到汉语语言分析中。近年来,对汉语语块的研究受到理论语 言学和应用语言学的青睐,包括汉语在内的各种语言都包含着非常多的语块。语块是语 言里一个独立的小意思,能够被人们更容易的理解。 语块可用于自然语言处理领域中,降低句子分析的难度,为进一步进行更好的语言 分析打下坚实的基础。汉语语块有汉语的基本语块和汉语功能语块之分。在文本处理领 域中,由于汉语的基本语块是作为

12、一个独立的语义内容出现的,所以它对于文本信息抽 取领域、问答系统领域等的研究有非常重要的意义。而汉语功能语块描述了句子中的功 能性的成分,比如主语、谓语、宾语、补语等,对汉语功能语块的分析对是汉语句法树 研究的基础,可以使机器更好的分析语言并加以运用,为进一步的语言研究打下根基。 本文所做的工作主要是识别出语块和对语块内部的句法成分进行分析。 1.2 国内外的研究现状及分析 汉语句子一般情况下比较复杂而且也比较灵活,由于这个原因,一个句法分析被分 解为几个容易处理的子问题已经被许多学者开始尝试,以降低句子分析的难度。为了减 轻句法分析的难度,Abney(1991)最早提出了语块理论,对语块做出

13、了描述。为语块 描述体系打下了基础2,指出语块都有一个实义词和相应的修饰它的功能词所组成,语 块在句中出现的顺序比较灵活,不受语法的约束,但是块的内部依然和语法有关系。 CONLL 语块体系的提出,强调自底向上分析句子,在 Abney 的语块理论的基础上把语块 分解为更细的单位,把句子分解成不同的短语和小句,但是 CONLL 体系中的介词短语 通常只包含一个介词3。 语块识别被越来越多的学者所研究, 其中最大熵模型和基于记忆的浅层句法分析器 等被应用到了英语语块识别的方法中4-5。 文献5中基于记忆的学习是一种基于分类的 监督学习方法,基于记忆的学习算法通过储存一个样例集,每个样例相关联一个特

14、征向 第 1 章 引 言 3 量和一个有限数量的类。对于一个新的特征向量,分类器从记忆里的大量相似的特征向 量里抽取出该向量的类。好的相似性可以很好的适应手头的工作。基于记忆的浅层句法 分析构建了一个分类器, 句法分析过程是把一个主要的向量和其周边环境输入一个分类 器,从而输出一些基于记忆的模板。这种方法对于动词语块的识别率比较高,但是对主 语和宾语语块的识别率不是很好。英语语块识别技术已经取得了一定的成果,但是汉语 语块识别却刚刚起步6-9,其中包括自动识别汉语短语、用支持向量机来识别汉语语块 和汉语短语的定义与识别。 2004 年清华大学计算机系的周强教授在总结国内外句法树库研究的基础上,

15、提出 了一套汉语真实文本的句法标注体系并开发完成了 100 万词规模的汉语句法树库 TCT10,在文献10中提出了一套合理有效的汉语基本语块描述体系,这种描述体系使 基本短语的形式和意义结合的更完美,同时给出了汉语基本语块的定义。他描述的汉语 基本块是基于拓扑结构的,把多词语基本语块描述为三种基本的拓扑结构,分别是左角 中心结构、右角中心结构和链式关联结构。这三种基本结构把基本块的信息比较完整的 涵盖在了里面,把基本语块定义为基本拓扑结构、句法形式描述和语义内容描述的结合 体。从外部句法分布和内部词汇关联的角度对汉语基本块进行了分析,为汉语基本块内 聚性打下了很好的基础,同时将汉语中的述宾结构

16、融入到了汉语基本语块的描述体系 中,为进一步进行汉语基本块的研究和知识获取打下了基础,实现了对汉语基本块的语 义内容的分析。 对语块的识别方面还有文献11,对 WINNOW、支持向量机和感知器三种识别方法 进行了比较和分析。使用了词、词性、语块标记以及增强语言特征等比较多的特征来对 文本语块进行识别。基于 WINNOW 在识别英语语块时使用了基础特征也就是词和词性的 特征同时还使用了增强语言特征也就是词的中心词和中心词的依赖成分。 支持向量机使 用的特征包括词,词性和语块标识这三类特征。感知器的方法使用了词、词性、语块标 识、拼写特点等特征来识别文本语块。最后提出虽然为了提高识别效果而使用比较多的 特征进行语块的识别,但是这样会使数据稀疏的现象加重,同时也会在数据的查询方面 耗费太多的时间,识别的速度减慢。 构建大规模的标注语料库是一项有意义的工作,对语块的训练和识别有很大的意 义。Pen

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号