基于汉语构架网的语义角色注释-软件工程毕业论文

上传人:龙*** 文档编号:366570 上传时间:2017-02-08 格式:DOCX 页数:6 大小:268.90KB
返回 下载 相关 举报
基于汉语构架网的语义角色注释-软件工程毕业论文_第1页
第1页 / 共6页
基于汉语构架网的语义角色注释-软件工程毕业论文_第2页
第2页 / 共6页
基于汉语构架网的语义角色注释-软件工程毕业论文_第3页
第3页 / 共6页
基于汉语构架网的语义角色注释-软件工程毕业论文_第4页
第4页 / 共6页
基于汉语构架网的语义角色注释-软件工程毕业论文_第5页
第5页 / 共6页
点击查看更多>>
资源描述

《基于汉语构架网的语义角色注释-软件工程毕业论文》由会员分享,可在线阅读,更多相关《基于汉语构架网的语义角色注释-软件工程毕业论文(6页珍藏版)》请在金锄头文库上搜索。

1、2015 届本科毕业论文基于汉语构架网的语义角色注释二一六 年十一月基于 汉语构架网的语义角色自动标注自动标注算法研究姓 名 任鹏辉指导教师 王文晶专 业 软件工程学院名称 信息学院山西大学 商务学院F 斌 指导教师:李红梅内容摘要:基于构架的语义角色标注是根据一个文本句中的目标谓词所激起的构架与相关句子成分之间的语义关系而赋予这些句子成分一定的语义信息的方法。论文在基于汉语构架网(基础上,提出了基于 配和最大熵分类器的语义角色自动标注方法,并对该方法进行了有效性验证。关键词:构架本体 语义标注 文本匹配 最大熵图 1 计算机 图 2 软盘1. 引言语义标注,从本体角度是添加实例,丰富本体的过

2、程;从语义网的角度是语义信息的发布过程,即用户依据一定的本体为页面添加语义信息。基于构架的语义角色标注(浅层 语义分析的一种可行性方案,通过分析句子的论元结构,标记出句子中某个动词的所有论元,根据句子中的目标谓词所激起的构架与相关的句子成分之间的语义关系而赋予这些句子成分的语义角色信息。国外的基于构架下的语义角色标注开始于 们实验所用的语料是 学开发的 以构架 语义为标注的理论基础,对英语国家的语料库进行部分标注,试图描述一个词汇单元(主要为动词)的构架以及这些构架之间的关系。国内的语义角色标注研究起步较晚,较早的研究者刘挺等主要参照英文进行标注;刘怀军等主要进行“语义角色分类研究” 。本体构

3、架网是一个支持性内容,它构建了某一领域本体的大体构架,给出了这一领域知识的宏观结构。它类似于词典,构建了一个某一领域所有本体的构架网络体系,这些本体构架根据其之间的不同联系,构成了纵向的继承关系、总分关系;横向的因果关系、起始关系、参见关系等;词元即目标词,词元库包含了某一构架下所有的目标谓词,当文本中出现了这些词时,我们优先将其选择为中心词;语义角色标注例句库是语料库的核心内容,具体标记了所有例句中目标词和其论元成分在文本中的位置、路径等特征和三元组的具体标注,并对同一个目标词的各个特征进行了总结。2. 义角色的自动标注 语义角色自动标注是在对语料库例句进行统计、分析和自动学习的基础上,利用

4、一定的算法和模型给输入文本的各个谓语参数赋予语义的过程。语义角色自动标注一般分为 3 个阶段:首先分词、词性标注、义角色自动标注流程由于汉语构架网的建设仍然处于初级阶段,本文所讲的自动标注是在已知给定文本的目标词及其所属构架前提下,并对各短语进行识别、词性标注和句法分析等技术的基础上,探讨语义角色进行自动标注问题,所采用流程如图 3 所示。输入待标注文本文本预处理输入文本和例句匹配计算相似度 0 . 8 5P T - G F 匹配标注 语义角色匹配运算基于 语义角色自动标注是综合考虑短语类型、短语相对于目标词位置、句法功能三个因素以及这三个方面对句子相似度影响的权重,利用余弦算法对输入文本和例

5、句文本的相似度进行计算。义角色自动标注最大熵原理是在 1957 年由 出的,主要思想是在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。最大熵语义角色标注是在统计学的基础上发展起来的,以句子中词、短语或语块为标注的基本单元,根据一定语言学知识列出该词汇单元的各种特征,标注单元与该单元的语义角色类型组成学习实例,使用某种学习算法对这些实例进行自动学习,以对新的实例进行预测。参照我国现有的最大熵研究成果,简单特征、复合特征和扩展特征总结如表 1 所示表一 数6 30 19 9574 142 54 3705 57 26 似度计算利用余弦算法分别对输入文本和例句文本的短语类型

6、、短语相对于目标词位置、句法功能的相似度进行计算。3 基于 法的标注实例我们以“我县不少单位和个人以私自户外接电等手段偷大肆电。 ”作为输入文本,经过预处理处理后。4. 结语在文中我们基于汉语构架网以法律领域为例分别用 配和最大熵模型对输入文本进行了自动标注。在 配模型中,我们以短语为基本单位根据权重对文本短语的词性、相对于目标词位置和句法功能进行匹配,因此分词和短语选择技术对结果影响比较大。在最大熵模型中,我们以语义角色特征或组合特征为条件进行概率统计,因此特征提取的准确度以及组合特征的选择比较关键。因此如何克服这些技术的缺陷和约束,成为我们以后研究自动语义角色标注的方向。参考文献1 周庆荣,张泽廷,朱美文,等固体溶质在含夹带剂超临界流体中的溶解度J化工学报2 C, N, M, et by 2002, 63: 4653 蒋挺大亮聚糖M北京:化学工业出版社, 2001: 127eb s On a in eb is by of On eb to of s is an eb process

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号