意见目标网络与意见目标抽取研究

上传人:艾力 文档编号:36735664 上传时间:2018-04-01 格式:PDF 页数:78 大小:1.19MB
返回 下载 相关 举报
意见目标网络与意见目标抽取研究_第1页
第1页 / 共78页
意见目标网络与意见目标抽取研究_第2页
第2页 / 共78页
意见目标网络与意见目标抽取研究_第3页
第3页 / 共78页
意见目标网络与意见目标抽取研究_第4页
第4页 / 共78页
意见目标网络与意见目标抽取研究_第5页
第5页 / 共78页
点击查看更多>>
资源描述

《意见目标网络与意见目标抽取研究》由会员分享,可在线阅读,更多相关《意见目标网络与意见目标抽取研究(78页珍藏版)》请在金锄头文库上搜索。

1、 意见目标网络与意见 目标抽取研究 Theoretical Analysis on Opinion Target Network and Opinion Target Extraction (申请清华大学工学硕士学位论文) 培 养 单 位 : 计算机科学与技术系 学 科 : 计算机科学与技术 研 究 生 : 郝 博 一 指 导 教 师 : 郑 方 研 究 员 二一年六月 意 见 目 标 网 络 与 意 见 目 标 抽 取 研 究郝 博 一关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权, 其中包括: (1)已获

2、学位的研究生必须按学校规定提交学位论文,学校可以采用影印、缩印或其他复制手段保存研究生上交的学位论文; (2)为教学和科研目的, 学校可以将公开的学位论文作为资料在图书馆、 资料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内容。 本人保证遵守上述规定。 作者签名: 导师签名: 日 期: 日 期: 摘 要 I 摘 要 意见目标抽取是意见挖掘领域的重要子任务,同时由于意见目标抽取的对象是客观性信息,又使得它与信息抽取技术有着密切的关系。先前的意见目标抽取研究,存在四个主要弊病:1)对意见目标定义含糊。2)对意见目标管理低效。3)意见目标扩展抽取时使用的种子颗粒度偏大。4)过分依赖统计方法

3、,句法分析不足。针对以上问题,本文在首先明晰了意见目标定义的基础上,提出了一种能结构化表示意见目标的高效管理体系意见目标网络,以及一套基于泛化与繁殖的自举式意见目标抽取算法。 意见目标网络是一个双层有向图,它以原子意见目标(广义实体和属性)同义词集为结点,通过意见目标模式实现了对复合意见目标的表示。意见目标网络的构建过程恰恰是未知意见目标抽取过程,配合基于泛化和繁殖的多轮自举处理,显著提高了意见目标抽取覆盖率。本文在中文评价文本上进行了实验,结果表明:意见目标网络对发现未知意见目标具有很好的性能。 关键词:意见目标抽取 意见挖掘 信息抽取 术语抽取 意见目标网络 Abstract II Abs

4、tract Opinion Target Extraction (OTE) is an important subtask of Opinion Mining (OM). Meanwhile, as opinion targets carry factual information, OTE task has a close relationship with Information Extraction (IE). There are four disadvantages in previous research: 1) Having no clear definition of opini

5、on target. 2) Inefficient management of opinion targets. 3) Manually compiled opinion targets are too large to be sound seeds. 4) Depending too much upon statistical methods, lack of parsing. To deal with this, a definition of opinion target is proposed first in this paper, followed by a structual m

6、anagement model of opinion target with high efficiency and a new method for opinion target extraction based on generalization, propagation and bootstrapping. The opinion target network (OTN) is proposed in this paper to organize atom opinion targets (AOT) of generalized entity and attribute in a two

7、-layer directed graph. OTN use nodes to show synsets of AOT and paths to show compound opinion targets (COT). With multiple cycles of OTN construction, a higher coverage of opinion target extraction is achieved via generalization and propagation. Experiments on Chinese opinion target extraction show

8、 the OTN is promising in handling the unknown opinion targets. Keywords: opinion target extraction opinion mining information extraction term extraction opinion target network 目 录 III 目 录 第 1 章 引言 . 1 1.1 事实与意见 . 1 1.2 信息抽取 . 2 1.3 意见挖掘 . 3 1.4 意见目标抽取 . 7 第 2 章 相关技术综述 . 9 2.1 术语抽取 . 9 2.1.1 基于统计的术语抽

9、取 . 9 2.1.2 统计与规则相结合的术语抽取. 12 2.2 意见目标抽取 . 13 2.2.1 基于规则的意见目标抽取. 13 2.2.2 基于同现的意见目标抽取. 14 2.2.3 基于关系的意见目标抽取. 14 2.3 其他 . 15 第 3 章 问题分析 . 16 3.1 任务目标 . 16 3.2 难点分析 . 17 3.3 解决思路 . 19 3.3.1 意见目标 . 19 3.3.2 现有方法的弊病 . 21 3.3.3 解决方案 . 24 3.4 解决思路后文结构. 24 第 4 章 统计与句法分析相结合的意见目标抽取方法 . 26 4.1 介绍 . 26 4.2 算法架构 . 27 4.2.1 算法结构及流程 . 27 目 录 IV 4.2.2 候选意见目标抽取 . 28 4.2.3 特征向量生成 . 31 4.2.4 候选意见目标排队 . 33 4.3 实验 . 34 4.3.1 实验数据与评测标准 . 34 4.3.2 实验方法 .

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 行业资料 > 其它行业文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号