中文网页褒贬态度的机器评价--大学毕业设计论文

上传人:壹****1 文档编号:495122055 上传时间:2023-11-07 格式:DOC 页数:50 大小:750KB
返回 下载 相关 举报
中文网页褒贬态度的机器评价--大学毕业设计论文_第1页
第1页 / 共50页
中文网页褒贬态度的机器评价--大学毕业设计论文_第2页
第2页 / 共50页
中文网页褒贬态度的机器评价--大学毕业设计论文_第3页
第3页 / 共50页
中文网页褒贬态度的机器评价--大学毕业设计论文_第4页
第4页 / 共50页
中文网页褒贬态度的机器评价--大学毕业设计论文_第5页
第5页 / 共50页
点击查看更多>>
资源描述

《中文网页褒贬态度的机器评价--大学毕业设计论文》由会员分享,可在线阅读,更多相关《中文网页褒贬态度的机器评价--大学毕业设计论文(50页珍藏版)》请在金锄头文库上搜索。

1、硕士研究生学位论文题目:中文网页褒贬态度的机器评价 姓 名: 苏玉梅 学 号: 10108083 系 别: 信息科学技术学院 专 业: 计算机软件与理论 研究方向: 计算语言学 导 师: 俞士汶 教授 孙斌 副教授 二四年五月版权声明任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。北京大学硕士学位论文中文网页褒贬态度的机器评价中文网页褒贬态度的机器评价摘要天网知名度系统是基于北大天网搜索引擎技术和中文信息处理技术,针对用户定制的实体信息开展的个性化网络服务研究。重

2、点研究了网页实体相关度评价算法,从而优化了针对特定信息的网络查询服务质量。在此研究中,通过对中文网页文本内容的大量观察,作者提出了中文网页褒贬态度机器评价的研究方向。基于褒贬评价的修辞属性,作者确定了以语言手段及领域标准为策略的评价算法,独立完成了网页褒贬态度机器评价模块的全部设计与开发,并为此准备了必要的褒贬评价语言知识库,包括在转化现有的基础静态褒贬义词典的有限资源之外,搜集来自真实中文网页的领域相关褒贬义补充词典,积累了一批褒贬态度表达的语言形式模板。该评价模型针对中文网页,依据领域补充褒贬义词典,对网页实体进行褒贬态度评价,其中包含了一系列评价要素,如褒贬结构、领域标准、实体有关、褒贬

3、猜测等关键方法,关联了多种语言知识,从而更合理地模拟了人对网页褒贬信息的解析方法。该模块被应用到天网知名度系统,通过对75万网页近300个实体的评价测试,得到了有价值的实验结果。网页褒贬相关度评价模型的研究开发,为天网知名度系统的个性化网络服务做出了新的和有意义的尝试。关键词:褒贬态度 机器评价 网络信息服务- IV -The Evaluation of Appraise in Chinese WebPagesAbstractTianWang Fame System was focused on personalizing Web Information Services, which was

4、 based on TianWang Information Retrieval System and the technology of Chinese Information Processing, mainly developed the relevance evaluation on entity WebPages and improved the sorting quality of the information retrieval aimed at the customized requirements, following which the author has propos

5、ed the evaluation of appraise in Chinese WebPages as the extended research.In view of cognitive rhetoric, the author developed the appraise evaluation method based on the language knowledge and domanial criterion about the entity. The author has finished the implement of this module and embedded it

6、into TianWang Fame System. As the necessary language knowledge for machine evaluation, the author has formalized an elementary appraise dictionary and established several domanial supplemental lexicons from actual Chinese WebPages, especially a series of appraise template.This module gave the evalua

7、tion focused on WebPage entity and domanial criterion, including the following factors, such as entity-aboutness, appraise-structure, appraise-hypotheses. Through associating several linguistic materials and simulating the cognizance of appraise rhetoric of human, the research has gotten the value r

8、esult and carried a new exploration in Web Information Services.Key words: appraise, machine evaluation, Web Information Retrieval正文目录第1章 引论11.1 天网知名度系统11.2 网页观察机器评价视角下看中文网页类型21.3 项目延伸探索新的网络服务(网页褒贬态度的机器评价)31.4 本文的研究内容及意义51.5 本文的结构5第2章 相关工作及工作基础62.1 语言手段62.1.1 词语手段62.1.2 句式手段82.1.3 辞格手段82.2 评价的规范与标准9

9、2.3 资源准备112.3.1 基础褒贬义词典112.3.2 典型网页文本搜集112.3.3 领域补充褒贬义词集122.3.4 褒贬评价模板搜集132.4 系统基础142.4.1 天网知名度系统流程142.4.2 天网知名度系统结构及模块分布16第3章 网页褒贬态度评价模块243.1 数据需求243.1.1 网页表示信息库243.1.2 注册实体信息库243.2 关键策略253.2.1 实体有关性253.2.2 领域相关性283.3 模块设计283.3.1 处理流程283.3.2 褒贬结构303.3.3 基本结构P31第4章 实验结果及展望334.1 结果浏览界面334.2 有效性分析344.

10、3 改进方向374.3.1 更精细的褒贬评价模板374.3.2 转折结构及褒贬权重374.3.3 更精确的褒贬冲突控制384.3.4 褒贬评价的程度考虑384.3.5 更精细的褒贬义词典构造394.4 其他应用394.5 实验评价39参考文献与资料40图表目录图 1网页褒贬评价关系分析图4图 2天网知名度系统流程15图 3用户注册界面17图 4用户检索界面实体信息列表18图 5用户检索界面实体相关网页排序19图 6人名实体对应示例27图 7一篇网页的褒贬评价流程29图 8 P的识别流程32图 9实体相关网页的褒贬评价结果浏览33图 10实验网页中人名实体对应关系35表 1实验考察与实验资源的对

11、应分布10表 2网页褒贬评价例句11表 3注册实体信息表的信息项定义12表 4实体领域及对应的领域褒贬补充词典12表 5面向领域的褒贬补充词典候选样例13表 6褒贬评价候选模板样例13表 7褒贬评价用到的网页表示库信息项24表 8褒贬评价用到的实体信息库信息项25表 9褒贬结构模板要素30北京大学硕士学位论文中文网页褒贬态度的机器评价 引论第1章 引论因特网(Internet)自1994年开始登陆中国,短短几年内得到了迅猛的发展,今天的因特网确实是一个信息的宝库,但是在很大程度上它还只是信息的堆砌,因此它更像一个宝矿,等待有需求的人们去挖掘。网上海量信息的涌现迫使人们越来越依赖搜索引擎,而目前

12、中文搜索引擎的服务还远远不能满足用户的需要。常见的网络检索服务,常常没有语义分析,只是根据用户所给出查询词串的逻辑组合机械地找出一系列匹配网页,同时检索结果中常有很多无关或无用的网页。通用的搜索引擎缺乏针对性,用户不能通过搜索系统定期、定量、和自动地获得目标相关的网页,必须手工地进行繁复的筛选任务。面对网上的海量信息,人们越发看重准确性、及时性,迫切需要一种更加智能的网络检索服务,能够针对用户关心的焦点,为用户自动收集、分析和整理相关信息,因此,提供个性化检索服务已势在必行。1.1 天网知名度系统北京大学计算机系网络实验室于1997年推出了 “天网”搜索引擎,据“天网” 搜集的网页估计,中文(

13、简体)网页数已超过1亿。从2002年7月开始,北京大学计算语言学研究所信息提取(Information Extraction, IE)项目组与北京大学网络实验室在北京大学-IBM创新研究院的支持下开展了“天网知名度”研究项目。本项目在天网搜索引擎的基础上,力求利用中文信息提取的先进技术,尝试个性化检索服务,提高网络服务的质量。在天网知名度系统中,用户可以通过指定一批具体的实体来定制自己的查询需求,即用户可以指定一个或多个实体作为信息收集、分析和提供服务的目标对象,例如: 名人实体:姓名,主要职业、社会兼职、社会形象、工作单位、代表作品等;公司实体:名称(含别名、缩写名、英文名),所在地、所属行

14、业、产品(服务项目)、负责人(可选)等;机构实体:名称(含别名、缩写名、英文名),所属地区、部门、性质、负责人(可选)等;产品实体:名称(含别名、缩写名、英文名)、型号、功能、规格等。经过对名人实体、机构实体及产品实体的前期考察,天网知名度系统选择了名人实体做为实验对象。用户将其要查询的名人信息注册之后,系统将为每个用户登记专用的实体信息,形成个人信息库和实体信息库,以保证尽量满足每个用户的个性化检索需求。用户通过天网知名度系统用户界面登陆并提交要查询的实体,系统将通过检索评分库和索引库将检索到的实体相关网页的排序结果返回给用户。该系统依托天网搜索引擎的原始网页库,目前在75万中文简体网页范围

15、内小规模提供了近300个名人的网页搜索服务。系统采用了基于内容的浅层分析技术,提取网页中人名、人的职业描述以及人所在的工作单位等二元关系描述,结合特征向量的加权统计,对查询信息建立了合理的结构,大大增加了网页中有关人物分析的准确性。不同于Google等搜索引擎,“天网”知名度项目着眼于用户的特定检索需求(表现为系统中的注册实体,包括各信息条目及其权重),因此实体信息注册、二元关系抽取、加权分析等是实现系统目标的关键环节。1.2 网页观察机器评价视角下看中文网页类型天网知名度系统实验过程中的实体信息,来自前期考察对网页实体信息的认知抽象。而天网知名度系统的相关度评价即是让机器来模拟人自身对网页与实体的相关性的认知策略,最终机器的模拟结果也要接受用户认知体验的检查。因此作者在参与网页与注册实体相关度评价模块的开发时,一直注意积累对网页文本内容的观察。以公司类实体的网页为例,

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号