基于网络评论的文本倾向性分类技术的研究与实现

上传人:E**** 文档编号:115235356 上传时间:2019-11-13 格式:PDF 页数:71 大小:4.46MB
返回 下载 相关 举报
基于网络评论的文本倾向性分类技术的研究与实现_第1页
第1页 / 共71页
基于网络评论的文本倾向性分类技术的研究与实现_第2页
第2页 / 共71页
基于网络评论的文本倾向性分类技术的研究与实现_第3页
第3页 / 共71页
基于网络评论的文本倾向性分类技术的研究与实现_第4页
第4页 / 共71页
基于网络评论的文本倾向性分类技术的研究与实现_第5页
第5页 / 共71页
点击查看更多>>
资源描述

《基于网络评论的文本倾向性分类技术的研究与实现》由会员分享,可在线阅读,更多相关《基于网络评论的文本倾向性分类技术的研究与实现(71页珍藏版)》请在金锄头文库上搜索。

1、国防科学技术大学 硕士学位论文 基于网络评论的文本倾向性分类技术的研究与实现 姓名:单大甫 申请学位级别:硕士 专业:计算机科学与技术 指导教师:周斌 2010-11 国防科学技术大学研究生院工学硕士学位论文 第 i 页 摘 要 随着信息技术在全球范围内的飞速发展,互联网逐渐发展成为反映社会舆情 的主要载体之一。当前,网络舆情形成迅速,对社会影响巨大,对网络舆情进行 分析和预警已经显得越发重要,文本倾向性分类就是其中的一个研究热点。文本 倾向性分类就是对用户关于某个事物或者事件的看法、评论或者观点的文本挖掘, 从而判断该看法或评论是属于对该事物的积极或消极意见。文本倾向性分类在信 息过滤、信息

2、安全、舆情监控等方面都有重要的应用价值。 本文在研究文本倾向性分类技术发展现状的基础上,着重探讨了利用语料间 相互关系来改进网络评论的文本倾向性分类的效果。首先,针对评论网页的特点, 设计专用网络爬虫采集评论网页,然后根据网络评论文本的特点,构造专用解析 器抽取评论文本及评论间的关系,为后续倾向性分类做好准备;其次,基于网络 评论文本间的关系和相关性分析及可靠性(CAAR,Correlation Analysis and Reliability)算法构建完整的网络评论文本倾向性分类器;最后通过实验验证以上 成果对评论的倾向性分类效果。本文旨在通过以上研究提升网络舆情分析中网络 评论的文本倾向性

3、分类性能。本文主要研究内容包括如下四个方面: (1)对现有的文本倾向性分类相关技术和网络评论文本的特点进行研究,分 析传统文本倾向性分类方法在此类数据上的可用性以及不足之处,寻找相应解决 办法。 (2)传统数据采集存在信息采集不全的问题,针对网络评论网页的特点,设 计专用网络爬虫 Deep-Crawler, 有效采集评论网页; 由于当前的解析器不能够有效 解析评论文本,针对评论文本的特点,设计专用解析器 Deep-Parser,有效解析评 论文本及评论间关系,为后续评论文本倾向性分类做好准备。 (3)分析目前文本倾向性分类方法在处理网络评论文本时的不足,提出利用 评论间的关系改进文本倾向性分类

4、的效果。首先提出评论的相关度和可靠度的概 念;基于改进 SBV 极性传递算法,构造基于语义模式库的文本倾向性分类方法; 结合评论的相关度及可靠度,提出了 CAAR 算法,并通过实验验证了 CAAR 算法 的有效性,提高了网络评论文本倾向性分类的效果。 (4)利用上述研究成果,本文基于 YHPODS,设计并实现了面向网络舆情的 基于网络评论的文本倾向性分类系统,为整个网络舆情分析系统的后续开发作积 累和准备。文中详细说明了主要模块的具体实现。 主题词:网络舆情,倾向性分类,网络爬虫,CAAR 算法 国防科学技术大学研究生院工学硕士学位论文 第 ii 页 ABSTRACT Along with t

5、he rapid expansion of information technology throughout the world, the Internet has become the main carrier reflecting popular sentiments. Currently, internet public opinion forms quickly and has the huge impact to society, monitoring and forecasting of which has become more and more important, and

6、textual orientation classification is one of the hottest spot in it. Textual orientation classification is text mining of users view, review or opinion on things or events, which is to determine the view or opinion is positive or negative. Textual orientation classification is highly regarded for it

7、s value in information filtering, information security, public opinion monitoring. Based on the study of current situation of existing Chinese textual orientation classification method, this thesis focused on considering the relevance of web review texts to improve the effect of textual orientation

8、classification. First of all, considering the feature of webpages of comment, the professional crawler is designed to gather it. And according to the characteristics of review text, the special parser is designed to extract them and their relevancy and to ready for the next textual orientation class

9、ification. Secondly, on account of the relevancy of review texts and CAAR algorithm, the integrated textual orientation classifier is constructed. Finally, using above mentioned study achievements, the results of experiment confirmed our thoughts. The aim of this thesis is to improve the effect of t

10、extual orientation classification.The main contents are as the following four aspects: (1) Study existing textual orientation classification technologies and the characteristics of web review text, analyze traditional orientation classification methods on the availability of such data as well as sho

11、rtcomings, to find the appropriate solution. (2) The traditional methof of data collection couldnt gather unabridged data. Considering the feature of webpages of comment, the professional web crawler called Deep-Crawler is designed to gather it. And according to the characteristics of review text, t

12、he special parser called Deep-Parser is designed to extract them and their relevancy and to ready for the next textual orientation classification. (3) Analyze the shortage of current textual orientation classification algorithm in web review text, and make use of relevancy of review texts to improve

13、 the effect of textual orientation classification. Give the concept of relevancy and correlation, according improved SBV polarity transfer algorithm and the relevancy and the correlation of review texts, propose a textual orientation classification algorithm: CAAR, also confirm availability of CAAR

14、algorithm, improve performance of textual orientation clasificatier. (4) Using the above research results, this thesis designed and implemented an 国防科学技术大学研究生院工学硕士学位论文 第 iii 页 archetypal system of web review textual orientation classification for Public Opinion in Internet based on YHPODS for the fo

15、llow-up developments. And at the same time, described detail of the primary module in the thesis. Key Words:Internet Public Opinion, Textual Orientation Classification, Web Crawler, CAAR Agorithm 国防科学技术大学研究生院工学硕士学位论文 第 III 页 表 目 录 表 2.1 引文7中抽取两词短语的模式列表 . 12 表 2.2 引文54模式模板列表 . 14 表 2.3 引文51中语法规则 . 15

16、 表 2.4 常用正则表达式的含义 22 表 2.5 HTMLParser 包的结构 24 表 3.1 引文65所用聚焦爬虫与 Deep-Crawler 性能对比 . 29 表 3.2 三种方法实验性能对比 35 表 4.1 LTP 依存句法标注体系及意义68 38 表 4.2 采集数据详细信息表 43 表 4.3 性能分析 43 国防科学技术大学研究生院工学硕士学位论文 第 IV 页 图 目 录 图 1.1 网络评论数据示意图 5 图 2.1 最优分类面 9 图 2.2 服务器客户端爬虫系统 17 图 2.3 基于标记窗的网页正文抽取方法流程图 20 图 3.1 网易评论网页示意图 26 图 3.2 Deep-Crawler 工作原理图 28 图 3.3 简单的 Html 源代码 30 图 3.4 对应的 HTML 文件树结构 . 31 图 3.5 评论网页部分源码示意图 32 图 3.6 评论网页部分源码示意图 33 图 3.7 Deep-Parser 工作原理图 . 34 图 3.8 解析后的评论文本 34 图 4.1 同一主题相关评论文本示意图 36

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号