面向金融领域文本情感分析技术的研究

上传人:小** 文档编号:47823556 上传时间:2018-07-05 格式:PDF 页数:60 大小:1.09MB
返回 下载 相关 举报
面向金融领域文本情感分析技术的研究_第1页
第1页 / 共60页
面向金融领域文本情感分析技术的研究_第2页
第2页 / 共60页
面向金融领域文本情感分析技术的研究_第3页
第3页 / 共60页
面向金融领域文本情感分析技术的研究_第4页
第4页 / 共60页
面向金融领域文本情感分析技术的研究_第5页
第5页 / 共60页
点击查看更多>>
资源描述

《面向金融领域文本情感分析技术的研究》由会员分享,可在线阅读,更多相关《面向金融领域文本情感分析技术的研究(60页珍藏版)》请在金锄头文库上搜索。

1、 硕士学位论文硕士学位论文 面向金融领域的文本情感分析技术研究 THE STUDY ON SENTIMENT ANALYSIS FOR FINANCIAL TEXT 王亚伟王亚伟 哈尔滨工业大学哈尔滨工业大学 2011 年年 12 月月 国内图书分类号:TP391.3 学校代码:10213 国际图书分类号:621.3 密级:公开 硕士学位论文硕士学位论文 面向金融领域的文本情感分析技术研究 硕 士 研 究 生 : 王亚伟 导 师 : 王晓龙教授 申 请学位 : 工学硕士 学科 : 计算机科学与技术 所 在 单 位 : 深圳研究生院 答 辩 日 期 : 2011 年 12 月 授予学位单位 :

2、哈尔滨工业大学 Classified Index: TP391.3 U.D.C: 621.3 Thesis for the Master Degree in Engineering THE STUDY ON SENTIMENT ANALYSIS FOR FINANCIAL TEXT Candidate: Yawei Wang Supervisor: Prof.Xiaolong Wang Academic Degree Applied for: Master of Engineering Speciality: Computer Science&Technology Affiliation: S

3、henzhen Graduate School Date of Defence: December, 2011 Degree-Conferring-Institution: Harbin Institute of Technology 哈尔滨工业大学工学硕士学位论文 - I - 摘 要 随着互联网技术和金融产业的飞速发展, 网络上金融信息日益丰富, 同时,人们对金融信息的需求也日益增多。金融文本的倾向性可能对相关个股或者公司股票价格走势产生重要影响,为此,对金融文本进行进一步的情感分析,有助于投资者进行投资决策。人工判断新闻、评论等金融文本的倾向性的工作量巨大,迫切需要一种面向金融领域的自动文

4、本情感分析技术和工具。金融文本的情感分析技术主要受制于高性能的文本情感分类算法和高质量的金融文本情感标注语料库。 为此,本文首先对金融文本的倾向性判定方法进行了研究,结合文本情感分类特点,本文对感知器算法进行改进,提出了基于优化感知器的文本倾向性分析方法。通过观察和分析金融文本的特点,本文提取了情感词、评价词等特征来表示金融文本。传统的感知器方法的优点是可以通过错误分类的样本来调节各个特征的权重,但却存在确定学习率的问题,而传统的基于情感词典统计的倾向性分析方法能够采用固定特征权值进行统计,所以本文结合感知器和词典统计方法提出了优化感知器的文本倾向性分析方法。实验结果表明,优化的感知器方法能够

5、有效地判断金融文本的倾向性,在同一金融语料库上的倾向性分析效果优于其它方法。 其次,由于人工标记语料具有主观偏向性的缺点,从而影响语料库的一致性,并且导致基于监督学习分析方法的综合性能下降。借鉴 PageRank 算法的思想,本文提出了一种新的 DocRank 算法,算法采用文本图的结构来表示文档间相互关系,优选出具有代表性的情感样本作为训练语料集合。通过多组对比实验表明,DocRank 算法能够对语料库进行优化选择,提高语料库的一致性。 最后,本文将上述算法应用到了专业的金融信息检索系统中。从而帮助用户更好的理解金融文本,提升用户体验,同时也验证了算法的有效性。 关键词:情感分析;感知器;文

6、本图 哈尔滨工业大学工学硕士学位论文 - II - Abstract With the rapid development of Internet and financial industry, both provisions and requirements of financial information people needed increase substantially. The tendency of financial texts may have a major impact on the related stocks or companies, therefore the

7、further analysis of financial texts could help investors make investment decisions. It is a hard work for people to judge the tendencies of news, review and so on. This situation causes an urgently demand which needs an automated tool with analysis technology to determine news orientation. However,

8、the technology is subject to the sentimental analysis algorithms with high performance and emotional corpus with high quality. For this problem, this paper first does research the methods, which analyze the inclination of financial news. According to the characteristics of the sentimental classifica

9、tion, this paper improves the general perceptron algorithm and proposes an optimized perceptron method to distinguish the inclination of the news. By observing and analyzing the characteristics of financial texts, this paper extracts the words set, which includes the sentiment words, appraise words

10、and so on to express the financial texts. Although the general perceptron method can adjust the weights of each feature by using the misclassified samples, it is hard to determine the rate of learning. Taking into account the advantage of dictionary-based statistical method which can static the targ

11、et objects using the fixed weight values of the statistical characteristics, this paper achieves optimized perceptron method by combining the advantages of the perceptron method and dictionary-based statistical method. The experiments show that the optimal perceptron method can effectively distingui

12、sh the inclination of the financial news and be superior to other methods on the effect of doing with the same financial corpus. And then, corpus which is marked artificial has the defect of subjective bias that affects the corpus consistency to some extent, thereby decline overall performance of th

13、e supervised learning method. This paper proposes a new DocRank algorithm which chooses the most representative samples as the training data set. This algorithm, which is based on text-graph structure and draws on the idea of PageRank algorithm, is an optimal training method. The experiments which 哈

14、尔滨工业大学工学硕士学位论文 - III - are the base of the corpus after training by the DocRank algorithm also prove the effect of the perceptron method and the purified performance of this rank algorithm. Finally, above the algorithms proposed are applied to a professional financial information retrieval system. This can help users understand the financial texts better and improve their experiences. This also verifies the effectiveness of these algorithms. Keywords: Sentimental Analysis, Perceptron, Text-graph 哈尔滨工业大学工学硕士学位论文 - IV - 目 录 摘 要 . I Abstract . II 第 1 章 绪 论 . 1 1.1 课题背景及目的和意义 .

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 宣传企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号