基于数据挖掘的股价走势预测

上传人:E**** 文档编号:118252774 上传时间:2019-12-11 格式:PDF 页数:56 大小:5.70MB
返回 下载 相关 举报
基于数据挖掘的股价走势预测_第1页
第1页 / 共56页
基于数据挖掘的股价走势预测_第2页
第2页 / 共56页
基于数据挖掘的股价走势预测_第3页
第3页 / 共56页
基于数据挖掘的股价走势预测_第4页
第4页 / 共56页
基于数据挖掘的股价走势预测_第5页
第5页 / 共56页
点击查看更多>>
资源描述

《基于数据挖掘的股价走势预测》由会员分享,可在线阅读,更多相关《基于数据挖掘的股价走势预测(56页珍藏版)》请在金锄头文库上搜索。

1、华中科技大学 硕士学位论文 基于数据挖掘的股价走势预测 姓名:张胜权 申请学位级别:硕士 专业:概率论与数理统计 指导教师:周晓阳 20090517 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 I 摘摘 要要 随着社会经济的发展和人们投资意识的不断增强,股票已经成为投资理财的一 种重要工具,从而股票走势的预测具有十分重要的意义,然而,股票市场是一个极 其复杂的系统,股价走势的预测问题是一个非常困难的问题,尽管如此,股价走势 的预测还是引起了越来越多人的关注和研究。 数据挖掘,是 90 年代中后期发展起来的人工智能分支,它以发现海量数据中隐 含的、新颖的、有价值的信息

2、和模式为目标, 是一种高层次的数据分析。股票市场 中积累了大量的交易数据,数据中隐含了大量有用的信息,采用数据挖掘的相关技 术对股市数据进行分析,探索股价走势中的规律,建立股价走势的预测模型,无疑 具有重大的现实意义。 本文以中国股票市场为背景,利用数具挖掘的相关技术建立了用于预测股票走 势的定性预测模型和定量预测模型,并得到了比较好的结果,由于采用的数据是沪 深股市其中 550 只个股近十年累计约 120 万个交易日的数据,数据具有很好的代表 性,因此,模型具有良好的泛化能力,模型产生的结论也具有较强的说服力,模型 具有一定的参考价值,同时,本文的研究页表明了采用数据挖掘的相关技术进行股 价

3、预测是可行的。 关键词关键词:股票 数据挖掘 预测 聚类 k-均值 两步聚类 Kohonen 决策树 分类 最近邻算法 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 II Abstract With social-economic development and strengthening of peoples investment consciousness, The forecast of stock price movement is very important and meaningful, stocks have become an important i

4、nvestment instrument. However, as stock market is a very complicated system, forecast of stock price movement has become very difficult; despite the challenges, people are paying more attention to this area and are doing more research. Data-mining ,a new Artificial Intelligence branch developed sinc

5、e1990s,focus on discovering valuable modes which are hidden in mega-data and it is high-level of data analysis. a large number of stock market transaction data is accumulated , a great deal of useful information is implied in stock data,Thus, using data-mining techniques to analyze stock data and ex

6、plore the law in the stock price movement,building forecast model on stock price movement is very meaningful. This paper builds both the qualitative and quantitative forecast models of stock price movement using data-mining on the Chinese stock market with satisfactory results. Among the stocks trad

7、ed on the Shenzhen and Shanghai Stock Exchange, 550 stocks have records of 1.2 million trading days accumulatively, Data are well represented, so the models can be widely extended with pervasive conclusions. We believe it is workable to forecast stock price movement using data-mining. Key words: sto

8、cks, Data-Mining, forecast, clustering, k-means, Two-step Clustering, kohonen, Decision Tree,classification, nearest neighbor 独创性声明独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学

9、位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 保密 ,在_ _年解密后适用本授权书。 不保密 (请在以上方框内打“”) 学位论文作者签名: 指导教师签名: 日期: 年 月 日 日期: 年 月 日 本论文属于 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 1 1 绪论绪论 1.1 课题的研究背景

10、课题的研究背景 随着经济体制改革的不断深化,我国股票市场也在不断地完善和发展,股票市场 已经成为我国证券业以及金融业不可或缺的组成部分,人们的金融意识和投资意识 日益增强,股票投资已经成为一种人们愿意承担其风险的理财手段,股市投资的收 益与风险往往是强正相关的,也就是投资收益越高,冒的风险也越大,因此,股票 数据的分析和预测具有十分重大的理论意义和非常诱人的应用价值,然而,股票市 场是一个极其复杂的动力学系统,高噪声、严重非线性和投资者的任意盲目性等诸 多因素决定了股价走势预测的复杂性,股票的投资决策问题已成为金融工程及系统 工程领域的前沿课题之一,也是迄今为止尚未很好解决的一个国际热点难题。

11、 1.2 当前研究的现状当前研究的现状 随着人们对股市认识的不断加深,金融理论与数理工具的日趋完善,各种各样 的预测方法也应运而生,特别是近年来,随着计算机技术、混沌、分形理论的发展, 人们开始将股票市场的行为纳入非线性动力学研究的范畴。己有不少研究文献表明 股票市场是具有混沌现象的非线性动力系统,因此,迫切要求人们找到直接从数据 中建立模型的方法。 人工神经网络(ANN)是被广泛应用于股市预测的方法之一,Mendelsohn和Stein (1991)用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号,使用 一年的数据进行验证,表明神经网络产生的24个买入信号中一半是正确的,并可以

12、带来满意的回报1,Sheng-chai Chi(1999)在研究中将灰色关联度引入到神经网络的 输入变量,并对不同的网络拓扑结构进行了测试,研究表明灰色关联度的引入,提 高了模型的预测精度并减少了网络训练所需要的时间,同时也表明更多的神经元数 量并没有带来更高的预测精度2.国内方面, 霍建军3, 张秀艳4等针对中国股票市场, 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 2 用神经网络建立了相关的预测模型。 支持向量机(SVM)技术也被人们用于股市预测,SVM具有坚实的统计学理论基础, 能很好的用于高维数据,文献5正是利用支持向量机的技术对股市进行预测,在支 持向量机

13、用于时间序列预测的理论基础上,给出了基于时间序列的支持向量机预测 模型。 然而,很多文献尤其是国内的许多文献(如文献5,6), 建立起来的对股市进 行预测的模型或者方法均缺乏足够的数据作为支撑,它们建模时采用的一般是市场 指数或者几只个股的某一小段行情数据,过少的数据不仅使模型在训练时容易产生 过拟合现象(Overfitting),而且,由于股票之间存在差异,各段行情走势之间也存在 差异,因此,对于整个市场的大部分情况,在几只股票或者某段行情基础上建立起 来的模型的可靠性是值得怀疑的,总而言之,在小数据量的基础上建立起来的模型 的泛化能力会比较差,得到的结论也缺乏足够的说服力 1.3 本文研究

14、的目的及主要工作本文研究的目的及主要工作 大量研究表明,股市具有一定的可预测性,因此,关键的问题在于找到一种能 够描述实际价格波动各种特性的模型,并据此建立相应的预测方法,获得比较准确 的预测,这正是本文的目的所在。 数据挖掘(Data Mining)是从海量数据中寻找隐含的、未知的、非平凡的、有应 用价值的信息或者模式,中国股票市场经过十几年的发展,积累了大量的交易数据, 用数据挖掘的技术从海量的股票交易数据中寻找有价值的模式无疑具有可观的前景 和重要的现实意义。本文正是以沪深股市其中的550只股票近十年累计约120万个交 易日的收盘价数据为数据对象,采用数据挖掘的相关技术,建立具有较好泛化

15、能力 的预测模型。 本文的主要工作包括:(1)介绍了股价的可预测性问题,并认为股价具有一定的 可预测性.(2).分别使用k均值聚类, 两步聚类和Kohonen聚类技术, 对沪深股市其中 550只股票近10年累计约120万个交易日的收盘价数据生成的相对涨幅向量进行了聚 华华 中中 科科 技技 大大 学学 硕硕 士士 学学 位位 论论 文文 3 类分析,并在此基础上以“投票”的方式确定最终的聚类结果。(3).在(2)聚类分析 产生的结果的基础上,建立决策树分类模型,该模型用于对相对涨幅向量的后面几 个分量进行定性的预测。(4).应用k最近邻技术建立对股价走势进行定量预测的模 型,由于该模型分析的对

16、象是沪深股市其中550只股票近10年约120万个交易日收盘 价数据,数据具有广泛的代表性,模型具有良好的泛化能力,产生的结果具有较强 的说服力,因而用该方法进行股价走势预测具有一定的参考价值。 1.4 论文的结构安排论文的结构安排 本文的结构如下: 第一章阐述了本文研究的课题背景,论述了相关研究的现状及进展情况,讨论 了本文研究的目的及意义。 第二章阐述了股价的可预测性问题,并简单介绍了股价预测的方法。 第三章介绍了数据挖掘的基本知识, 并比较详细的介绍了本文用到的:k均值聚 类,两步聚类,Kohonen聚类,C4.5决策树算法。 第四章对沪深股市其中550只股票累计约120万个收盘价数据进行聚类分析,并 在其结果的基础上建立了股价走势的定性预测模型。

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 其它办公文档

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号