基于数据挖掘的股价走势预测

资源描述

《基于数据挖掘的股价走势预测》由会员分享，可在线阅读，更多相关《基于数据挖掘的股价走势预测（56页珍藏版）》请在金锄头文库上搜索。

1、华中科技大学硕士学位论文基于数据挖掘的股价走势预测姓名：张胜权申请学位级别：硕士专业：概率论与数理统计指导教师：周晓阳 20090517 华华中中科科技技大大学学硕硕士士学学位位论论文文 I 摘摘要要随着社会经济的发展和人们投资意识的不断增强，股票已经成为投资理财的一种重要工具，从而股票走势的预测具有十分重要的意义，然而，股票市场是一个极其复杂的系统，股价走势的预测问题是一个非常困难的问题，尽管如此，股价走势的预测还是引起了越来越多人的关注和研究。数据挖掘，是 90 年代中后期发展起来的人工智能分支，它以发现海量数据中隐含的、新颖的、有价值的信息

2、和模式为目标，是一种高层次的数据分析。股票市场中积累了大量的交易数据，数据中隐含了大量有用的信息，采用数据挖掘的相关技术对股市数据进行分析，探索股价走势中的规律，建立股价走势的预测模型，无疑具有重大的现实意义。本文以中国股票市场为背景，利用数具挖掘的相关技术建立了用于预测股票走势的定性预测模型和定量预测模型，并得到了比较好的结果，由于采用的数据是沪深股市其中 550 只个股近十年累计约 120 万个交易日的数据，数据具有很好的代表性，因此，模型具有良好的泛化能力，模型产生的结论也具有较强的说服力，模型具有一定的参考价值，同时，本文的研究页表明了采用数据挖掘的相关技术进行股价

3、预测是可行的。关键词关键词：股票数据挖掘预测聚类 k-均值两步聚类 Kohonen 决策树分类最近邻算法华华中中科科技技大大学学硕硕士士学学位位论论文文 II Abstract With social-economic development and strengthening of peoples investment consciousness, The forecast of stock price movement is very important and meaningful， stocks have become an important i

4、nvestment instrument. However, as stock market is a very complicated system, forecast of stock price movement has become very difficult; despite the challenges, people are paying more attention to this area and are doing more research. Data-mining ，a new Artificial Intelligence branch developed sinc

5、e1990s，focus on discovering valuable modes which are hidden in mega-data and it is high-level of data analysis. a large number of stock market transaction data is accumulated , a great deal of useful information is implied in stock data,Thus, using data-mining techniques to analyze stock data and ex

6、plore the law in the stock price movement,building forecast model on stock price movement is very meaningful. This paper builds both the qualitative and quantitative forecast models of stock price movement using data-mining on the Chinese stock market with satisfactory results. Among the stocks trad

7、ed on the Shenzhen and Shanghai Stock Exchange, 550 stocks have records of 1.2 million trading days accumulatively, Data are well represented, so the models can be widely extended with pervasive conclusions. We believe it is workable to forecast stock price movement using data-mining. Key words: sto

8、cks, Data-Mining, forecast, clustering, k-means, Two-step Clustering, kohonen, Decision Tree，classification, nearest neighbor 独创性声明独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除文中已经标明引用的内容外，本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体，均已在文中以明确方式标明。本人完全意识到，本声明的法律结果由本人承担。学位论文作者签名：日期：年月日学

9、位论文版权使用授权书学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密，在_ _年解密后适用本授权书。不保密（请在以上方框内打“”）学位论文作者签名：指导教师签名：日期：年月日日期：年月日本论文属于华华中中科科技技大大学学硕硕士士学学位位论论文文 1 1 绪论绪论 1.1 课题的研究背景

10、课题的研究背景随着经济体制改革的不断深化，我国股票市场也在不断地完善和发展，股票市场已经成为我国证券业以及金融业不可或缺的组成部分，人们的金融意识和投资意识日益增强，股票投资已经成为一种人们愿意承担其风险的理财手段，股市投资的收益与风险往往是强正相关的，也就是投资收益越高，冒的风险也越大，因此，股票数据的分析和预测具有十分重大的理论意义和非常诱人的应用价值，然而，股票市场是一个极其复杂的动力学系统，高噪声、严重非线性和投资者的任意盲目性等诸多因素决定了股价走势预测的复杂性，股票的投资决策问题已成为金融工程及系统工程领域的前沿课题之一，也是迄今为止尚未很好解决的一个国际热点难题。

11、 1.2 当前研究的现状当前研究的现状随着人们对股市认识的不断加深，金融理论与数理工具的日趋完善，各种各样的预测方法也应运而生，特别是近年来，随着计算机技术、混沌、分形理论的发展，人们开始将股票市场的行为纳入非线性动力学研究的范畴。己有不少研究文献表明股票市场是具有混沌现象的非线性动力系统，因此，迫切要求人们找到直接从数据中建立模型的方法。人工神经网络(ANN)是被广泛应用于股市预测的方法之一，Mendelsohn和Stein (1991)用德国市场三年的日交易数据训练人工神经网络来产生买和卖的信号，使用一年的数据进行验证，表明神经网络产生的24个买入信号中一半是正确的，并可以

12、带来满意的回报1，Sheng-chai Chi(1999)在研究中将灰色关联度引入到神经网络的输入变量，并对不同的网络拓扑结构进行了测试，研究表明灰色关联度的引入，提高了模型的预测精度并减少了网络训练所需要的时间，同时也表明更多的神经元数量并没有带来更高的预测精度2.国内方面，霍建军3，张秀艳4等针对中国股票市场，华华中中科科技技大大学学硕硕士士学学位位论论文文 2 用神经网络建立了相关的预测模型。支持向量机(SVM)技术也被人们用于股市预测，SVM具有坚实的统计学理论基础，能很好的用于高维数据，文献5正是利用支持向量机的技术对股市进行预测，在支持向量机

13、用于时间序列预测的理论基础上，给出了基于时间序列的支持向量机预测模型。然而，很多文献尤其是国内的许多文献(如文献5,6)，建立起来的对股市进行预测的模型或者方法均缺乏足够的数据作为支撑，它们建模时采用的一般是市场指数或者几只个股的某一小段行情数据，过少的数据不仅使模型在训练时容易产生过拟合现象(Overfitting)，而且，由于股票之间存在差异，各段行情走势之间也存在差异，因此，对于整个市场的大部分情况，在几只股票或者某段行情基础上建立起来的模型的可靠性是值得怀疑的，总而言之，在小数据量的基础上建立起来的模型的泛化能力会比较差，得到的结论也缺乏足够的说服力 1.3 本文研究

14、的目的及主要工作本文研究的目的及主要工作大量研究表明，股市具有一定的可预测性，因此，关键的问题在于找到一种能够描述实际价格波动各种特性的模型，并据此建立相应的预测方法，获得比较准确的预测，这正是本文的目的所在。数据挖掘(Data Mining)是从海量数据中寻找隐含的、未知的、非平凡的、有应用价值的信息或者模式，中国股票市场经过十几年的发展，积累了大量的交易数据，用数据挖掘的技术从海量的股票交易数据中寻找有价值的模式无疑具有可观的前景和重要的现实意义。本文正是以沪深股市其中的550只股票近十年累计约120万个交易日的收盘价数据为数据对象，采用数据挖掘的相关技术，建立具有较好泛化

15、能力的预测模型。本文的主要工作包括：(1)介绍了股价的可预测性问题，并认为股价具有一定的可预测性.(2).分别使用k均值聚类，两步聚类和Kohonen聚类技术，对沪深股市其中 550只股票近10年累计约120万个交易日的收盘价数据生成的相对涨幅向量进行了聚华华中中科科技技大大学学硕硕士士学学位位论论文文 3 类分析，并在此基础上以“投票”的方式确定最终的聚类结果。(3).在(2)聚类分析产生的结果的基础上，建立决策树分类模型，该模型用于对相对涨幅向量的后面几个分量进行定性的预测。(4).应用k最近邻技术建立对股价走势进行定量预测的模型，由于该模型分析的对

16、象是沪深股市其中550只股票近10年约120万个交易日收盘价数据，数据具有广泛的代表性，模型具有良好的泛化能力，产生的结果具有较强的说服力，因而用该方法进行股价走势预测具有一定的参考价值。 1.4 论文的结构安排论文的结构安排本文的结构如下：第一章阐述了本文研究的课题背景，论述了相关研究的现状及进展情况，讨论了本文研究的目的及意义。第二章阐述了股价的可预测性问题，并简单介绍了股价预测的方法。第三章介绍了数据挖掘的基本知识，并比较详细的介绍了本文用到的：k均值聚类，两步聚类，Kohonen聚类，C4.5决策树算法。第四章对沪深股市其中550只股票累计约120万个收盘价数据进行聚类分析，并在其结果的基础上建立了股价走势的定性预测模型。

展开阅读全文

基于数据挖掘的股价走势预测

最新文档