数据挖掘课程论文综述

资源描述

《数据挖掘课程论文综述》由会员分享，可在线阅读，更多相关《数据挖掘课程论文综述（15页珍藏版）》请在金锄头文库上搜索。

1、海南大学数据挖掘论文题目：股票交易日线数据挖掘学号： 20100602310002 姓名：专业： 10信管指导老师：分数：目录目录21. 数据挖掘目的32.相关基础知识32.1 股票基础知识32.2 数据挖掘基础知识42.2.2数据挖掘的任务43.数据挖掘方案63.1. 数据挖掘软件简介63.2. 股票数据选择73.3. 待验证的股票规律74. 数据挖掘流84.1数据挖掘流图84.2规律验证94.2.2规律2验证104.2.3规律三验证12 4.3主要节点说明145.小结151. 数据挖掘目的数据挖掘的目的就是得出隐藏在数据中的有价值的信息，发现数据之间的内在联系与

2、规律。对于本次数据挖掘来说，其目的就是学会用clementine对股票的历史数据进行挖掘，通过数据的分析，找出存在股票历史数据中的规律，或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息，为公司找出其中的客户为公司带来利润的规律，如二八原则、啤酒与尿布的现象等。2.相关基础知识2.1 股票基础知识2.1.1 股票是一种有价证券，是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利，并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人（股东）对股份公司的所有权，每一股同类型

3、股票所代表的公司所有权是相等的，即“同股同权”。股票可以公开上市，也可以不上市。在股票市场上，股票也是投资和投机的对象。对股票的某些投机炒作行为，例如无货沽空，可以造成金融市场的动荡。2.1.2 开盘价开盘价又称开市价，是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。2.1.3 收盘价收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交，则采用最近一次的成交价格作为收盘价，因为收盘价是当日行情的标准，又是下一个交易日开盘价的依据，可据以预测未来证券市场行情；所以投资者对行情分

4、析时，一般采用收盘价作为计算依据。2.1.4 最高价指某种证券在每个交易日从开始到收市的交易过程中所产生的最高价。2.1.5 最低价指某种证券在每个交易日从开始到收市的交易过程中所产生的最低价。 2.1.6 成交量成交量是指一个时间单位内对某项交易成交的数量。一般情况下，成交量大且价格上涨的股票，趋势向好。成交量持续低迷时，一般出现在熊市或股票整理阶段，市场交投不活跃。成交量是判断股票走势的重要依据，对分析主力行为提供了重要的依据。2.1.7 K 线 K 线图这种图表源处于日本德川幕府时代（16031867 年），被当时日本米市的商人用来记录米市的行情与价格波动，后因其细腻独到的

5、标画方式而被引入到股市及期货市场。通过 K 线图，我们能够把每日或某一周期的市况现完全记录下来，股价经过一段时间的盘档后，在图上即形成一种特殊区域或形态，不同的形态显示出不同意义。插入线、抱线和利好刺激线这三种 K 线组合是最常见的经典见底形态。2.1.8 日线任何一天的开盘价收盘价最高价最低价,划出的一跟中间粗一些,两端细一些的线,就是日线,日线是每天一根的 K 线.5PMA，10PMA,20PMA。分别代表 5 日、10 日、20 日均线。黄色的是 5PMA 即 5 日均线；紫色的是 10PMA 即 10 日均线；绿色的是 20PMA 即 20 日均线。2.2 数据挖掘基础知

6、识2.2.1 数据挖掘数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。随着信息技术的高速发展，人们积累的数据量急剧增长，动辄以 TB 计，如何从海量的数据中提取有用的知识成为当务之急。数据挖掘就是为顺应这种需要应运而生发展起来的数据处理技术。是知识发现(Knowledge Discovery in Database)的关键步骤。2.2.2数据挖掘的任务 (1) 关联分析(association analysis) 关联规则挖掘是由 Rakesh Apwal 等人首先提出的。

7、两个或两个以上变量的取值之间存在某种规律性，就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性，还不断引入兴趣度、相关性等参数，使得所挖掘的规则更符合需求。(2) 聚类分析(clustering) 聚类是把数据按照相似性归纳成若干类别，同一类中的数据彼此相似，不同类中的数据相异。聚类分析可以建立宏观的概念，发现数据的分布模式，以及可能的数据属性之间的相互关系。(3) 分类(classification) 分类就是找出一个类别的概念描述，

8、它代表了这类数据的整体信息，即该类的内涵描述，并用这种描述来构造模型，一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。(4) 预测（predication）预测是利用历史数据找出变化规律，建立模型，并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性，通常用预测方差来度量。(5) 时序模式（time-series pattern）时序模式是指通过时间序列搜索出的重复发生概率较高的模式。与回归一样，它也是用己知的数据预测未来的值，但这些数据的区别是变量所处时间的不同。(6) 偏差分析（deviation）

9、在偏差中包括很多有用的知识，数据库中的数据存在很多异常情况，发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。2.2.3 数据挖掘方法(1) 神经网络方法神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性，非常适合解决数据挖掘的问题。(2) 遗传算法遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。(3) 决策树方法决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，

10、潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。(4) 统计分析方法在数据库字段项之间存在两种关系：函数关系(能用函数公式表示的确定性关系)和相关关系(不能用函数公式表示，但仍是相关确定性关系)，对它们的分析可采用统计学方法，即利用统计学原理对数据库中的信息进行分析。(5) 模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。(6) 粗集方法粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息;简化输入信息的表达空间;算法简单，易于操作。粗集处理的对象是类似二维关系表的信息表。(

11、7) 覆盖正例排斥反例方法它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。3.数据挖掘方案3.1. 数据挖掘软件简介本次的数据挖掘所运用的软件是 Clementine 软件。 Clementine 是 SPSS 的数据挖掘应用工具。这种工具可把直观的用户图形界面与多种分析技术相结合。这些技术包括神经元网络、关联规则和规则归纳技术，这些分析能力由一个易于使用的可视化编程环境所提供。作为一个数据挖掘平台，Clementine

12、结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得 Clementine 在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine 其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。 Clementinee 所使用的图形表现是在屏幕上拖动、按下和连接功能节点。节点的类型分为数据访问节点、数据操纵节点、数据可视化节点、机器学习节点和模型分析节点。模型产生过程由从托盘中选择正确的节点、

13、把它们放到屏幕上和连接节点组成。Clementinee 提供了丰富的数据访问能力，其中包括对展开文件和关系数据库(通过 ODBC)的访问。Clementine 具有通过把建模结果写回一个与ODBC 兼容的 DBMS 而使它们保持一致的能力。Clementine 可在 WindowsNT 的 Intel Penhum 系统运行。Clementine 的数据可视化能力包括分布图、线性图和网络分析。C1emetine 是一个强大的产品。以公布的用户基推测试来看，它在可伸缩性、预测准确率和处理的时间方面都表现得很好。总的来说，C1gneBtine 对小规模和大规模的分析实现都很合适。3.2.

14、股票数据选择股票的选择是随机选择的。用股票代码/67=02（我学号的后两位）计算可得所要研究的股票（此过程运用 Excel 表格的取余，然后用筛选即可选出符合条件的股票）。所以根据公式可计算出多支符合条件的股票，从中我选择自己感兴趣的股票深证万科A（000002和上证道博股份（600132）。同时用它们的日线作为参考，对股票的数据进行研究。3.3. 待验证的股票规律3.3.1 股市的涨跌是呈现周期性变化的且涨幅呈正态分布？这种现象指的是在股市开盘后的一种周期性的现象，具体表现在股票价格上上的周期性涨落，当股市达到高潮后，一段时间后又将返回下跌，返回低潮。3.3.2国家对房地产行业的宏观调控政策对股市中房地产行业是否有影响?房价上涨对地产股有什么影响？指近10年来，国家为了控制房地产的价格在一个合理的范围内，所出台的一系列与房地产行业相关的政策，这条规律就是研究在政策出台之后，股市中的房地产行业是否会受其影响而产生波动。3.3.3不同类型的上市公司由于产业的不同企业发展的经历差异其所表现出的股价涨幅波动也是否是有差异？4. 数据挖掘流4.1数据挖掘流图分别做出万科和道博股份的数据流图如图1、图2所示：图1 万科的数据流图图2道博股份的数据流图图3万科

展开阅读全文