基于clementine软件的时间序列分析--以浦发银行股票为例

资源描述

《基于clementine软件的时间序列分析--以浦发银行股票为例》由会员分享，可在线阅读，更多相关《基于clementine软件的时间序列分析--以浦发银行股票为例（16页珍藏版）》请在金锄头文库上搜索。

1、基于Clementine软件的时间序列分析以A股浦发银行(600000)股票为例摘要本文的主要内容是借助SPSS Clementine 软件研究A股浦发银行(600000)股票价格随时间的变化规律，并用时间序列分析的有关知识对其进行建模预测。本文首先对Clementine软件作简要介绍，说明其在数据挖掘领域的广泛应用；然后介绍了3种时间序列分析预测的模型，分别为专家模型、Holt指数平滑模型和ARIMA模型；最后借助Clementine 软件对浦发银行股价分别进行专家建模、指数平滑建模和ARIMA建模，并对股价进行短期预测，通过模型参数比较及预测值误差对比，找出最佳模型。在建模的同时，也给出

2、了使用Clementine软件建立数据流的具体过程。关键词：Clementine软件时间序列浦发银行股票一、引言数据挖掘是一个利用各种方法，从海量数据中提取隐含和潜在的对决策有用的信息和模式的过程。通过数据挖掘提取的信息可应用于很多领域，如决策支持、预测、预报和估计等。当今我们正面临这样一个问题，一边是对知识的饥渴，另一边却是大量数据的闲置未被利用，“我们被淹没在信息里，但却感受到知识的饥饿”。因此，我们迫切需要借助数据挖掘技术对这些数据进行及时有效的处理，从这些海量的、有噪音的、随机的数据中提取有效的、潜在有用的而又新颖事先未知的信息 1。数据挖掘的工具有很多，本文选用SPSS Cle

3、mentine软件。二、 Clementine软件简介Clementine是由SPSS公司开发的一款著名且非常实用的数据挖掘软件，也是目前众多软件中最成熟和最受欢迎的一款数据挖掘产品。Clementine拥有丰富的数据挖掘算法，操作简单易用，分析结果直观易懂，图形功能强大，支持与数据库之间的数据和模型交换，可以使用户方便快捷地实现数据挖掘。Clementine形象地将数据分析的各个环节表示成若干个节点，将数据分析过程看作数据在各个节点之间的流动，并通过图形化的数据流方式直观表示整个数据挖掘的各个环节。Clementine在数据挖掘分析中被应用于分类预测问题方面非常多，但是它的其他功能也十分强大

4、，如可以把Clementine软件运用在探索内部结构、多元统计分析、时间序列预测等领域。由于利用Clementine做分类预测(决策树)问题比较常见，因此本文强调它的另一功能，即利用Clementine做时间序列分析。三、数据来源及研究方法1. 数据来源本文所用数据为A股浦发银行 (600000) 股票2012年2月13日到2012年11月23日股价数据，来自大智慧软件。数据见附件1（Excel文件）。2. 研究方法本文利用时间序列分析知识并结合Clementine软件对A股浦发银行 (600000) 股票每日行情数据进行建模分析，与原始数据比较拟合并根据参数选择最佳模型。本文所用到的模型

5、有：专家建模模型、Holt指数平滑模型和ARIMA(求和自回归移动平均)模型。(1)专家模型Clementine软件里一种可以自动预测的建模方法，自动进行最优模型的选择、参数估计和预测。(2) Holt指数平滑模型Holt指数平滑法是一种线性指数平滑方法，它是一种较高级形式的指数平滑方法。这种方法最突出的优点是对具有趋势变动的时间数列，不用二次指数平滑，而是对趋势数据直接进行平滑并对原时间序列进行预测。这种方法因具有很大的灵活性而被广泛地使用着。Holt指数平滑适用于对含有线性趋势的序列进行修匀。它的基本思想是假定序列有一个比较固定的线性趋势：。其平滑公式为：式中，为两个平滑系数，满足条件。假

6、定最后一期的修匀值为，那么使用Holt指数平滑法向前期的预测值为：.(3) ARIMA模型ARIMA模型全称为求和自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA)，是由Box和Jenkins于70年代初提出的一种著名时间序列预测方法。其中在ARIMA()中，AR是自回归，为自回归项数；MA是移动平均，为移动平均项数；为时间序列成为平稳时所做的差分次数。 ARIMA模型是将非平稳时间序列转化为平稳时间序列，然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。其公式为：式中，；，为平稳可逆AR

7、MA()模型的自回归系数多项式；，为平稳可逆ARMA()模型的移动平滑系数多项式。四、实证分析以浦发银行股票为例以浦发银行2012年2月13日至2012年11月23日每日收盘价作为数据源，利用Clementine软件对这些数据进行分析。建立的数据流如图1所示。图1 浦发银行股票股价数据流简要步骤如下：1. 数据过滤：建模过程中考虑到数据源中除了“日期”、“收盘价”字段外，还包含了“开盘价”、“最高”、“最低”、“成交量”、“成交额”等无关字段，所以需要先对字段进行过滤，利用Filter节点可得到我们想要的结果。2. 在Type节点中，将“日期”的类型改为Typeless，将“收盘价”的方向改

8、为Out。3. 通过Derive节点计算出浦发银行每日收盘价的对数，并连接Time Plot节点，得到收盘价和log(收盘价)的时间序列散点图，如图2所示。图2 收盘价及log(收盘价)的时序图在图2所示的时间序列图中，浦发银行每日收盘价是均值非平稳且方差非平稳的，且log(收盘价)有不变方差的向下趋势，故可以选择对数变换。4. 由于股票市场双休日及节假日不开市的特殊性，收集到的数据在时间段上是分段的，也就是说，在不开市的时间点，数据缺失。为了方便利用模型来分析，我们通过填充的办法使得数据（收盘价）在以天为时间单位上能够连续。具体操作为添加Time Interval节点，连接到数据流合适的位置

9、，在Build选项卡中选择Specify fields and functions，选中“收盘价”并在Padding Function(填充函数)选项卡选择Mean of recent points(最近点的平均值)，如图3所示。图3 Time Interval节点选项的设置对股票研究的意义在于能够在一定时间段内对股价进行较为准确地预测，而预测时间越长误差越大，尤其是对股票这类数据的预测，无法长时间较准确地预测，故我们只进行短期预测。因此在Forecast选项卡中，选择预测天数为14天。5. 模型的建立(1)专家模型在节点工具箱窗口中选择Modeling选项，找到Time Series节点，

10、添加到数据流合适的位置。Model选项卡中Method(方法)选择Expert Modeler(专家模型)，Criteria选项卡中选择All models，确定执行即可得到专家模型，如图4所示。图4 专家模型参数设置(2) Holt指数平滑模型同上添加Time Series节点，Model选项卡中Method(方法)选择Exponential Smoothing(指数平滑模型)，Criteria选项卡中选择Holts linear trend，确定执行即可得到Holt指数平滑模型，如图5所示。图5 Holt指数平滑模型参数设置(3)ARIMA()模型同上添加Time Series节点，Mo

11、del选项卡中Method(方法)选择ARIMA(求和自回归移动平均)，Criteria选项卡中对自回归()，差()，移动平均()进行赋值，确定执行即可得到ARIMA模型。在此，我们通过对模型的观察及其他各方面考虑，对()赋值为(2,1,2)，如图6所示。图6 ARIMA模型参数设置最终得到的三个模型的数据流如图7(a)、图7(b)、图7(c)所示。图7(a) 专家模型数据流图7(b) Holt指数平滑模型数据流图7(c) ARIMA(2,1,2)模型数据流6. 模型分析及比较在数据流上双击模型，打开模型参数界面，可以看到关于模型的一系列参数。现将三个模型的部分参数汇总如表1所示。表1 浦发

12、银行股票股价收盘价模型比较固定QDfSigRMSEMAPEMAEHolt指数平滑0.5840.98619.46816.00.2450.0890.6770.055专家模型0.030.98620.09617.00.2690.0790.6720.054ARIMA(2, 1, 2)0.0560.98615.28414.00.3590.0780.6750.055其中，固定R2用于比较模型的平稳部分及简单均值模型的度量值。当存在趋势或季节模式时，该度量值对普通 R 平方更具优势。R2为判定系数，是序列中由模型解释的总变异所占比例的估计值，该值越高表示模型的拟合越好。Q、Df分别代表模型的检验统计量和自由度

13、。Sig表示残差自相关检验结果的值，若005，则认为残差为白噪声序列，即表明所建模型已包含了原序列的所有趋势。RMSE指均方根误差，是一种测量序列实际值与模型预测值之间差异的度量方法，该误差越低越好。MAPE表示均值绝对百分比误差，用于度量目标序列与其模型预测水平的差异度，用百分比表示。通过审查所有模型中的均值和最大值，可以大概知道预测的不确定性程度。MAE表示绝对平均误差，用于显示预测误差绝对值的均值。接下来再考虑残差的自相关性和偏自相关性，可通过残差自相关图(ACF)及偏自相关图(PACF)得出结果。残差是指观测值与预测值（拟合值）之间的差，即是实际观察值与回归估计值的差。三个模型建模所得

14、的残差自相关图(ACF)及偏自相关图(PACF)分别如图8(a)、8(b)、8(c)所示，可以看出三个模型残差的自相关系数和偏自相关系数几乎都在两倍(2)标准差范围内，说明对残差序列的信息提取充分，不存在欠拟合的问题。图8(a) 专家模型的残差ACF和PACF图8(b) Holt指数平滑模型的残差ACF和PACF图8(c) ARIMA模型的残差ACF和PACF最后考察分别用3个模型做预测所得的结果和真实值的拟合效果图，所得结果如图9(a)、9(b)、9(c)所示。图9(a) 专家模型拟合预测图图9(b) Holt指数平滑模型拟合预测图图9(c) ARIMA模型拟合预测图其中，蓝线为真实值，红线为预测值。由图9可知，三个模型的拟合效果都是很好的。将用3个模型建模所得的浦发银行股票收盘价的预测值分别与真实值进行比较，结果如表2所示。表2 3个模型预测值与真实值的比较日期指数平滑模型差值专家模型差值ARIMA模型差值真实值2012-11-267.4744 0.0044 7.4959 0.0259 7.4891 0.0191 7.472012-11-277.4680 0.0080 7.4959 0.0359 7.4859 0.0259 7.462012-11-287.4616 0.0216 7.4959 0.0559 7.4778 0.0378 7.442012-

展开阅读全文