基于粗糙集的个股指标两步择优分析

资源描述

《基于粗糙集的个股指标两步择优分析》由会员分享，可在线阅读，更多相关《基于粗糙集的个股指标两步择优分析（15页珍藏版）》请在金锄头文库上搜索。

1、天津财经大学全国大学生统计建模大赛论文基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析论文作者: 耿磊磊高康汪津津指导教师: 杨贵军二九年九月 2 全国大学生统计建模大赛论文基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析 The Analysis of two-step selection of the best Stock Indicators Based on Rough Set The Analysis of two-step selection of the best

2、 Stock Indicators Based on Rough Set 3 基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析内容摘要：内容摘要：现在的许多经济数据，金融数据都具有维度高、关系复杂和连续性等性质。对于这类数据指标的处理现在还没有很满意的方法，就这一事实，本文利用粗糙集理论辅以灰色关联系统的基本理论引入两步择优过程。首先利用传统的灰色关联度对数据指标进行初步择优，选择相关性比较大的指标。其次利用Kmeans算法将连续的数据进行离散化，然后再利用粗糙集对此数据进行第二步择优。此外，本文将上述方法应用于股票价格变动的指标优选上，得出对股票价

3、格变化率影响最为关键的指标。结论可以在一定程度上指导投资者的投资行为。关键字关键字：粗糙集；灰色关联； Kmeans；技术指标；基本面指标 1 一、引言一、引言粗糙集理论是 80 年初由波兰数学家 Z.Pawlak 首先提出的一个分析数据的数学理论。粗糙集理论作为一种具有极大潜力的知识获取工具，在 80 年代末吸引了世界各国数据挖掘领域研究者的关注。该理论是一种刻画不完整性和不确定性的数学方法，它能有效地分析和处理不精确、不一致、不完整的各种数据信息，并且从数据信息中发现隐含的知识，揭示数据潜在的规律。粗糙集理论是一门实用性很强的学科，已经在不少领域取得了丰硕的成果，如

4、近似推理，数字逻辑分析和化简，建立预测模型，决策支持，控制算法获取，机器学习算法和模式识别等等。由于我国现阶段股市运行和监管体制还不很完善，理论上的一些重要指标无力对价格做出合理的解释。晏艳阳、胡俊（2006）选取净资产收益率和每股收益指标代表上市公司的业绩，上海综合指数和深圳成份指数作为股票价格表征，运用时间序列分析方法，样本取值从 1993 年到 2003 年，研究发现：股票价格变动与上市公司业绩变化之间不存在长期均衡关系1，说明股票价格不完全反应上市公司业绩，故而可以进一步考虑证券技术指标。本文选取居中国 500 强首位的中石化数据，利用灰色关联和粗糙集对该股票价格

5、相关的主要基本面指标和证券技术指标综合进行两部择优分析。值得关注的是结论中对价格变动有重要影响的都是证券技术指标，由此得出在选取的时间段内，证券技术指标对该股票价格的影响甚于基本面指标。该方法具有一定的适用性，可应用于任何个股的任意指标体系的分析。二、粗糙集概述二、粗糙集概述基本的粗糙集理论认为知识就是人类和其他物种所固有的分类能力，分类是推理、学习与决策中的关键问题，因此粗糙集假定知识是一种对对象进行分类的能力。通常，数据是以关系数据库（二维表）的形式存储的。就象表格一样，每个表有许多条记录，每条记录有许多条属性，每一个属性表示待观察物体的某方面的性质。信息系统被表

6、示为, ,SU CD V f，并且称为决策系统。此处C是条件性集，D是决策属性集。条件属性C表示观察指标，而决策属性D表示根据条属性所作出的判断指标。其中函数:f UAV被称为信息函数，满足关系： ( , )f x aVa，CD。其中A是CD。设, , ,SU A V f是一信息系统，设PA, ,x yU。在S中我们说根据属集P，x和y是不可区分的，只要对于任意的属性aP及任意的记录,x yU满足( , )( , )f x af y a。这样，对于每一个PA在U上生成的二元关系，我们称之 2 为不可区分关系，记为( )IND p。由于人们对世界认识的局限，因而对知识的获取也是有限的

7、，这样得到的属性也是有限的，为合成等价关系而进行分类细化到某种程度时，就出现了不可辨别的关系，这样就形成了粗糙集理论中的“粒度” 。知识的粒度性是造成使用已知知识不能精确表示某些概念的原因，这就是产生了关于不精确的“边界”思想。粗糙集中的模糊性就是一种基于边界的概念，即一个不精确的概念具有模糊地不可被明确划分的边界。所以为了刻画模糊性，我们引入上近似和下近似的精确概念。设PA，YU，集合Y的P下近似表示为P*Y，其定义如下： P*Y:( )xY IND xY,即P*Y是指利用属性集P判断肯定属于Y的U中元素组成的集合。集合Y的P上近似表示为P*Y，其定义如下P*Y:( )x

8、Y IND xY，即P*Y是那些利用属性集P判断所有可能属于Y的U中元素组成的集合。集合Y的P边界域表示为( )PBN Y，其定义如下： * * ( )PBN YP YPY，即 ( )PBN Y是指那些利用属性集P既不能判断肯定分到这个概念或者其补集的所有元素组成的。三、择优分析过程三、择优分析过程（一）指标初步择优对于一个参考数列0 x，有n个比较数列12,.,nx xx（这些数列为无量纲的）可以用下述关联系数表示各比较数列与参考数列在各点的差。记： 00 00 minmin( )( )0.5maxmax( )( ) ( ) ( )( )0.5maxmax( )( ) ii

9、ikik i ii ik X kXkX kXk k X kXkX kXk 为灰色关联系数。上式中，0( )( )iX kXk是第k个时刻比较数列ix与参考数列0 x的相对差值，这种形式的相对差值称为ix对0 x在k时刻的关联系数，其中的0.5是分辨率，一般在0和1之间选取。由于关联系数很多，信息过于分散，不便于应用，因此我们选取了一个综合指标-灰色关联度。 iR是比较数列ix与参考数列0 x的关联度，表示为： 1 1 ( ) n i i i rk n 。在实际问题的研究过程中，我们对数据指标的初步择优就是基于关联度，主要考虑选取那些与比较数列关联度较大的数列，对于那些关联度较

10、小的数列我们 3 予以筛选排除。（二）指标的第二步择优对于连续属性的属性，我们的首要工作是将其进行属性的离散化，我们采用传统的Kmeans算法。Kmeans算法是一种应用广泛的数据聚类离散算法。在用户指定了离散化产生的区间数目K后，Kmeans算法首先从数据集中随机找出K个数据作为K个初始区间的重心；然后，根据与这些重心的欧几里德距离，对所有的对象聚类：如果数据x距重心G，最近，则将x划归G，所代表的那个区间；然后重新计算各区间的重心，并利用新的重心重新聚类所有样本。这样逐步循环，直到所有区间的重心不在随算法循环而改变为止。经过Kmeans算法计算之后我们可以顺利的将连续属性

11、的知识库转变成一张决策表，从而为我们采用粗糙集进行数据分析做好了前期的准备工作。决策表根据其条件属性和决策属性之间的关系可以分为一致决策表和非一致决策表。本文中所要研究的是非一致决策表的约简。对于非一致决策表的约简通常有两种做法：一种是考虑正域的变化，一种是将不一致表分为完全一致表和完全不一致表两个子表。本文采用的是第二种做法。为了使得我们的表述更为清楚，下面引进相关的概念。设, , ,SU A V f,PU,RP，如果R是独立的，且( )( )IND PIND R则称 R为P的一个约简。P的所有约简记为( )red P。设, , ,SU A V f,Un。S的区分矩阵是一n

12、n矩阵，此矩阵的元素值为： ( , )( , )( , ), ,a x yaA f x af y ax yU。即( , )a x y是区别对象x和y的所有属性的集合。分明矩阵消除了在分类中不起作用的信息，保持了信息系统中的差异信息，直观地表达了信息系统中记录间属性关系。命题1：每个决策表( , ,)SU A C D，都可以惟一的分为两个决策表:11(, ,)SU A C D和22(, ,)SUA C D,这样使得表S1中C1D和C0D。这里的12(),(),/()CCSPOSD SBNXXUIND D。值约简是对决策表的一种简化。决策表中一条实例可以看作一条规则，其中可能包

13、含冗余属性值，因此对实例属性值的约简就是决策规则的约简。决策规则的约简是分别消去每个规则的不必要条件，它不是整体上约简属性，而是针对每个决策规则，去掉表达该规则时的冗余属性值，以便进一步使规则最小化。对决策表而言，它使表的形式更简单，又尽可能地保留原表的信息。四、指标数据选择四、指标数据选择本文用常用的证券技术指标（来自中国证券网）和基本面指标来构造决策表，利用灰色关联模型对决策表的条件属性进行初步择优，然后利用Kmeans将其离散化和粗糙集对决策表进一步约简来进行指标第二步择优。 4 选取的指标具体如下：（一）证券技术指标成交量：股票一天的成交数量成本均线：指个量价均

14、发挥作用的均线。市场盈亏：指在既定交易日内入场的短线投资者的浮动赢利或浮动亏损情况，市场盈亏过大就是超涨，过小就是超跌。乖离率：反映股价在波动过程中与移动平均线偏离程度的技术指标。威廉指标：表示当天的收盘价在过去一段时间的全部价格范围内所处的相对位置，是一种兼具超买超卖和强弱分界的指标。指数平滑异同移动平均线：利用短期移动平均线与长期移动平均线之间的聚合与分离状况，对买进、卖出时机作出研判的技术指标。（二）基本面指标市盈率：股票市价与其每股收益的比值，由于市盈率把股价和企业盈利能力结合起来，其水平高低更真实地反映了股票价格的高低。市净率：市净率指的是市价与每股净资产之

15、间的比值，市净率较低的股票, 投资价值较高,相反,则投资价值较低。对成交量取增长率，其他指标保持不变。取次日收盘价增长率为决策属性。五、实证分析五、实证分析中石化（600028）是石油板块的权重股，选取其30个交易日的指标数据及股价数据，具体数据见附录一。数据的选取:中石化A股收盘价及上述指标数据来源: 中国证券网样本区间: 2009年6月30日2009年8月11日（一）指标初步择优将附录一看作是一个决策表，将次日股票价格视为决策属性，其余的视为是条件属性。由于条件属性是8个，我们可以利用灰色关联度先计算属性的重要性，将指标进行初步择优。首先将数据进行预处理。将各列数据（除年分外）无量纲化（初值化），变为相应的增长率的形式。计算各比较数列与参考数列的关联系数，从而得到关联度如表一所示。表一关联度成交量成本均线市场盈亏乖离率威廉指标指数平滑异同移动平均线市盈率市净率 0.655 0.832 0.885 0.9360.725 0.960 0.686 0.930 我们给定阈值0.7a ，根据表一所示，从决策表中我们可以看到次日股价的增长率与指数平滑异同移动平均线、乖离率、市净率

展开阅读全文

基于粗糙集的个股指标两步择优分析

最新文档