基于粗糙集的个股指标两步择优分析

上传人:蜀歌 文档编号:148734801 上传时间:2020-10-22 格式:PDF 页数:15 大小:184.69KB
返回 下载 相关 举报
基于粗糙集的个股指标两步择优分析_第1页
第1页 / 共15页
基于粗糙集的个股指标两步择优分析_第2页
第2页 / 共15页
基于粗糙集的个股指标两步择优分析_第3页
第3页 / 共15页
基于粗糙集的个股指标两步择优分析_第4页
第4页 / 共15页
基于粗糙集的个股指标两步择优分析_第5页
第5页 / 共15页
点击查看更多>>
资源描述

《基于粗糙集的个股指标两步择优分析》由会员分享,可在线阅读,更多相关《基于粗糙集的个股指标两步择优分析(15页珍藏版)》请在金锄头文库上搜索。

1、 天津财经大学 全国大学生统计建模大赛论文 基于粗糙集的个股指标两步择优分析 基于粗糙集的个股指标两步择优分析 论文作者: 耿磊磊 高康 汪津津 指导教师: 杨贵军 二九年九月 2 全国大学生统计建模大赛论文 基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析 基于粗糙集的个股指标两步择优分析基于粗糙集的个股指标两步择优分析 The Analysis of two-step selection of the best Stock Indicators Based on Rough Set The Analysis of two-step selection of the best

2、 Stock Indicators Based on Rough Set 3 基于粗糙集的个股指标两步择优分析 基于粗糙集的个股指标两步择优分析 内容摘要:内容摘要: 现在的许多经济数据,金融数据都具有维度高、关系复杂和连续性等性质。 对于这类数据指标的处理现在还没有很满意的方法,就这一事实,本文利用粗糙 集理论辅以灰色关联系统的基本理论引入两步择优过程。 首先利用传统的灰色关 联度对数据指标进行初步择优, 选择相关性比较大的指标。 其次利用Kmeans算 法将连续的数据进行离散化, 然后再利用粗糙集对此数据进行第二步择优。 此外, 本文将上述方法应用于股票价格变动的指标优选上, 得出对股票价

3、格变化率影响 最为关键的指标。结论可以在一定程度上指导投资者的投资行为。 关键字关键字:粗糙集; 灰色关联; Kmeans; 技术指标; 基本面指标 1 一、引言一、引言 粗糙集理论是 80 年初由波兰数学家 Z.Pawlak 首先提出的一个分析数据的数 学理论。粗糙集理论作为一种具有极大潜力的知识获取工具,在 80 年代末吸引 了世界各国数据挖掘领域研究者的关注。 该理论是一种刻画不完整性和不确定性 的数学方法,它能有效地分析和处理不精确、不一致、不完整的各种数据信息, 并且从数据信息中发现隐含的知识,揭示数据潜在的规律。粗糙集理论是一门实 用性很强的学科,已经在不少领域取得了丰硕的成果,如

4、近似推理,数字逻辑分 析和化简,建立预测模型,决策支持,控制算法获取,机器学习算法和模式识别 等等。 由于我国现阶段股市运行和监管体制还不很完善,理论上的一些重要指标 无力对价格做出合理的解释。晏艳阳、胡俊(2006)选取净资产收益率和每股收 益指标代表上市公司的业绩,上海综合指数和深圳成份指数作为股票价格表征, 运用时间序列分析方法,样本取值从 1993 年到 2003 年,研究发现:股票价格变 动与上市公司业绩变化之间不存在长期均衡关系1,说明股票价格不完全反应 上市公司业绩,故而可以进一步考虑证券技术指标。 本文选取居中国 500 强首位的中石化数据, 利用灰色关联和粗糙集对该股票 价格

5、相关的主要基本面指标和证券技术指标综合进行两部择优分析。 值得关注的 是结论中对价格变动有重要影响的都是证券技术指标, 由此得出在选取的时间段 内,证券技术指标对该股票价格的影响甚于基本面指标。该方法具有一定的适用 性,可应用于任何个股的任意指标体系的分析。 二、粗糙集概述二、粗糙集概述 基本的粗糙集理论认为知识就是人类和其他物种所固有的分类能力,分类是 推理、学习与决策中的关键问题,因此粗糙集假定知识是一种对对象进行分类的 能力。通常,数据是以关系数据库(二维表)的形式存储的。就象表格一样,每 个表有许多条记录,每条记录有许多条属性 ,每一个属性表示待观察物体的某 方面的性质。 信息系统被表

6、示为, ,SU CD V f,并且称为决策系统。此处C是条件 性集,D是决策属性集。条件属性C表示观察指标,而决策属性D表示根据条 属性所作出的判断指标。其中函数:f UAV被称为信息函数,满足关系: ( , )f x aVa,CD。其中A是CD。 设, , ,SU A V f是一信息系统,设PA, ,x yU。在S中我们说根据属 集P,x和y是不可区分的,只要对于任意的属性aP及任意的记录,x yU满 足( , )( , )f x af y a。这样,对于每一个PA在U上生成的二元关系,我们称之 2 为不可区分关系,记为( )IND p。 由于人们对世界认识的局限,因而对知识的获取也是有限的

7、,这样得到的 属性也是有限的,为合成等价关系而进行分类细化到某种程度时,就出现了不可 辨别的关系,这样就形成了粗糙集理论中的“粒度” 。知识的粒度性是造成使用 已知知识不能精确表示某些概念的原因,这就是产生了关于不精确的“边界”思 想。粗糙集中的模糊性就是一种基于边界的概念,即一个不精确的概念具有模糊 地不可被明确划分的边界。所以为了刻画模糊性,我们引入上近似和下近似的精 确概念。 设PA,YU,集合Y的P下近似表示为P*Y,其定义如下: P*Y:( )xY IND xY,即P*Y是指利用属性集P判断肯定属于Y的U中元 素组成的集合。 集合Y的P上近似表示为P*Y, 其定义如下P*Y:( )x

8、Y IND xY, 即P*Y是那些利用属性集P判断所有可能属于Y的U中元素组成的集合。 集合Y的P边界域表示为( )PBN Y,其定义如下: * * ( )PBN YP YPY,即 ( )PBN Y是指那些利用属性集P既不能判断肯定分到这个概念或者其补集的所有 元素组成的。 三、择优分析过程三、择优分析过程 (一)指标初步择优 对于一个参考数列0 x,有n个比较数列12,.,nx xx(这些数列为无量纲的) 可以用下述关联系数表示各比较数列与参考数列在各点的差。 记: 00 00 minmin( )( )0.5maxmax( )( ) ( ) ( )( )0.5maxmax( )( ) ii

9、ikik i ii ik X kXkX kXk k X kXkX kXk 为灰色关联系 数。 上式中,0( )( )iX kXk是第k个时刻比较数列ix与参考数列0 x的相对差值, 这种形式的相对差值称为ix对0 x在k时刻的关联系数,其中的0.5是分辨率,一 般在0和1之间选取。 由于关联系数很多,信息过于分散,不便于应用,因此我们选取了一个综合 指标-灰色关联度。 iR是比较数列ix与参考数列0 x的关联度,表示为: 1 1 ( ) n i i i rk n 。 在实际问题的研究过程中,我们对数据指标的初步择优就是基于关联度,主 要考虑选取那些与比较数列关联度较大的数列, 对于那些关联度较

10、小的数列我们 3 予以筛选排除。 (二)指标的第二步择优 对于连续属性的属性,我们的首要工作是将其进行属性的离散化,我们采用 传统的Kmeans算法。Kmeans算法是一种应用广泛的数据聚类离散算法。 在用户指定了离散化产生的区间数目K后,Kmeans算法首先从数据集中随机 找出K个数据作为K个初始区间的重心;然后,根据与这些重心的欧几里德距 离,对所有的对象聚类:如果数据x距重心G,最近,则将x划归G,所代表的 那个区间;然后重新计算各区间的重心,并利用新的重心重新聚类所有样本。这 样逐步循环,直到所有区间的重心不在随算法循环而改变为止。 经过Kmeans算法计算之后我们可以顺利的将连续属性

11、的知识库转变成一 张决策表,从而为我们采用粗糙集进行数据分析做好了前期的准备工作。 决策表根据其条件属性和决策属性之间的关系可以分为一致决策表和非一 致决策表。本文中所要研究的是非一致决策表的约简。对于非一致决策表的约简 通常有两种做法:一种是考虑正域的变化,一种是将不一致表分为完全一致表和 完全不一致表两个子表。本文采用的是第二种做法。为了使得我们的表述更为清 楚,下面引进相关的概念。 设, , ,SU A V f,PU,RP,如果R是独立的,且( )( )IND PIND R则称 R为P的一个约简。P的所有约简记为( )red P。 设, , ,SU A V f,Un。S的区分矩阵是一n

12、n矩阵, 此矩阵的元素值为: ( , )( , )( , ), ,a x yaA f x af y ax yU。即( , )a x y是区别对象x和y的所有属 性的集合。分明矩阵消除了在分类中不起作用的信息,保持了信息系统中的差异 信息,直观地表达了信息系统中记录间属性关系。 命题1: 每个决策表( , ,)SU A C D,都可以惟一的分为两个决策 表:11(, ,)SU A C D和22(, ,)SUA C D,这样使得表S1中C1D和C0D。 这里 的12(),(),/()CCSPOSD SBNXXUIND D。 值约简是对决策表的一种简化。决策表中一条实例可以看作一条规则,其中 可能包

13、含冗余属性值,因此对实例属性值的约简就是决策规则的约简。决策规则 的约简是分别消去每个规则的不必要条件,它不是整体上约简属性,而是针对每 个决策规则,去掉表达该规则时的冗余属性值,以便进一步使规则最小化。对决 策表而言,它使表的形式更简单,又尽可能地保留原表的信息。 四、指标数据选择四、指标数据选择 本文用常用的证券技术指标 (来自中国证券网) 和基本面指标来构造决策表, 利用灰色关联模型对决策表的条件属性进行初步择优,然后利用Kmeans将其 离散化和粗糙集对决策表进一步约简来进行指标第二步择优。 4 选取的指标具体如下: (一)证券技术指标 成交量:股票一天的成交数量 成本均线:指个量价均

14、发挥作用的均线。 市场盈亏:指在既定交易日内入场的短线投资者的浮动赢利或浮动亏损情 况,市场盈亏过大就是超涨,过小就是超跌。 乖离率:反映股价在波动过程中与移动平均线偏离程度的技术指标。 威廉指标: 表示当天的收盘价在过去一段时间的全部价格范围内所处的相对 位置,是一种兼具超买超卖和强弱分界的指标。 指数平滑异同移动平均线: 利用短期移动平均线与长期移动平均线之间的聚 合与分离状况,对买进、卖出时机作出研判的技术指标。 (二)基本面指标 市盈率:股票市价与其每股收益的比值,由于市盈率把股价和企业盈利能力 结合起来,其水平高低更真实地反映了股票价格的高低。 市净率:市净率指的是市价与每股净资产之

15、间的比值,市净率较低的股票, 投资价值较高,相反,则投资价值较低。 对成交量取增长率,其他指标保持不变。取次日收盘价增长率为决策属性。 五、实证分析五、实证分析 中石化(600028)是石油板块的权重股,选取其30个交易日的指标数据及 股价数据,具体数据见附录一。 数据的选取:中石化A股收盘价及上述指标 数据来源: 中国证券网 样本区间: 2009年6月30日2009年8月11日 (一)指标初步择优 将附录一看作是一个决策表,将次日股票价格视为决策属性,其余的视为 是条件属性。由于条件属性是8个,我们可以利用灰色关联度先计算属性的重要 性,将指标进行初步择优。首先将数据进行预处理。 将各列数据(除年分外)无量纲化(初值化) ,变为相应的增长率的形式。 计算各比较数列与参考数列的关联系数,从而得到关联度如表一所示。 表一 关联度 成交 量 成本均 线 市场盈 亏 乖离 率 威廉指 标 指数平滑异同移动平 均线 市盈 率 市净 率 0.655 0.832 0.885 0.9360.725 0.960 0.686 0.930 我们给定阈值0.7a , 根据表一所示, 从决策表中我们可以看到次日股价的 增长率与指数平滑异同移动平均线、乖离率、市净率

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业/管理/HR > 经营企划

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号