青岛科信软件 决策支持、数据挖掘方法21.灰色系统关联度分析法 对两个系统或两个因素之间关联性大小的量度,称为关联度它描述系统发展过程中因素间相对变化的情况,也就是变化大小、方向及速度等指标的相对性如果两者在系统发展过程中相对变化基本一致,则认为两者关联度大;反之,两者关联度就小灰色系统理论的关联度分析与数理统计学的相关分析是不同的,两者的区别在于第一,它们的理论基础不同关联度分析基于灰色系统的灰色过程,而相关分析则基于概率论的随机过程;第二,分析方法不同关联分析是进行因素间时间序列的比较,而相关分析是因素间数组的比较;第三,数据量要求不同关联分析不要求数据太多,而相关分析则需有足够的数据量;第四,研究重点不同关联度分析主要研究动态过程,而相关分析则以静态研究为主 因此,关联度分析适应性更广,在用于社会经济系统中的应用更有其独到之处21.1原理与方法简介 关联度分析一般包括下列计算和步骤:(1) 原始数据变换;(2) 计算关联系数;(3) 求关联度;(3) 排关联序;(4) 列关联矩阵。
在应用中是否进行所有步骤,可视具体情况而定 设有m个时间序列亦即 (t=1, 2, …, N )N为各序列的长度即数据个数,这m个序列代表m个因素(变量)另设定时间序列:{X0(0)(t)} (t=1, 2, …, N )该时间序列称为母序列, 而上述m个时间序列称为子序列关联度是两个序列关联性大小的度量根据这一观点,可给关联度一个量化模型,其计算方法与步骤具体叙述如下: (1) 原始数据变换 由于系统中各因素的量纲(或单位)不一定相同,如劳动力为人,产值为万元,产量为吨等,且有时数值的数量级相差悬殊,如人均收入为几百元,粮食每公顷产量为几千公斤,费用为几十万元,有些产业产值达百亿元,有些产业才几万元,等等,这样的数据很难直接进行比较,且它们的几何曲线比例也不同因此,对原始数据需要消除量纲(或单位),转换为可比较的数据序列目前,原始数据的变换有以下几种常用方法: a)均值化变换先分别求出各个序列的平均值,再用平均值去除对应序列中的各个原始数据,所得到新的数据列,即为均值化序列其特点是量纲为一,其值大于0,并且大部分近于1,数列曲线互相相交 b)初值化变换分别用同一序列的第一个数据去除后面的各个原始数据,得到新的倍数数列,即为初值化数列。
量纲为一,各值均大于0,且数列有共同的起点 c)标准化变换先分别求出各个序列的平均值和标准差,然后将各个原始数据减去平均值后再除以标准差,这样得到的新数据序列即为标准化序列量纲为一,其均值为0,方差为1 一般情况下,对于较稳定的社会经济系统数列作动态序列的关联度分析时,多采用初值化变换,因为这样的数列多数是增长的趋势若对原始数列只作数值间的关联比较,可用均值化变换,譬如进行产业结构变化的关联分析,自然因素周期性变化的关联分析等 (2) 计算关联系数 经数据变换的母数列记为{X0 (t)},子数列记为{Xi (t)},则在时刻t=k时母序列{X0 (k)}与子序列{Xi (k)}的关联系数L0i (k)可由下式计算Lkkii00()()minmaxmax=++DrDDrD,式中D0i (k)表示k时刻两比较序列的绝对差, 即 D0i (k)=½x0 (k)-xi (k)½ (1 £ i £ m); Dmax和Dmin分别表示所有比较序列各个时刻绝对差中的最大值与最小值因为比较序列相交,故一般取Dmin=0;r称为分辨系数,其意义是削弱最大绝对差数值太大引起的失真,提高关联系数之间的差异显著性,rÎ(0, 1),一般情况下可取0.1~0.5。
关联系数反映两个被比较序列在某一时刻的紧密(靠近)程度如在Dmin的时刻, Lio =1,而在Dmax 的时刻则关联系数为最小值因此,关联系数的范围为0 < L £ 1 (3) 求关联度 由以上所述可知,关联度分析实质上是对时间序列数据进行几何关系比较,若两序列在各个时刻点都重合在一起,即关联系数均等于1,则两序列的关联度也必等于1另一方面,两比较序列在任何时刻也不可垂直,所以关联系数均大于0,故关联度也都大于0因此,两序列的关联度便以两比较序列各个时刻的关联系数之平均值计算,即:riNLkikN0101==å() 式中r0i 为子序列i与母序列0的关联度,N为比较序列的长度(即数据个数) 用几何坐标表示,即在横坐标为时间t、纵坐标为关联系数L的坐标图中,绘出关联系数曲线(虚线)该折线与横坐标间围成的面积,称为关联面积,记作S0i,而母序列自身的关联系数处处为1所以,取纵坐标L=1,作水平线与横坐标间围成的面积为重合面积,记为S00,则关联度的几何意义为两面积之比,即因关联系数曲线为等时距,且S00=1,故 不难看出,关联度与下列因素有关:1) 母序列X0不同,则关联度不同; 2) 子序列Xi 不同,则关联度不同;3) 参考点0 (或数据变换)不同,关联度不同;4) 数据序列长度N不同,关联度不同;5) 分辨系数r不同,关联度不同。
一般来说,关联度也满足等价“关系”三公理,即: 1) 自反性: r00=1;2) 对称性: r0i =ri0;3) 传递性: r0a >r0b , r0b >r0c,则 r0a >r0c (4) 排关联序 将m个子序列对同一母序列的关联度按大小顺序排列起来,便组成关联序,记为{X}它直接反映各个子序列对于母序列的“优劣”关系若r0a >r0b ,则称{Xa }对于相同母序列{X0}有优于{Xb }的特点,记为;若r0a
一般而言,各因素只要能构成关系,算出关联度,则总是“有序”的只有在无“参考点”或无参考母序列的情况下,才可能出现“偏序”现象 (5) 列出关联矩阵 若有n个母序列{Y1}, {Y2}, …, {Yn } (n≠2)及其m个子序列{X1}, {X2}, …, {Xm } (m≠1),则各子序列对母序列{Y1}有关联度[r11, r12, …, r1m ],各子序列对于母序列{Y2}有关联度[r21, r22, …, r2m ],类似地,各子序列对于母序列{Yn }有关联度[rn1, rn2, …, rnm ] 将rij (i=1, 2, …, n; j=1, 2, …, m)作适当排列,可得到关联度矩阵,根据关联度矩阵,不仅可以作为优势分析的基础,而且可作为决策的依据若关联矩阵R中第i列满足则称母序列{Yi }相对于其它母序列为最优,或者说从Y i 对于子序列Xj (j=1, 2, …, m)的关联度来看,序列{Yi }是系统最优序列,并记为:若有 则称母序列{Yi }相对于其余母序列,或相对于子序列{Xi } (i=1,2,…,m)的关联度是准最优的,并记为: (jÎ{1, 2, …, n}, j≠i) 若关联矩阵R为下三角矩阵,即: r1i r21 r22 r31 r32 r33 ┆ ┆ ┆ rn1 rn2 rn3 … rnm则称[Y1]相对于[Yi] (iÎ{2 , 3 , …, n})是最优势的。
21.2灰色预测法基于灰色建模理论的灰色预测法数列预测就是对某一指标的发展变化情况所作的预测,其预测的结果是该指标在未来各个时刻的具体数值数列预测的基础,是基于累加生成数列的GM(1,1)模型设x(0)(1),x(0)(2),…,x(0)(M)是所要预测的某项指标的原始数据如果*趋势无规律可循(如图10-2所示),则无法用回归预测法对其进行预测x(1)=x(0)(1)x(1)(2)=x(0)(1)+x(0)(2)x(1)(3)=x(0)(1)+x(0)(2)+x(0)(3) ,其随机性程度大大弱化,平稳程度大大增加(如图10-3所示)对于这样的新数列,其变化趋势可以近似地用如下微分方程描述: 在(1)式中,a和u可以通过如下最小二乘法拟合得到:在(2)式中,YM为列向量YM=[x(0)(2),x(0)(3),…,x(0)(M)]T;B为构造数据矩阵:微分方程(1)式所对应的时间响应函数为:(3)式就是数列预测的基础公式,由(3)式对一次累加生成数列的预测值其观测值之间的残差值ε(0)(t)和相对误差值q(t)如下: 对于预测公式(3),我们所关心的问题是它的预测精度这一预测公式是否达到精度要求,可按下述方法进行精度检验。
首先计算:其次计算:方差比c=s2/s1一般地,预测公式(3)的精度检验可由表10-2给出如果p和c都在允的分析对(3)式进行修正,灰色预测常用的修正方法有残差序列建模法和周斯分析法两种21.3灰色局势决策方法灰色局势决策,是灰色系统理论中一种重要的决策方法之一,它是将事件、对策、效果、目标等决策四要素综合考虑的一种决策分析方法这种方法的最大特点是它适用于处理数据中含有灰元,即信息不完备的决策问题在区域开发活动中,许多问题的解决是在信息不完备的情况下作出决策的因此,灰色局势决策是学研究中常用的决策分析方法之一21.3.1灰色局势决策的数学模型 决策,一般都包括如下四个基本要素:(1)事件,即需要处理的事物;(2)对策,即处理某一事物的措施;(3)效果,即用某个对策对付某个事件的效果;(4)目标,即用来评价效果的准则所谓决策就是指,对于某个(或某些)事件,考虑许多对策去对付,不同对策效果不同,然后用某种(或某几种)目标去衡量,从这些对策中选择一个(或一批)效果最佳者灰色局势决策,是一种将事件、对策、效果、目标等决策四要素综合考虑的一种决策分析方法灰色局势决策的数学模型,实质上是运用有关的数学语言对决策四要素之间的相互关系所作的一种综合性描述。
这种描述主要包括如下几个方面的基本内容1.决策元、决策向量与决策矩阵(1)决策元在灰色局势决策中,事件ai和对策bj的二元组合sij=(ai,bj)称为局势,它表示用第j个对策(bj)去对付第i个事件(ai)的局势若局势sij的效果测度为rij,则称为决策元它表示用第j个对策(bj)去对付第i个事件(ai)这一局势的效果为rij2)决策向量若某一类决策问题有n个事件a1,a2,…,an和m个对策b1,b2,…,bm,且对于每一个事件ai(i=1,2,…,n)都可以用b1,b2,…,bm等m个对策去对付那么,对于每一个事件ai(i=1,2,。