投影寻踪方法及其应用

资源描述

《投影寻踪方法及其应用》由会员分享，可在线阅读，更多相关《投影寻踪方法及其应用（29页珍藏版）》请在金锄头文库上搜索。

1、投影寻踪方法及其应用金菊良合肥工业大学土木建筑工程学院水利系 (邮编 230009，电话 0551-2903357，JINJL)报告内容1 投影寻踪方法的基本原理与建模步骤4 总结与讨论3 基于加速遗传算法的投影寻踪等级评价模型2 基于加速遗传算法的投影寻踪聚类模型1 投影寻踪方法的基本原理与建模型步骤1.1 投影寻踪方法的基本原理投影寻踪(projection pursuit，PP)方法属于直接由样样本数据驱动驱动的探索性数据分析方法。它把高维数据x(i,j)通过某种组合投影到低维子空间上z(i)，对于投影到的构形，采用投影指标函数Q(z(i)来描述投影暴露原系统统某种分类排序

2、结构的可能性大小，寻找出使投影指标函数达到最优（即能反映高维数据结构或特征）的投影值z(i)，然后根据该投影值来分析高维数据的分类结构特征（如投影寻踪聚类评价模型），或根据该投影值与研究系统的实际输出值之间的散点图构造适当的数学模型以模拟系统输出（如投影寻踪等级评价模型）。1 投影寻踪方法的基本原理与建模步骤1.2 投影寻踪方法的建模步骤步骤1：高维样本数据的预处理，确定系统输入。步骤2：构造投影指标函数。步骤3：优化投影指标函数。步骤4：建立系统模型。2 基于加速遗传算法的投影寻踪聚类模型AGA-PPCE 2.1 基于加速遗传算法的投影寻踪聚类模型的建立步骤1：评价指标值的归

3、一化处理。设样本集为 x*(i,j)| i =1n, j=1p。其中x*(i,j)为第i个样本第j个指标值。为消除各指标值的量纲和统一各指标值的变化范围，可采用下式进行极值归一化处理：式中，xmin(j)、xmax(j)分别为样本集中第j个指标值的最小值和最大值。2 基于加速遗传算法的投影寻踪聚类模型AGA-PPCE 2.1 基于加速遗传算法的投影寻踪聚类模型的建立步骤2：构造投影指标函数。PP方法就是把p维数据x(i,j)| j=1p综合成以a=(a(1),a(2), ,a(p)为投影方向的一维投影值 z(i) 然后根据z(i)| i=1n 的一维散布图进行分类。式(2.2)中a为单位

4、长度向量。在综合投影值时，要求投影值z(i)的散布特征应为：局部投影点尽可能密集，最好凝聚成若干个点团；而在整体上投影点团之间尽可能散开。据此投影指标函数可构造为Q(a)= Sz Dz (2.3)式中，Sz为投影值z(i)的标准差，Dz为投影值z(i)的局部密度，即2 基于加速遗传算法的投影寻踪聚类模型AGA-PPCE 2.1 基于加速遗传算法的投影寻踪聚类模型的建立步骤3：优化投影指标函数。当各指标值的样本集给定时，投影指标函数Q(a)只随投影方向a的变化而变化。可通过求解投影指标函数最大化问题来估计最大可能暴露高维数据某类特征结构的最佳投影方向： max Q(a)= Sz D

5、z (2.4) 这是一个以a(j)|j=1p为优化变量的复杂非线性优化问题，用模拟生物优胜劣汰规则与群体内部染色体信息交换机制的加速遗传算法（AGA）来求解上述问题较为简便和有效。加速遗传算法（AGA）步骤1：模型参数的编码。设码长为e，第j个参数的变化区间为aj，bj，j=1p。把这些区间等分成2e-1个子区间： cj=aj+Ijdj (2)式中子区间长度dj=(bj-aj)/(2e-1)是常数；搜索步数Ij 为小于2e的十进制整数，是变数；j=1p(下同)。把Ij转化成e位二进制数ia(j, k)，k=1e(下同)，即式(3) ：步骤2：初始父代群体的随机生成。生成n组各p个均

6、匀随机数(简称随机数)u(j,i) ，i=1n，经下式转换成十进制整数。Ij(i)=INTu(j,i)2e (4)式中INT为取整函数。由式(3)得对应二进制数ia(j,k,i)，它们与n组模型参数cj(i)对应，并把它们作为初始父代个体群。编码与解码的逻辑过程：cj(i) Ij(i) ia(j, k,i)步骤3：父代个体适应能力评价。把第i组参数代入式(1)得目标函数值fi，fi越小表示模型与观测值拟合得越好，适应能力越强，设第i个个体的适应能力与fi成反比。构造选择概率序列pi，把0，1区间分成n个子区间：(0，p1)，(p1，p2)，pn-1，pn，它们与n个个体一一对应，fi越小

7、的个体对应的子区间长度越大。步骤4：父代个体的概率选择。生成n个随机数 ui |i=1n，若uipi-1，pi，则选取第i个父代个体，其二进制数记为ia1(j,k,i)。同理可得另外的n个父代个体ia2(j,k,i)。选择是遗传算法的关键，它体现了优胜劣汰的思想。步骤5：父代个体的杂交。由步4得到的父代个体配对成n对双亲。生成两随机数u1和u2，再转成十进制整数： IU1=INT(1+u1e)，IU2=INT(1+u2e)，设 IU1IU2（否则互换其值）。杂交是指第i对双亲ia1(j,k,i)和ia2(j,k,i)随机变换一段二进制数，从而生成第i对子代个体：0 1 1 0 10 0

8、 1 0 1 (5)1 0 1 0 01 1 1 0 0 (6)(杂交前) (杂交后)步骤6：子代个体的变异。生成随机数u1，u2，u3和u4。当u10.5时子代个体取式(5)，否则取式(6)，记其二进制数为ia(j, k,i) 。把u2、u3转换为十进制整数：IU1=INT(1+eu2)，IU2=INT(1+eu3)设子代变异的概率(称为变异率)为pm。变异是当u4pm时对子代个体的IU1位和IU2位的值进行翻转操作： 0 1 1 0 10 0 1 1 1(变异前) (变异后)步骤7：进化迭代。第i个子代个体经式(3)、式(2)转化成第i组模型参数。这n个子代个体作为新的父代，算

9、法转入步3，进入下一轮进化过程，重新评价、选择、杂交、变异，如此反复进化，使个体的适应能力不断提高，直到最优个体的优化准则值小于某一指定值或最优个体的优化准则值不再改善，则终止进化迭代，算法结束。(a)初始分布 (b)第20次进化迭代后的分布 (c)第60次进化迭代后的分布步骤8：加速循环。用第一次、第二次进化迭代所产生的优秀个体的变量变化区间作为变量新的初始变化区间，算法进入步骤1，重新运行SGA算法，如此加速循环，优秀个体的变化区间将逐步调整和收缩，与最优点的距离将越来越近，直到最优个体的优化准则函数值小于某一设定值或算法运行达到预定加速(循环)次数，结束整个算法的

10、运行。此时，就把当前群体中最佳个体或优秀个体的平均值指定为AGA 的结果。 AGA的主要特点利用标准遗传算法演化过程中的优秀个体子群体来逐步调整、压缩算法的搜索空间。控制参数设置：二进制编码长度e、杂交概率和变异率分别固定设置为10、1.0和1.0；群体规模n与优秀个体数目s关系：s/nn/(e2e)， (n,s)的常用配置有(300,10)、(400,20)和 (500,30)；每次加速循环中AGA只进行两次 SGA的进化迭代。p个变量、加速循环q次，优秀个体包围最优点的概率为(1-0.52s)pq步骤4：建立聚类模型。把由步骤3求得的最佳投影方向a*代入式(2.2)后，得各样本

11、点的投影值z*(i)。投影值z*(i) 与z*(j)越接近，表示样本i与样本j越倾向于分为同一类。按 z*(i)值从大到小排序，据此可把各指标的样本集进行分类。 2 基于加速遗传算法的投影寻踪聚类模型AGA-PPCE 2.2 基于加速遗传算法的投影寻踪聚类模型在气候区划中的应用气候区划就是把研究区域划分成若干个分区，在同一分区内具有相似的气候条件，以便调整种植结构，因地制宜地发展农业生产。表2.1 气候样本集及其投影值气候因子jj=1 j=2 j=3 j=4 j=5 j=6 j=7 j=8 j=9 j=10 样样本年平均极端最高极端最低 10年年降水年日照年均相对对无霜

12、海拔凌冻冻天投影值值气温/C 气温/C 气温/C 积积温/C 量/mm 数/h 湿度/% 期/d 高度/m 数/d z*(i) 1毕节毕节 12.9 33.6 10.1 3672.0 904.3 1236.0 82 250 1510.6 15.2 1.295 2大方 11.8 31.5 8.8 3332.8 1176.9 1265.9 84 256 1700.0 33.2 1.283 3黔西 14.1 35.4 8.6 4047.4 964.1 1263.6 81 274 1272.1 14.6 1.722 4金沙 15.1 36.0 6.2 4703.3 1049.7 1091.6 81

13、 304 920.0 7.5 2.191 5织织金 14.2 33.1 9.5 4264.2 1432.6 1165.6 82 280 1319.0 11.8 1.728 6纳纳雍 13.7 33.5 8.4 4005.6 1234.3 1447.7 81 268 1457.1 14.2 1.625 7威宁 10.4 31.1 14.5 2572.8 943.5 1960.3 80 190 2234.5 63.9 0.271 8赫章 13.4 35.7 11.6 3948.9 892.8 1400.8 79 244 1534.9 12.4 1.282 图2.1 气候样本投影值z*(i)的散布图由表2.1和图2.1可知：该样本集按投影值z*(i)从大到小排序的样本序号依次为样本点4、5、3、6、1、2、8和7。其中，样本4可单独分为A类，样本5、3、6、1、2和8可分为B类，样本7可单独分为C类，该分类结果与文献“刘崇欣. 黔西北林木气候区划

展开阅读全文