投影寻踪方法及应用.doc

资源描述

《投影寻踪方法及应用.doc》由会员分享，可在线阅读，更多相关《投影寻踪方法及应用.doc（10页珍藏版）》请在金锄头文库上搜索。

1、投影寻踪方法及应用内容摘要：本文从投影寻踪的研究背景出发，给出了投影寻踪的定义和投影指标，在此基础上得出了投影寻踪聚类模型，随后简单介绍了遗传算法。最后结合上市公司的股价进行实证分析，并给出结论和建议。关键词：投影寻踪投影寻踪聚类模型遗传算法一、简介（一）产生背景随着科技的发展，高维数据的统计分析越来越普遍，也越来越重要。多元分析方法是解决高维数据这类问题的有力工具。但传统的多元分析方法是建立在总体服从正态分布这个假定基础之上的。不过实际问题中有许多数据不满足正态假定，需要用稳健的或非参数的方法来解决。但是，当数据的维数很高时，即使用后两种方法也面临以下困难:第一个困难是随着维数增加，计

2、算量迅速增大。第二个困难是对于高维数据，即使样本量很大，仍会存在高维空间中分布稀疏的“维数祸根”。对于核估计，近邻估计之类的非参数法很难使用。第三个困难是对低维稳健性好的统计方法，用到高维时则稳健性变差。另一方面，传统的数据分析方法的一个共同点是采用“对数据结构或分布特征作某种假定按照一定准则寻找最优模拟对建立的模型进行证实”这样一条证实性数据分析思维方法简称CDA法）。这种方法的一个弱点是当数据的结构或特征与假定不相符时，模型的拟合和预报的精度均差，尤其对高维非正态、非线性数据分析，很难收到好的效果。其原因是证实性数据分析思维方法过于形式化、数学化，受束缚大。它难以适应千变万化的客观世界，无

3、法真正找到数据的内在规律，远不能满足高维非正态数据分析的需要。针对上述困难，近20年来，国际统计界提出采用“直接从审视数据出发通过计算机分析模拟数据设计软件程序检验”这样一条探索性数据分析新方法，而PP就是实现这种新思维的一种行之有效的方法。因此，高维数据尤其是非正态高维数据分析的需要，加上80年代计算机技术的高度发展是PP产生的主要背景。（二）发展简史PP最早由Kruskal于70年初建议和试验。他把高维数据投影到低维空间，通过数值计算得到最优投影，发现数据的聚类结构和解决化石分类问题。1974年Frledman和Tukey加以改正，提出了一种把整体上的散布程度和局部凝聚程度结合起来的新指标

4、进行聚类分析，正式提出了PP概念，并于1976年编制了计算机图像系统PRIM9。1979年后，Friedman等人相继提出了PP回归、PP分类和PP密度估计。在这以后Huber等人积极探索了PP的理论。1981年Donoho提出了用Shannan嫡作投影指标比wiggins用标准化峰度更好的方法，接着他又利用PP的基本思想给出了多元位置和散布的一类仿射同变估计。Diaeonis、Friedman和Jones等还讨论了与PP有关的其他理论问题。上述工作和结果在1985年Huber的综述论文中作了概括和总结。我国学者成平和吴健福于1985年证明了PP密度估计的一个收敛性问题，并于1987年给出PP

5、经验分布的极限分布。陈忠琏和李国英等于1986年用PP方法给出了散布阵和主成分的一类稳健估计。成平和李国英于1986年还对多元位置和散布的PP型估计性质进行了讨论叫。陈家弊于1986年证明了密度PP估计的一个极限定理。宋立新和成平于1996年就PP回归逼近的均方收敛性，回答了Huber1985年的猜想。这些都是很好的工作。在PP的应用研究方面，从1985年起，郑祖国、杨力行等人通过几年的潜心研究和探索，成功地完成了投影寻踪回归（PPR）和投影寻踪时序（PPTS）软件包的程序设计，并对大量实例进行了验算。二、 PP及其分类投影寻踪是用来分析和处理高维数据，尤其是来自非正态总体的高维数据的一类统计

6、方法。其基本思想是:利用计算机技术，把高维数据通过某种组合，投影到低维（13维）子空间上，并通过极小化某个投影指标，寻找出能反映原高维数据结构或特征的投影，在低维空间上对数据结构进行分析，以达到研究和分析高维数据的目的。它的一般方案是:（l）选定一个分布模型作为标准（一般是正态分布），认为它是最不感兴趣的结构；（2）将数据投影到低维空间上，找出数据与标准模型相差最大的投影，这表明在投影中含有标准模型没能反映出来的结构；（3）将上述投影中包含的结构从原数据中剔除，得到改进了的新数据；（4）对新数据重复步骤（2）（3），直到数据与标准模型在任何投影空间都没有明显差别为止。PP方法的主要特点是:（l

7、）PP方法能够在很大程度上减少维数祸根的影响，这是因为它对数据的分析是在低维子空间上进行的，对1-3维的投影空间来说，高维空间中稀疏的数据点就足够密了，足以发现数据在投影空间中结构特征；（2）PP方法可以排除与数据结构和特征无关，或关系很小的变量的干扰；（3）PP方法为使用一维统计方法解决高维问题开辟了途径，因为PP方法可以将高维数据投影到一维子空间，再对投影后的一维数据进行分析，比较不同一维投影的分析结果，找出好的投影；（4）与其他非参数方法一样，PP方法可以用来解决某些非线性问题。PP虽然是以数据的线性投影为基础，但它找的是线性投影中的非线性结构，因此它可以用来解决一定程度的非线性问题，如

8、多元非线性回归；（二）PP的分类PP包括手工PP和机械PP两方面内容。手工PP主要是利用计算机图像显示系统在终端屏幕上显示出高维数据在二维平面上的投影，并通过调节图像输入装置连续地改变投影平面，使屏幕上的图像也相应地变化，显示出高维数据在不同平面上投影的散点图像。使用者通过观察图像来判断投影是否能反映原数据的某种结构或特征，并通过不断地调整投影平面来寻找这种有意义的投影平面。最早的图象显示系统是斯坦福大学教授J.H.Friedman等人1974年编制的，PRIM一9。利用这个系统可以看到不超过九维的数据在任何二维平面上的投影图象，以发现数据的聚类和超曲面结构。这个系统还可以只显示指定的区域内的

9、高维点，把其他点移出屏幕不显示出来。因此当人们在投影平面上发现了某种聚类结构时，可以把不同类的数据分开，再分别考察每个类中的数据的结构和特征。使用手工PP成功的例子是美国的Reaven和Miller于1979年关于多尿病病理的研究。他们将145人的5项指标观察值输入PRIM一9图像显示系统，对5项指标中的每3项指标，观察145个3维点构成的点云在任何2维平面上的投影图像，最后找到了一个在医学上有意义的图像。从这张图像上可以看到隐性和显性多尿症患者的数据是完全分开的。不经过中间正常状态，两者是不能相互转换的。机械PP是模仿手工PP，用数值计算方法在计算机上自动找出高维数据的低维投影，即让计算机按

10、数值法求极大解的最优化问题的方法，自动地找出使指标达到最大的投影。它要求对一个P维随机向量X，寻找一个K（Kp）维投影矩阵A，使定义在某个K维分布函数集合上的实值函数Q（投影指标），满足。如果原数据确有某种结构或特征，指标又选得恰当，那么在所找到的某些方向上，一定含有数据的结构或特征。有些传统的多元分析方法可以看成是机械投影寻踪的特例。例如主成份分析，判别分析等，但是主成分分析方法是用主成分来描述或逼近原始数据，所反映的是数据的全局特征或宏观特征，这样显然就有可能会漏掉主要的局部特征或细节特征。下面以大家熟知的主成份分析为例具体说明机械投影寻踪方法。主成份分析的目的是要考察P维数据，是否真正散

11、布在P维空间上，还是主要只散布在某个维数小于P的子空间上。好比一块铁饼，虽然是三维空间中的形体，由于相对地说厚度明显地小，所以它主要是散布在二维平面上的园形东西，在与这个园形垂直的方向上没有多少布散布。我们取描述一维数据散布程度的标准差作为投影指标。实数的标准是，其中。用投影寻踪了解数据的散布情况，就是找出一个方向，使得数据在这个方向上的投影的散布达到最大，即，就是的样本协差阵S的最大特征根的特征向量。把S的特征根从大到小排列，记作，这样投影寻踪就给出了的第一主成份，它的标准差。继续作投影寻踪，在与垂直的空间里求单位向量，使。可以证明就是相应于的特征根，进而得到的第二主成份，及其标准差，如此类

12、推，就可以求出第三、第四主成份等等，直到某个主成份的标淮差接近零为止。当然，主成份分析只是机械投影寻踪的一个特例。一般的并不要求后面的投影方向与前面找到的投影方向垂直。而且，对于主成分分析其样本协方差阵及特征根和特征向量对离群点是非常敏感的，正是由于样本协方差阵的不稳定，造成了传统主成分分析的不稳健。为了得到稳健性，可以采用稳健的散布度量加以改进另外，实际作主成份分析时也不用求极值的投影寻踪法，而是直接求样协差阵S的特征根和特征向量。三、投影指标PP的出发点是度量投影分布所含信息的多少，而我们知道高维数据集合的线性投影是？几乎正态的，并且正态分布通常为无信息分布的代表。从而寻求与正态分布差异

13、最大的线性投影分布，即含信息最多的投影分布，成为PP方法的常用方式之一。既然如此，那么它是如何实现的呢?为了避免繁杂的细节讨论，突出问题的重点，我们选取简单的度量准则，如方差、偏度、峰度，至于更加复杂的度量准则也有完全类似的描述、解释，这里从略。（1）方差指标设是总体X的独立同分布的样本，方差指标的样本形式为。如果我们求，得到的就是样本散布最大的方向。主成分分析就是取样本方差为投影指标的PP方法。（2） Friedman指标设有Legendre多项式，设X为P维随机向量，协方差阵的正交分解，U是标准正交阵，D是对角阵。是X的n个样本，是其经验分布。为了达到PP的主要目的，并减少计算量，我

14、们要求PP指标对P维数据的任何非奇异仿射变换保持不变。为此，对x及它的子样进行球面化，即令，如果未知，则用样本的协方差阵的正交分解的代替。设为标准正态分布分布函数，则Friedman指标为其中P是X的分布函数。样本形式为（3）偏度指标和峰度指标偏度是用来衡量分布非对称性的统计指标，峰度是用来衡量分布平坦性的统计指标，它们都对离群点非常敏感。因此可以用作投影指标来寻找离群点。设原随机变量为X，投影方向为a，偏度指标和峰度指标分别为和以及两者混合产生的指标和这类指标对于检测噪声背景下的比较细小的特征目标有较好的效果。（4）信息散度指标一般认为服从正态分布的数据含有的有用信息最少，因而我们感兴趣

15、的是与正态分布差别大的结构。多元正态分布的任何一维线性投影仍然服从正态分布，因此如果一个数据在某个方向上的投影与正态分布差别较大，那它就一定含有非正态的结构，这是我们关心的。高维数据在不同方向上的一维投影与正态分布的差别是不一样的，它显示了在这一方向上所含有的有用信息的多少，因此可以用投影数据的分布与正态分布的差别来作为投影指标。人们已经设计出许多具有这种特点的指标，信息散度指标就是其中之一。设f是一维密度函数，g是一维标准正态分布密度函数，f对g的相对嫡为信息散度指标定义为：当时，；若f偏离g越远，那么值就越大，因此刻划了结构度量f到g的偏离程度。由于根据样本估计f是很麻烦的，因此更简便有效

16、的方法是用离散化的概率分布p和q分别代替连续的密度函数f和g，这时指标变为，其中。如果投影指标的值越大，那么意味着它越偏离正态分布，因而是我们感兴趣的方向线性投影结构高维数据集基于结构的PP降维流程四、投影寻踪聚类模型（一）用PP探索高维数据的结构或特征时，一般采用迭代模式。首先根据经验或猜想给定一个初始模型;其次把数据投影到低维空间上，找出数据与现有模型相差最大的投影。这表明在这个投影中含有现有模型中没有反映的结构，然后把上述投影中所包含的结构并在现有模型上，得到改进了的新模型。再从这个新模型出发，重复以上步骤，直到数据与模型在任何投影空间都没有明显的差别为止。由于PP是一种数据分析的新思维方式，因

展开阅读全文