基于ahp、pca、hca实例的数据标准化处理及软件实现

资源描述

《基于ahp、pca、hca实例的数据标准化处理及软件实现》由会员分享，可在线阅读，更多相关《基于ahp、pca、hca实例的数据标准化处理及软件实现（20页珍藏版）》请在金锄头文库上搜索。

1、 1 基于基于 AHP、PCA、HCA 实例的数据标准化处理及软件实现实例的数据标准化处理及软件实现吴娇、董津津【摘要】本文对层次分析法、主成分分析法、模糊聚类分析法做了概绍，结合实例详述三种方法的应用，并用 SPSS、MATLAB 实现。【关键字】AHP PCA HCA 标准化软件标准化也就是统计数据的指数化。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。原始数据通过标准化处理后，它们之间的可比性增强、影响因素减少，从而更加便于分析的进行。但是，不同的分析方法标准化处过程不同，例如：层次分析法是在对样本分层后针对准则层各因素占全层的权重比例进行标准化处理。意义是为准则

2、层因素直观赋权，取 01 之间的数能便捷的反应各指标的权重，同时为下一步方案选择提供简单、可信的数据；在主成分分析法中需要在分析进行前对数据进行标准化，这是由于大量原始数据取自不同的评价指标，指标间可能存在较大的量纲差异。如果不进行标准化，各数据之间的关联无法衡量，有必要作进一步处理。原始数据经标准化处理后消除了量纲上的差异，能有效体现各指标的贡献率；与主成分分析法类似的是模糊聚类分析，它要求对研究对象归类。原始数据量纲和残值的差异导致归类无法进行，只有作标准化处理才利于分析的进行。因此，模糊聚类分析也是在分析前进行数据标准化。以下选取三种分析法的实例，并用 SPSS 和 MATLAB 软件对

3、数据进行处理，同时对它们的标准化过程作进一步探讨：一、层次分析法层次分析法（Analytic Hierarchy Process，简称 AHP）是对一些较为复杂、较为模糊的问题作出决策的简易方法，它特别适用于那2 些难于完全定量分析的问题。它是美国运筹学家 T. L. Saaty 教授于 70 年代初期提出的一种简便、灵活而又实用的多准则决策方法。人们在进行社会的、经济的以及科学管理领域问题的系统分析中，面临的常常是一个由相互关联、相互制约的众多因素构成的复杂而往往缺少定量数据的系统。层次分析法为这类问题的决策和排序提供了一种新的、简洁而实用的建模方法。在应用层次分析法研究问题时，遇

4、到的主要困难有两个：（i）如何根据实际情况抽象出较为贴切的层次结构；（ii）如何将某些定性的量作比较接近实际定量化处理。层次分析法对人们的思维过程进行了加工整理，提出了一套系统分析问题的方法，为科学管理和决策提供了较有说服力的依据。但层次分析法也有其局限性，主要表现在：（i）它在很大程度上依赖于人们的经验，主观因素的影响很大，它至多只能排除思维过程中的严重非一致性，却无法排除决策者个人可能存在的严重片面性。（ii）比较、判断过程较为粗糙，不能用于精度要求较高的决策问题。AHP 至多只能算是一种半定量（或定性与定量结合）的方法。 AHP 方法经过几十年的发展，许多学者针对 AHP 的缺点

5、进行了改进和完善，形成了一些新理论和新方法，像群组决策、模糊决策和反馈系统理论近几年成为该领域的一个新热点。例 1. 对三个干部候选人 y1、y2 、y3，按选拔干部的五个标准：品德、才能、资历、年龄和群众关系，构成如下层次分析模型：假设有三个干部候选人 y1、y2 、y3，按选拔干部的五个标准：品德，才能，资历，年龄和群众关系，构成如下层次分析模型 3 求解的过程包括：构建成对比较矩阵成对比较矩阵中 aij 的取值可参考 Satty 的提议，按下述标度进行赋值。aij在 1-9 及其倒数中间取值。其中，aij= 1 元素 i 与元素 j 对上一层次因素的重要性相同；aij= 3 元素

6、i 比元素 j 略重要； aij= 5 元素 i 比元素 j 重要； aij= 7 元素 i 比元素 j 重要得多； aij= 9 元素 i 比元素 j 的极其重要；aij = 2n，n=1,2,3,4 元素 i 与 j 的重要性介于aij= 2n 1 与aij= 2n + 1 之间。对于此例，选拔干部考虑 5 个条件：品德 x1，才能 x2，资历 x3，年龄 x4，群众关系 x5。某决策人用成对比较法，得到成对比较阵如下： 4 例如，a14 = 5 表示品德与年龄重要性之比为 5，即决策人认为品德比年龄重要。计算衡量一个成对比矩阵 A （n1 阶方阵）不一致程度的指标 CI：其中，，

7、是矩阵 A 的最大特征值。用 Matlab 求得如下（图一）特征值：选取最大的 =5.072,故 CI=0.018 从有关资料查出检验成对比较矩阵 A 一致性的标准 RI： RI 称为平均随机一致性指标，它只与矩阵阶数有关。对9 , 1n，Saaty 给出了RI的值，如下表所示： n 1 2 3 4 5 6 7 8 9 RI 0 0 0.58 0.90 1.12 1.24 1.32 1.41 1.45 按下面公式计算成对比较阵 A 的随机一致性比率 CR：。此例中 RI=1.12，故 CR=0.018/1.12=0.016 判断 A 矩阵是否满意：判断方法如下：当 CR0.1 时

8、，判定成对比较阵 A 具有满意的一致性，或其不一致程度是可以接受的；否则就调整成对比较矩阵 A，直到达到满意的一致性为止。由于 CR=0.0160.1，所以成对比较矩阵 A 具有满意的一致性。 5 图一确定特征向量由图一，得最大特征值的特征向量为U=（-0.8409,-0.4658,-0.0951,-0.1733,-0.1920），这个向量就是问题所需的，它表明了准则层中的因素对目标层的影响。进行数据标准化处理，确定权向量 6 对于上述U=（-0.8409,-0.4658,-0.0951,-0.1733,-0.1920），使得它的各分量都大于 0，各分量之和等于 1。于是有，

9、 UZ=（0.4759,0.2636,0.0538,0.0981,0.1087）经过标准化后的这个特征向量称为权向量，它使准则层中各因素在本层中的权重得以量化。其中，分量之和为 1 说明准则层中诸因素加总对目标的绝对影响，而各分量的权重则表示单一因素对目标的影响程度。本例中，它反映了决策者选拔干部时，视品德条件最重要，其次是才能，再次是群众关系，年龄因素，最后是资历。根据权向量进行决策二、主成分分析法主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。在实证问题研究中，为了全面、系统地分析问题，我们必须考虑众多影响因素。这些涉及的因素一般称为指标，在多元统计

10、分析中也称为变量。因为每个变量都在不同程度上反映了所研究问题的某些信息，并且指标之间彼此有一定的相关性，因而所得的统计数据反映的信息在一定程度上有重叠。在用统计方法研究多变量问题时，变量太多会增加计算量和增加分析问题的复杂性，人们希望在进行定量分析的过程中，涉及的变量较少，得到的信息量较多。主成分分析正是适应这一要求产生的。主成分分析法是一种数学变换的方法, 它把给定的一组相关变量通过线性变换转成另一组不相关的变量，这些新的变量按照方差依次递减的顺序排列。在数学变换中保持变量的总方差不变，使第一变量具有最大的方差，称为第一主成分，第二变量的方差次大，并且和第一变量不相关，称为第二主成分。依次

11、类推，I 个变量就有 I 个主成分。例 2. 随着武钢钢铁业务量的扩大, 物流在武钢企业运作中的作用越显重要, 物流配送中心的选择是整个物流系统规划中的重要环节, 合理的选择物流配送中心, 能够有效地降低物流成本, 提高企业竞争力。目前, 武钢周边配送中心的备选地址主要有 3 处: 武东地区, 龚家岭地区, 北湖地区。配送中心选址的影响因素很多, 我们可以根据物流学的原理, 结合武钢实际情况, 选择其中较重要7 的一些因素, 作为武钢配送中心选址的指标。这些因素主要包括满足建库目标、地理和交通条件、运营成本、发展空间、投资成本等五个方面。我们通过相关调查数据, 结合专家打分得出武钢三个候选地

12、址的评价矩阵( 如下表) 。备选地址建库目标地理和交通条件运营成本发展空间投资成本武东地区 70 85 90 80 71 龚家岭地区 78 69 76 88 80 北湖地区 82 76 84 90 84 说明: 建库目标以是否满足 10 万吨、30 万吨、50 万吨仓储来评价; 地理和交通条件以备选地的铁路和公路与武钢工业港远近、土地条件、是否交通管制来评价; 运营成本以铁路运费、加固费、仓储吊装费、停时费的总和来评价; 发展空间以发展用地空间、土地成本、是否符合城市规划来评价; 投资成本以各备选地投资成本占三者总投资成本的百分比来评价。原始评价指标标准化以下是用 SPSS

13、实现标准化的过程 8 图二得到标准化矩阵 1.091091.038960.949161.133891.10138 0.218220.955851.044070.377960.25031 0.872870.083120.094920.755930.85106X 9 计算指标数据的相关系数矩阵图三 10 图四 11 故相关系数矩阵为1.0000.7070.5900.9901.000 0.7071.0000.9880.8010.727 0.5900.9881.0000.7000.613 0.9900.8010.7001.0000.993 1.0000.7270.6130.9931.000ijP

14、上表显示：第一主成分贡献率为 85.08%，第二主成分贡献率为 14.92% 用 Matlab 求特征值及特征向量 12 图五由上，得相关矩阵的特征向量为0.79100.06690.00180.40420.4544 0.05800.61290.44110.48160.4409 0.14100.57310.28560.63740.4047 0.42330.29370.67110.24390.4739 0.41460.45290.52290.37260.4590ij 特征值0.0007,0.0001,0.0005,0.7463,4.2539 13 进行指标综合评价后两个特征值对应的特征向量分别

15、是 40.40420.48160.63740.24390.3726Te 50.45440.44090.40470.47390.4590Te 则：4123450.40420.48160.63740.24390.3726Fxxxxx 5123450.45440.44090.40470.47390.4590Fxxxxx 综合评测值：540.85080.1492FFF 计算得：备选配送中心 4F 5F F 武东地区 -0.0226 -2.3809 -2.0291 龚家岭地区 -0.8521 1.2375 0.5015 北湖地区 0.7538 1.2204 1.1508 14 由上三地区总排序权值可知

16、, 物流配送中心应选择北湖地区。北湖由于具有丰富且低廉的土地资源, 便利的交通优势。与其它选址相比, 北湖具有更为广阔的发展空间, 能够以较低的资源成本和投资成本承担钢材仓储乃至钢材物流中心的综合功能。因此从长远看,武钢建设物流配送中心, 选址北湖更为恰当。三、模糊聚类分析聚类分析是数理统计中的一种多元分析方法，它是用数学方法定量地确定样本的亲疏关系，从而客观地划分类型。事物之间的界限，有些是确切的，有些则是模糊的。例如人群中的面貌相像程度之间的界限是模糊的，天气阴、晴之间的界限也是模糊的。当聚类涉及事物之间的模糊界限时，需运用模糊聚类分析方法。例 3. 环境单元分类。a b c d e

展开阅读全文