四 川 农 业 大 学 商 学 院 课 程论 文《数据处理方法》课程论文论文题目: 主成分分析在综合评价中的应用 成员 1: 工作: 分数: 成员 2: 工作: 分数: 成员 3: 工作: 分数: 成员 4: 工作: 分数: 2013-5-14主成分分析在综合评价中的应用摘要摘要 本文根据 2007 年各地区国有及国有控股工业企业主要经济效益指标的统计数据,进行主成分分析并选取三个主成分,运用主成分对各地区进行综合排名运用 K 均值聚类,得出的结果与主成分综合排名进行比较,结果相当吻合,主成分分析可广泛运用于经济指标数据分析关键字关键字:主成分分析 经济效益指标 综合排名 分类 Application of Principal Component Analysis in the analysis of Economic DataXionghao, Information and Computing Science, 20109271Yang Xiaotao, Information and Computing Science, 20109281Zou Huimin, Financial Management, 20118795Zhao Wenqin, Financial Management, 20118793Abstract: according to the 2007 state-owned and state holding industrial enterprises in various areas of the main economic benefit index statistics, principal component analysis and three principal components and using the principal component comprehensive ranking for all regions. Using k-means clustering, and the results comparing with principal component comprehensive ranking and the results are consistent, principal component analysis data analysis can be widely used in economic indicators.Key words: principal component analysis ;Comprehensive ranking ;Classification1.问题描述问题描述经济数据分析结果对国家的宏观调控与企业决策有着至关重要的作用。
本文基于 2007 年各地区国有及国有控股工业企业主要经济效益指标数据,研究以下问题:(1)根据指标的属性将原始数据统一趋势化;(2)利用协方差或相关系数矩阵进行主成分分析,并试讨论可否只用第一主成分排名;(3)对各地区进行综合排名;(4)将分析结果与聚类结果进行比较2.问题分析问题分析针对问题(1) ,首先我们将所选取的数据进行数据属性分类,数据的评价指标通常分为效益型、成本型,适度型等;然后再将属性分类后的数据按照特定的变换公式进行统一趋势化处理,消除量纲针对问题(2) ,我们选取原始数据的相关系数矩阵进行主成分分析,得出若干主成分;可否只使用第一主成分排名则要依据第一处成分的贡献率决定,即第一主成分的贡献率达到 80%及以上,可认为能只用第一主成分进行排名针对问题(3) ,其实就是主成分在综合排名中的应用需要根据第(2)问中主成分的贡献率选取合适的主成分,在进行排名针对问题(4) ,选取 K 均值聚类方法,将各地区分类;再与主成分分析结果进行比对,得出结论3.模型建立与求解模型建立与求解3.1 统一趋势化模型统一趋势化模型3.1.1 数据属性变换在解决经济问题综合评价时,评价指标通常分为效益型、成本型,适度型等类型,效益型指标值越大越好,成本型指标值越小越好,适度型指标既不太大也不太小为好。
根据此标准,我们用 、 分别表示效益型和成本型指标集𝐼1𝐼2合,将 2007 年各地区国有及国有控股工业企业主要经济效益指标数据(以下简称样本数据)评价指标作以下分类:效益型( ):工业增加值率,总资产贡献率,产品销售率,流动资产周𝐼1转次数,工业成本费用利润率;成本型( ):资产负债率;𝐼2数据矩阵 X 的每一列为评价指标,共有 6 项指标;每一行为一个地区关于6 项评价指标的指标值,共有 31 个地区这样表示第 i 个地区关于第 j 项评价指标的指标值为xij(i = 1,2,…,31;𝑗 = 1,2,…,6)3.1.2 统一趋势化与无量纲化我们将 、 运用极差变换法建立无量纲的优属度效益型矩阵 B,其变换公𝐼1𝐼2式为:其中,n=(1,2,3,…,31) ,p=(1,2,3,4,5,6) 我们运用 Matlab 编程计算得出矩阵 B,指标经过极差变化后均有,且各指标下组好的结果的属性值,最坏结果,指标变0 ≪ 𝑏𝑖𝑗≪ 1𝑏𝑖𝑗= 1𝑏𝑖𝑗= 0换前后的属性值成比例至此,样本数据统一趋势化完成3.2 主成分分析主成分分析此前我们已经运用 Matlab 软件得出样本数据 X 统一趋势化后的属性一致的指标矩阵 B,接下来我们需要求得矩阵 B 的相关系数矩阵 R,由于公式定理较多,本文就不再一一给出,本文后会附带本文相关的 Matlab 程序代码。
运用 Matlab 计算 R 的特征值 d 与相应的特征向量矩阵 V,特征向量矩阵V 就是主成分的系数向量他们分别为图(一) ,图(二)所示:图(一)图(一) 相关系数矩阵相关系数矩阵 R 的特征值的特征值 d图(二)图(二) 相关系数矩阵相关系数矩阵 R 的特征向量矩阵的特征向量矩阵 V根据特征值计算主成分贡献率 W,如图(三):图(三)各主成分的贡献率图(三)各主成分的贡献率 W第一、二、三主成分的累计贡献率为: 0.4332+0.3463+0.1139=0.8934已达 89.34%,大于 85%,所以取前三个主成分,即,,;𝑦1𝑦2𝑦3而第一主成分的贡献率只有 43.32%,远小于 85%,所以为了确保分析的准确性,不能只选用第一主成分对各地区进行排名3.3 综合排名综合排名要对各地区进行综合排名,我们首先要求得各主成分得分,计算公式为:𝐹 = 𝐵∗𝑉其中是将矩阵B标准化以后的矩阵,在 Matlab 软件中的调用函数为𝐵∗zscore(B)各主成分得分如图(四):图(四)图(四) 主成分得分矩阵主成分得分矩阵计算综合评价值,运算公式为:𝑍 = 𝐹𝑊其中,F 是主成分的得分矩阵,W 是将特征值归一化后得到的权向量。
效益型矩阵评价值越大排名越靠前,否则靠后综合评价值 Z 结果如表一:表一表一 综合评价值综合评价值地区序号综合评价值地区序号综合评价值地区序号综合评价值地区序号综合评价值10.301690.0196170.0285250.71722-0.357710-0.829518-0.4556263.47523-0.635011-1.034719-0.0063270.73094-0.189112-0.553520-0.756228-0.522850.288113-0.4953210.1109290.77696-0.631114-0.843822-0.038130-0.15337-0.164315-0.515123-0.0296310.872681.455916-0.496324-0.0782为更方便的分析数据,我们绘制了图(五):图(五)图(五) 综合评价值柱状图综合评价值柱状图结合表一与图(五) ,我们初步可以看出地区序号为 26 的西藏、地区序号为 8 的黑龙江和地区序号为 31 的新疆分别排名第一、第二和第三我们进一步运用Matlab中的调用函数 [Z1,I1]=sort(Z,'descend');[Z2,I2]=sort(I1);得出各地区的综合排名,整理得表二:表二表二 各地区综合排名各地区综合排名地区序号综合排名地区序号综合排名地区序号综合排名地区序号综合排名17911171025621910291820261327113119122754181225202828245813212192946261430221430167171523231331382162224153.4 聚类分析聚类分析我们选取 K 均值聚类对样本数据中的 31 个地区进行分类,分为 3 类。
在Matlab 中调用函数:,从而得到 a,b其中 a 为聚[a,b] = kmeans(𝐵∗,3)类结果,b 为聚类重心聚类结果 a 整理得表三:表三表三 样本数据样本数据 K 均值聚类结果均值聚类结果地区序号分类类别地区序号分类类别地区序号分类类别地区序号分类类别129217225222102182261321121922724212220228252132212293621422223027215223231383162242从 a 中我们可以得出第一类包含 1 个地区,即西藏;第三类包含 3 个地区,为黑龙江、新疆和青海;第二类包含剩余的 27 个地区我们将聚类结果 a 与主成分综合排名进行对比,显然得到这样的结论:第一类为综合排名的第 1 名,第二类为综合排名的第 2、第 3 和第 4 名,第三类为综合排名剩下的 27 各地区所以,我们可以断定所作综合排名基本准确4.结果分析结果分析运用主成分分析方法对样本数据进行综合排名,并运用聚类分析进行分类对比,两种方法的结果相当吻合,结果十分乐观由此我们得出结论,主成分分析可以广泛运用于经济指标数据的分析当中参考文献参考文献[1] 李柏年,吴礼斌等.MATLAB 数据分析方法[M].北京:机械工业出版社,2012,P:104-135.[2] 白雪梅等.对主成分分析综合评价方法若干问题的探讨[M].统计学—经济数学方法.1996(1)[3] 韩中庚.数学建模方法及其应用[M].第二版.高等教育出版社,2009,P:319—331[4] 李学文等.数学建模优秀论文[M].清华大学出版社.2011,09。