数理统计数学建模

上传人:pu****.1 文档编号:489981269 上传时间:2024-02-18 格式:DOC 页数:11 大小:571.01KB
返回 下载 相关 举报
数理统计数学建模_第1页
第1页 / 共11页
数理统计数学建模_第2页
第2页 / 共11页
数理统计数学建模_第3页
第3页 / 共11页
数理统计数学建模_第4页
第4页 / 共11页
数理统计数学建模_第5页
第5页 / 共11页
点击查看更多>>
资源描述

《数理统计数学建模》由会员分享,可在线阅读,更多相关《数理统计数学建模(11页珍藏版)》请在金锄头文库上搜索。

1、数理统计 主成分分析摘要:本文根据问题中的条件和要求,建立了数理统计中的主成分分析模型,运动主成分分析法研究反映每人平均生活消费支出情况的六个指标变量之间的关系。根据所给的数据以生活水平值为因变量,其余变量为自变量,做主成分回归。从而对六维变量空间进行降维处理,提取出两个能够全面反映原有变量所含信息的新指标变量,即主成分。利用原指标与主成分的相关系数即因子载荷,解释了各主成分的意义。并利用第一主成分与第二主成分对16个地区进行分类。如下表所示:各地区在第一主成分和第二主成分值(标准化后)地区北京天津河北山西第一主成分得分3.8516 0.7074 -2.0545 -2.1393 第二主成分得分

2、0.2697 1.2645 1.2167 1.5135 地区内蒙古辽宁吉林黑龙江第一主成分得分-1.2734 0.4404 0.1334 -0.7937 第二主成分得分1.0283 -0.3943 -1.4876 -0.4944 地区上海江苏浙江安徽第一主成分得分4.4150 0.26641.1474 -0.6009 第二主成分得分0.5354 -0.00110.0947 -1.5977 地区福建江西山东河南第一主成分得分-0.6727 -1.3231 -0.3028 -1.8013第二主成分得分-1.9125 -1.6677 0.7403 0.8923【关键字】:主成分分析法 回归 主成分

3、分类1. 问题重述下表1-1是我国16个地区农民在某年支出情况的抽样调查数据的汇总资料,每个地区都调查了反映每人平均生活消费支出情况的六个指标。试对调查资料中的16个地区的农民生活水平进行主成分分析,并利用前两个主成分对16个地区的农民生活水平进行分类。、表1-1 16个地区的农民生活水平的调查数据 (单位:元)地区食品()衣着()燃料()住房()生活用品及其它()文化生活服务()北京190.3343.779.7360.5449.019.04天津135.2036.4010.4744.1636.493.94河北95.2122.839.3022.4422.812.80山西104.7825.116.

4、409.8918.173.25内蒙古128.4127.638.9412.5823.993.27辽宁145.6832.8317.7927.2939.093.47吉林159.3733.3818.3711.8125.295.22黑龙江116.2229.5713.2413.7621.756.04上海221.1138.6412.53115.6550.825.89江苏144.9829.1211.6742.6027.305.74浙江169.9232.7512.7247.1234.355.00安徽153.1123.0915.6223.5418.186.39福建144.9221.2616.9619.5221.7

5、56.73江西140.5421.5017.6419.1915.974.94山东115.8430.2612.2033.6133.773.85河南101.1823.268.4620.2020.504.30 2.模型的假设与符号说明模型的假设:(1)题中所给的数据真实可靠(2)符号说明:未标准化前的协方差:各地区六个指标的值。:各主成分的贡献率。:前m个主成分的累积贡献率。:主成分的值。3问题分析主成分分析是把各变量之间互相关联的复杂关系进行简化分析的方法。由于多个变量之间往往存在着一定程度的相关性。人们自然希望通过线性组合的方式,从这些指标中尽可能快的提取信息。主成分分析试图在力保数据信息丢失最少

6、的原则下,对这种多变量的截面数据表进行最佳综合简化,也就是说,对高维变量空间进行降维处理。主成分回归是在主成分分析法的基础上,由个自变量选出前个主成分,他们是互不相关的;在保持因变量不变,用这个主成分作为自变量作回归;最后把所得的结果作变量代换,转化成原来因变量与自变量的关系。第一主成份的推导: 设X的协方差阵为 由于x为非负定的对称阵,则有利用线性代数的知识可得,必存在正交阵使得其中为的特征根,不妨假设。而恰好是由特征根相对应的特征向量所组成的正交阵。 设有维正交向量=当且仅当时,即 时,有最大的方差。因为 。如果第一主成分表达的信息不够,则须找第二主成分。(2)第二主成分:因为第一,第二主

7、成分线性无关所以有条件,寻找第二主成分。,因为所以。则对维向量有。所以取线性变换,则方差次大。依次类推矩阵形式为 。主成分分析把个原始变量的总方差分解成了个相互独立的变量的方差之和。主成分分析的目的是减少变量的个数,所以一般不会使用所有个主成分,忽略一些带有较小方差的主成分将不会给总方差带来太大的影响。这里我们称为第k个主成分的贡献率。第一主成分的贡献率最大,这表明综合原始变量的能力最强,而的综合能力依次递减。若只取m个主成分,则称为主成分的累计贡献率,累计贡献率表明综合的能力。通常使得累计贡献率达到一个较高的百分数(如85%以上)。4模型的建立与求解主成分分析的数学模型是,设6个变量构成6维

8、随机向量为。对作正交变换,令,其中为正交阵,要求的各分量是不相关的,并且的第一个方差是最大的,第二个分量的方差次之,。为了保持信息不丢失,的各分量方差与的各分量方差和相等。其数学推导为:(1)由观测数据计算得到未标准化前的协方差矩阵:设为一个6维随机向量,并假定存在二阶矩,其未标准化前的协方差记为:则1.0000 0.6635 0.3371 0.7800 0.7058 0.6346 0.6635 1.0000 -0.0810 0.6630 0.9015 0.3748 0.3371 -0.0810 1.0000 -0.0887 -0.0614 0.2542 0.7800 0.6630 -0.08

9、87 1.0000 0.8311 0.3635 0.7058 0.9015 -0.0614 0.8311 1.0000 0.3112 0.6346 0.3748 0.2542 0.3635 0.3112 1.0000(2)由协方差矩阵R得到特征值,i=1,25.,6,及各个主成分的方差贡献、贡献率和累计贡献率,并根据累计贡献率确定主成分保留的个数。可求得,矩阵R所对应的特征值y和特征向量x分别为(x的列式相应的特征向量):x = 0.4811 -0.2570 0.0445 0.2772 -0.7203 -0.3238 0.4612 0.2176 0.1001 -0.6540 -0.2379 0

10、.4957 0.0525 -0.7777 0.5488 -0.1033 0.2355 0.1584 0.4668 0.1806 0.0726 0.6571 0.2900 0.4779 0.4842 0.2438 0.2472 -0.1851 0.4634 -0.6293 0.3173 -0.4355 -0.7877 -0.1370 0.2652 0.0016对应的特征值为:3.5584 1.3163 0.6082 0.3734 0.1072 0.0365设其特征值(=1,2,6),且,对应的正则化的特征向量为(=1,2,6)则由上式可得:=3.5584 =(0.4811,0.4612,0.05

11、25,0.4668,0.4842,0.3173=1.3163 =(-0.2570,0.2176,-0.7777,0.1806,0.2438,-0.4355=0.6082 =(0.0445,0.1001,0.5488,0.0726,0.2472,-0.7877=0.3734 =(0.2772,-0.6540,-0.1033,0.6571,-0.1851,-0.1370=0.1072 =(-0.7203,-0.2379,0.2355,0.2900,0.4634,0.2652=0.0365 =(-0.3238,0.4957,0.1584,0.4779,-0.6293,0.0016(3)写出m个基本方

12、程 式中,对每一个求他所对应的基本方程组的解,然后令,从而得到用所表示的主成分这样,就把各特征向量的数值作为系数就可以写出预期的6个主成分表达式:=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355=0.0445+0.1001+0.5488+0.0726+0.2472-0.7877=0.2772-0.6540-0.1033+0.6571-0.1851-0.1370=-0.7203-0.2379-0.2355+0.2900+0.46340.2652=-0.3238+0.4957+

13、0.1584+0.4779-0.6293+0.0016各主成分(=1,2,6)的贡献率(第个主成分反映的信息量)和累计贡献率。(前个主成分反映的总信息量)。六个主成分的贡献率和累计贡献率分别所下表所示:主成分贡献率累计贡献率0.59310.59310.21940.81240.10140.91380.06220.97600.01790.99390.00611.0000最后,将标准化后的样本数据代入前两个主成分=0.4811+0.4612+0.0525+0.4668+0.4842+0.3173和=-0.2570+0.2176-0.7777+0.1806+0.2438-0.4355可得到各地区在第一主成分和第二主成分的得分情况各地区在第一主成分和第二主成分值(未标准化前)地区北京天津河北山西第一主成分得分167.1307 121.9189 79.2343 76.7761 第二主成分得分-28.0084 -19.8101 -18.3375 -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号