大学生课件_数学建模_多元统计分析建模

上传人:w****6 文档编号:127686484 上传时间:2020-04-04 格式:PPT 页数:45 大小:2.49MB
返回 下载 相关 举报
大学生课件_数学建模_多元统计分析建模_第1页
第1页 / 共45页
大学生课件_数学建模_多元统计分析建模_第2页
第2页 / 共45页
大学生课件_数学建模_多元统计分析建模_第3页
第3页 / 共45页
大学生课件_数学建模_多元统计分析建模_第4页
第4页 / 共45页
大学生课件_数学建模_多元统计分析建模_第5页
第5页 / 共45页
点击查看更多>>
资源描述

《大学生课件_数学建模_多元统计分析建模》由会员分享,可在线阅读,更多相关《大学生课件_数学建模_多元统计分析建模(45页珍藏版)》请在金锄头文库上搜索。

1、多元统计分析建模方法 目录 一 二 三 四 五 聚类分析 主成分分析 典型相关分析 历史建模试题 数据处理方法 在进行判别分析时 经常遇到不同类别的数据难以做到 楚汉分明 同一类的数据不服从正态分布 此时需要先将原始数据进行处理 1 boxcox变换 x 0 其中x为原始数据 y为变换后的数据 数据处理方法 一 在MATLAB中 上述变换的命令如下 t l boxcox x 其中x是原始数据 列向量 t是变换以后的数据 l是变换公式中参数 的数值 例1 1949 1991淮河流域成灾面积说明如何利用上述的变换使得数据从不具备正态分布到符合正态分布 图11949 1991淮河流域成灾面积qq图

2、从图上可以看出散点并不聚集在直线上 因此流域成灾面积 原始数据 不服从正态分布 这一点也可以通过jbtest检验来证实 但是通过变换以后的图形如图2所示 显然数据服从正态分布 图2流域成灾面积 变换后数据 qq图 表1 1991各地区居民月人均消费数据 下面以人均粮食支出x1为例 进行正态检验 x1 8 359 258 197 739 429 1610 069 099 418 706 938 679 986 778 147 677 907 188 826 2510 607 2713 4510 857 21 7 687 787 948 2812 47 h p jbtest x1 y t boxc

3、ox x1 h p jbtest y 表2 正态检验 例2做出x1 x3的散点图 可否区别开 解 输入原始数据a 8 3523 537 518 6217 42101 0411 21 12 4776 395 5211 2414 52225 4625 5 plot a 3 holdon plot a 1 or legend x3 x1 图3x1 x3的散点图 y3 t3 boxcox a 3 y1 t1 boxcox a 1 plot y3 holdon plot y1 or legend y3 y1 图4变换后散点图 练习 对1991年人均消费数据练习boxcox变换与正态分布检验 2 其他变换

4、公式 标准化 设有数据x x1 x2 xn MATLAB命令 y zscore x 规格化 设有数据x x1 x2 xn 0 1 之间 MATLAB y x min x range x 如果x为m行n列矩阵 列为指标 则命令为 y x ones m 1 min x ones m 1 range x 此时y仍然是m行n列的一个矩阵 模糊交集与模糊并集 设x x1 x2 xn y y1 y2 yn xi yi 0 1 爱因斯坦积 爱因斯坦和 注意 zi wi仍然 0 1 且有zi xi wi zi yi wi 二 聚类方法 1 模糊C均值聚类 定义目标函数为 显然J U V 表示了各类中样本到聚类

5、中心的加权距离平方和 权重是样本xk对第i类隶属度的m次方 聚类准则取为求的极小值 min J U V 其中聚类中心为 其中 在Matlab中 m 2 我们只要直接调用如下程序即可 center U fcn fcm data cluster n data 要聚类的数据集合 每一行为一个样本 cluster n 聚类数 大于1 Center 最终的聚类中心矩阵 其每一行为聚类中心的坐标值 U 最终的模糊分区矩阵 fcn 在迭代过程中的目标函数值 注意 使用上述方法时 要根据中心坐标center的特点分清楚每一类中心代表的是实际中的那一类 才能准确地将待聚类的各方案准确地分为各自所属的类别 例3

6、2007年安徽省各地市工业企业效益指标如下表所示 请利用模糊C均值聚类方法分为三类 表3 安徽工业企业数据 b 39 63 输入数据作为一个矩阵 center U fcn fcm b 3 模糊C均值聚类 解 Matlab中计算的程序如下 得到输出的结果为 center 746 0614237 5902141 0734769 5504653 425036 2240281 0558104 409275 5785287 9557230 567613 9213118 704341 051719 6115107 827883 16356 7159 此时 center的每一行就是每一类最终的中心坐标 由效

7、益型指标可知 第一行表示效益最好的一类 第三行表示效益最差的一类 第二行则介于两者之间 U 0 80820 00410 00220 00030 01220 01030 00710 00800 00100 11540 94790 02480 00470 58270 31440 95790 85230 01610 07640 04800 97300 99500 40510 67530 03510 13960 98290 98610 00640 88960 00470 70690 01170 04670 01050 00910 14820 07520 09870 20460 09440 84570

8、08720 00480 84540 03530 89660 08850 89390 10760 9023 U共有17列 每一列表示一个地区关于三类的隶属度 每一列最大值所在的行数即为该地区的类别 Y sort U Y I sort U 排序L1 find I 3 1 L2 find I 3 2 L3 find I 3 3 检索 下面给出MATLAB检索类别的方法 此时 Li输出的是第i类的样本号码 即原始数据行号 表4 2001 2005年灾情数据 上网查找2005年以后的数据 然后分为三类 灾害较重 灾害一般 灾害较轻 主成分分析 三 主成分分析的主要目的是希望用较少的变量去解释原来资料中的

9、大部分变异 将我们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量 通常是选出比原始变量个数少 能解释大部分资料中的变异的几个新变量 即所谓主成分 并用以解释资料的综合性指标 由此可见 主成分分析实际上是一种降维方法 主成分分析用于投资组合风险管理 企业效益的综合评价 图像特征识别 机械加工或传感器故障检测 灾害损失分析 如果将主成分分析技术与聚类分析 判别分析以及回归分析方法相结合则可以解决更多实际问题 1 主成分的基本思想 设x1 x2 xp 为p个n维随机变量 p项指标 在统计学中 经常使用原始指标的线性组合所构成的综合指标来代替原有的指标 即 要求Yi尽可能地反映原有P个变量的

10、信息 这里的 信息 用Yi方差来度量 即要求var Yi l1T l1达到最大 为此我们需要对系数向量加以限制即满足约束条件 求l1使var Y1 取最大值 由此l1所确定的随机变量Y1称为随机变量的第一主成分 如果第一主成分Y1还不足以反映原变量的信息 则进一步求Y2 为了使Y1和Y2所反映原变量的信息不相重叠 要求Y1和Y2不相关 即 于是 在约束条件下 求l2使得var Y2 达到最大 由此所确定的随机变量Y2称为的第二主成分 一般地 求第i个主成分Yi 则要求其系数及主成分满足以下条件 1 系数向量是单位向量 即 2 不同的主成分不相关 没有重叠信息 即 3 各主成分的方差递减 重要性

11、递减 即 Y1 Y2 Yp依次称为第一主成分 第二主成分 第p个主成分 无量纲化 2 主成分分析的计算步骤 设有n个样本 p项指标的数据矩阵 令 则实现无量纲化 在MATLAB中 Y X ones n 1 std X 构造矩阵Y的实对称矩阵 通常用协方差矩阵 或相关系数矩阵R 计算 或R的特征值与相应的特征向量 根据特征值计算累计贡献率 确定主成分的个数 而特征向量就是主成分的系数向量 MATLAB cov Y R corrcoef Y V D eig R D为对角矩阵 主对角为特征值 V的每一列为特征值对应的特征向量 计算主成分的数值 即主成分得分 注意 利用第一主成分得分排序要满足两个条件

12、 最大特征值对应的特征向量是正向量 贡献率 50 例4 根据x1工业总产值 x2工业销售产值 x3流动资产年平均余额 x4固定资产净值年平均余额 x5业务收入 x6利润总额等六项指标进行主成分分析 1 选取指标是否合适 2 给出各市大中型工业企业排名 表5 安徽工业数据 解 首先输入数据A data data即表中数据R corrcoef A 得到的相关系数矩阵为 由于r12 r21 1 表明指标x1 x2完全线性相关 故只需保留一个指标 A A 2 6 ones 17 1 std A 2 6 消除量纲 v d eig corrcoef A 计算特征值与特征向量 w sum d sum sum

13、 d 计算贡献率F A ones 17 1 mean A d 5 计算主成分得分 F1 I1 sort F descend I1给出各名次的序号 F2 I2 sort I1 I2给出各市排名 表6 特征值 特征向量及贡献率 表7 各市第一主成分得分排名 练习 1 根据软件输出结果 写出第一 第二主成分的公式 2 将各地区分成三类 比较主成分排名与分类是否具有一致性 3 因子载荷矩阵 例4得到第一主成分公式为F1 0 4595x2 0 4552x3 0 4158x4 0 46x5 0 4441x6 我们称主成分Yi与指标Xj的相关系数 为Yi在Xj上的因子载荷量 因子载荷用于解释第j个变量对第i

14、个主成分的重要程度 计算可得第一主成分与五个指标的载荷分别为 0 98670 97730 89270 98760 9535 四 在实际问题中 经常遇到研究两组随机变量之间的相关性 比如工厂管理人员需要了解原料的主要质量指标与产品的主要质量指标之间的相关性 以便提高产品质量 医生要根据一组化验指标确定与一些疾病之间的关系 主教练排兵布阵要考虑自己的队员与对手之间的相生相克以便制定更好的对策 等等 受主成分分析的启发 对每组变量分别构造线性组合 将两组变量之间的相关性转化为两个变量之间的相关性进行研究 典型相关分析示意图如图4 7所示 图4 7典型相关分析示意图 1 总体典型变量的定义 设有两组随

15、机变量 XT YT T X1 X2 Xp Y1 Y2 Yq T的协方差矩阵为 11 cov X 22 cov Y 12 T21 cov X Y 注意 的维数p q阶方阵 11p阶方阵 22q阶方阵 根据典型相关的思想 分别考虑X Y的线性组合 其中a1 a11 a12 a1p T b1 b11 b12 b1q T 则U1 V1的相关系数为 在约束条件a1T 11a1 b1T 22b1 1下 求 a1 b1 使得 u1 v1 a1T 12b1取得最大值 如果 U1 V1 还不足以反映X Y之间的相关性 还可构造第二对线性组合 使得 U1 V1 与 U2 V2 不相关 即cov u1 u2 cov

16、 u1 v2 cov u2 v1 cov v1 v2 0在约束条件Var u1 Var v1 Var u2 Var v2 1下求a2 b2 使得 u2 v2 a2T 12b2取得最大值 一般地 若前k 1对典型变量还不足以反映X Y之间的相关性 还可构造第k对线性组合 在约束条件Var uk Var vk 1 及cov uk uj cov uk vj cov vk uj cov vk vj 0 1 j k 求ak bk 使得 uk vk akT 12bk取得最大值 如此确定的 uk vk 称为X Y的第k对典型变量 相应的 uk vk称为第k个典型相关系数 2 总体典型变量与典型相关系数的计算 1 计算矩阵 XT YT T的协方差矩阵 2 令求A B的特征值 12 22 p2与对应的正交单位特征向量ek fkk 1 p 3 X Y的第k对典型相关变量为 3 典型相关分析的Matlab实现 设X xij n p Y yij n q是取自总体的观测数据 典型相关分析的步骤如下 输入数据并计算协方差矩阵 a X Y 此前X Y的数据应该已经输入 n m size a R cov a 计算典型

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号