数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章 判别分析

上传人:E**** 文档编号:89185377 上传时间:2019-05-20 格式:PPT 页数:28 大小:524KB
返回 下载 相关 举报
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章  判别分析_第1页
第1页 / 共28页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章  判别分析_第2页
第2页 / 共28页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章  判别分析_第3页
第3页 / 共28页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章  判别分析_第4页
第4页 / 共28页
数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章  判别分析_第5页
第5页 / 共28页
点击查看更多>>
资源描述

《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章 判别分析》由会员分享,可在线阅读,更多相关《数据分析(第二版) 教学课件 ppt 作者 范金城 梅长林 第5章 判别分析(28页珍藏版)》请在金锄头文库上搜索。

1、第5章 判别分析,5.1 距离判别 5.1.1 判别分析的基本思想与意义 设研究对家用某种方法已划分为若干类型,当得到一个新的样品数据;要确定该样品属于哪一类,此类问题属于判别分析. 模型: 个总体 ,皆 元总体 对新样品数据 ,来判断它来自哪个总体 的情形较常见. 由于判别准则的不同,有各种不同的判断方法,本章主要介绍距离判别与 Bayes判别.,5.1.2 两个总体的距离判别 欧氏平方距离 ,欧氏距离 .欧氏距离在判别分析中不甚合适,而是应采用马氏距离. 定义 (1) 是从均值向量为 协方差矩阵 的总体取出的样品. 马氏平方距离 与总体 马氏平方距离 (2) 两总体 马氏平方距离 马氏平方

2、距离 与总体 马氏平方距离 马氏距离满足距离三条基本性质.,距离判别准则 判别样品 , 若 , 若 . 1. 当 计算可证(自学) 其中 判别准则: , 若 , 若 .,证 其中 则 判别准则 (简化) , 若 , 若 训练样本 容量 训练样本 容量 当 时, 的一个无偏估计是 (自证),线性判别函数 和 估计各为 其中 其中 其中 判别法 若 或 若 若 若 2. 令 判别法 若 若,实际中,用 ,分别估计 . 判别法 若 若 5.1.3 判别法则的评价 考察判别法则的优良性,要考察误判率 1.误判率回代估计 训练样本容量 训练样本容量 全体训练样本逐个代入判别准则确定其归属,称回判,得结果

3、: 回判率回代估计,2.误判率交叉确认估计 步骤: 1) 对 的 个样品,剔除一个,用剩余 个与 的 个样品建立判别函数 2) 用建立的判别函数对剔除的样品作判别 3) 重复1),2),直到 中的 个样品依次被剔除,又进行判别,其误判样品个数证为 4) 对 的样品重复步骤1),2),3),记误判样品个数为 . 误判率交互确认估计 例5.2 国家财政历年用于科学研究的支出(单位:亿元) 合计 科技三项费用 科学支出 科研基建费 其他科研事业费,历年国家财政用于科学研究的支出(单位:亿元),待判样品为2001年,2002年数据, 如下: 2001 703.26 359.64 223.08 63.3

4、7 53.17 2002 816.22 398.60 269.85 69.99 77.78 1) 进行距离判别,并计算误判率的回代估计与交叉确认估计. 对待判样品进行判别. 解 1) 由 PROC DISCRIM 过程,算得线性判别函数 误差率的回代估计与交叉确定确定估计皆为0 2) ,计算得到样品2001,2002皆属于总体 5.1.4 多个总体的距离判别 个总体,1.总体协方差矩阵相等 其中 距离判别准则:若 满足 判定 训练样本,多总体距离差判别准则: 若 满足 判定 不全等 记 判别准则: 若 满足 判定 实际中 判别准则: 若 满足 判定,例 5.3 各地区电力消费量(单位:亿千瓦小

5、时) 2000年电力消费量 2002年电力消费量 2003年电力消费量 2004年电力消费量 2005年电力消费量 2006年电力消费量,待判样品为青海、宁夏、新疆. 如下: 青海 109.10 125.51 150.16 189.76 206.58 244.41 宁夏 136.17 178.76 212.12 270.01 302.88 377.85 新疆 182.98 214.80 236.10 266.41 310.14 356.20 进行距离判别,并计算误判率的回代估计与交叉确认估计. 对待别样品进行判别. 解 1) 由 PROC DISCRIM 过程,算得线性判别函数 误判率的回代估

6、计为0. 交叉确认法河北由“3”判为“1”,上海由“3”判为“2”,河南由“1”判为“3”,湖北由“2”判为“3”,四川由“3”判为“2”,误判率的交互确认估计为(7/3+1/17+3/7)/3=0.2736 2) 三个待判样品皆判为“2”,即属 .,5.2 Bayes 判别 5.2.1 Bayes 判别的基本思想 设 为k个p元总体.每个总体出现通常有不同的规律,一个待判样品首先考虑判入有较大可能出现的总体之中. 上节考虑的距离判别,实际上是认为各个总体出现是等概率的. 先从两总体的 Bayes 判别谈起. 5.2.2 两个总体的 Bayes 判别 1.一般讨论 概率密度 概率密度,元欧氏空

7、间 ,其一个划分 满足 距离判别 一个划分 相当于一落千丈个判别准则,在判别准则下, 将来自 的样品误判为 的概率 将来自 的样品判为 的概率 得到样品 ,由 Bayes 公式,总体 的后验概率,两个总体的 Bayes 判别准则: 若 若 定理 最优划 使得平均误判概率 达到最小. 证 取 可得 这时, 由后验概率公式,得证.,2.两个正态总体的 Bayes 判别 (1) 证 得 两个正态总体的 Bayes 判别准则 若 若,实际中,以 , 代 线性判别函数 其中 得 实际中,以 代 . 其中 两个总体 Bayes 判别准则 若 若,得到 与 Bayes 判别法则形式,仍如上, 其中 3. 误

8、判率的计算 定理 对于最优划分 ,平均误判概率 其中 (证略) 先验概率选取方法,对于回代估计 等概率: 对应于距离判别. 按比例分配: 对交互确认估计类似讨论.,例 5.5 (续5.2) 数据见例5.2,讨论国家财政用于科学研究的支出(单位:亿元).待判样品为2001,2002年数据. 1) 进行Bayes判别(先验概率按比例分配),并计算误判率的回代估计与交叉确认估计. 2) 对待判样品进行判别. 解 1) 由PROC DISCRIM 过程,先验概率按比例分配 算得线性判别函数 它们与距离判别仅常数项不同. 误判率回代估计与交叉确认估计皆为0. 2) 计算得到样品2001,2002皆属于总

9、体 .,5.2.3 多个总体的 Bayes 判别 1.一般讨论 设有 个总体 ,概率密度 先验概率 一个判别准则相当于 的一个划分 ,满足 来自 的样品误判为 的概率 且 来自 的样品误判为其他总体的概率 误判的平均概率,定理 令 则 是 的最优划分. 证 则取上述 时, 是 的一个划分, 且 ,故它是最优分. Bayes 公式 多个总体 Bayes 判别准则 对样品 当 判定 证 由 Bayes 公式,最优划分,例 5.6 (续例 5.3) 数据见例5.3.讨论各地区电力消费量(单位:亿千瓦小时).待判样品为青海、宁夏、新疆数据 1)进行 Bayes 判别(先验概率按比例分配),并计算误判率

10、的回代估计与交叉确认估计 2) 对待判样品进行判别 解 1) 由PROC DISCRIM 过程,先验概率按比例分配 线性判别函数各变量系数与距离判别相同(见例5.3) 而常数项 为-59.27144, 为-4.427784, 为-18.61532误判率的回代估计为0.误判率的交叉确认估计为 ,河北由“3”判为“1”,山西由“3”判为“2”,上海由“3”判为“2”,山东由“1”判为“3”,四川由判“3”为“2”(误判情况与距离判别不同). 2)计算得到样品青海、宁夏、新疆皆属于 .,回代法回判结果及后验概率 Posterior Probability of Membership in c Cla

11、ssified d From c into c 1 2 3 北京 2 2 0.0000 0.9739 0.0261 天津 2 2 0.0000 0.9995 0.0005 河北 3 3 0.0481 0.0002 0.9571 山西 3 3 0.0000 0.4650 0.5350 内蒙古 2 2 0.0000 0.9983 0.0017 辽宁 3 3 0.0000 0.0293 0.9707 吉林 2 2 0.0000 0.9997 0.0003 黑龙江 2 2 0.0000 0.9656 0.0344 上海 3 3 0.0000 0.3679 0.6321 江苏 1 1 1.0000 0.

12、0000 1.0000,浙江 3 3 0.0000 0.0000 1.0000 安徽 2 2 0.0000 0.9958 0.0042 福建 2 2 0.0000 0.9481 0.0519 江西 2 2 0.0000 0.9998 0.0002 山东 1 1 0.9995 0.0000 0.0005 河南 3 3 0.0000 0.0010 0.9990 湖北 2 2 0.0000 0.7318 0.2682 湖南 2 2 0.0000 0.9788 0.0212 广东 1 1 1.0000 0.0000 0.0000 广西 2 2 0.0000 0.9976 0.0024 海南 2 2 0.0000 1.0000 0.0000 重庆 2 2

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号