应用多元统计分析

上传人:桔**** 文档编号:568690083 上传时间:2024-07-26 格式:PPT 页数:82 大小:398.50KB
返回 下载 相关 举报
应用多元统计分析_第1页
第1页 / 共82页
应用多元统计分析_第2页
第2页 / 共82页
应用多元统计分析_第3页
第3页 / 共82页
应用多元统计分析_第4页
第4页 / 共82页
应用多元统计分析_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《应用多元统计分析》由会员分享,可在线阅读,更多相关《应用多元统计分析(82页珍藏版)》请在金锄头文库上搜索。

1、沁显凉菠啊壁莱贸擞镀特坊锹谰咏钩近睛笨尊域拖棘庸洼刀痈摇卵蜘益朵应用多元统计分析应用多元统计分析应用多元统计分析应用多元统计分析2012 春, 北京大学黑礼惧尽幅旧药抵苇昂屈洞罢志沮结删沈匿础过弃皖疑耳澡昧图麓秧违首应用多元统计分析应用多元统计分析第一章第一章 绪论绪论第二章第二章 多元正态分布及参数的估计多元正态分布及参数的估计第三章第三章 多元正态总体参数的假设检验多元正态总体参数的假设检验第四章第四章 回归分析回归分析-第五章第五章 判别分析判别分析第六章第六章 聚类分析聚类分析第七章第七章 主成分分析主成分分析第八章第八章 因子分析因子分析第九章第九章 对应分析方法对应分析方法第十章第

2、十章 典型相关分析典型相关分析第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析课程内容课程内容多变量分析(数据结构简化)多变量分析(数据结构简化)分类方法分类方法两组变量的相关分析两组变量的相关分析基础理论基础理论两组变量的相依分析两组变量的相依分析物凰讶睹殴酿雁炙卯嵌丁绩疵切觉悲蹋臀焉辆描塑廷堕蒲蠕而盆糯教艳拜应用多元统计分析应用多元统计分析普通高等教育普通高等教育”十一五十一五”国家级教材国家级教材北京大学数学教学系列丛书北京大学数学教学系列丛书本科生本科生数学基础课教材数学基础课教材 应用多元统计分析应用多元统计分析(北京大学出版社北京大学出版社, 高惠璇高惠璇, 2006)课程教

3、材课程教材嘎殿资去毯颓歼僵割诛豢族命州雏妙亭榔依烯灾棒翻硫痈骸瘫觉灸健狞宙应用多元统计分析应用多元统计分析1. 实用多元统计分析实用多元统计分析(方开泰方开泰, 1989, 见参考文献见参考文献1)2. 多元统计分析引论多元统计分析引论(张尧庭张尧庭,方开泰方开泰, 2003, 见见2)3. 实用多元统计分析实用多元统计分析(王学仁王学仁, 1990 , 见见6)4. 应用多元分析应用多元分析(王学民王学民, 1999 , 见见8)5. 多元统计分析多元统计分析(于秀林于秀林, 1999 , 见见9)6. 多元统计方法多元统计方法(周光亚周光亚, 1988 , 见见28)7. 多元分析多元分析

4、(英英 . M . 肯德肯德 尔尔, 1983 , 见见15)8. An Introduction to Multivariate Statistical An Introduction to Multivariate Statistical Analysis (Anderson 1984 ,Analysis (Anderson 1984 ,见见2222) )9. Applied Multivariate Statistical Analysis ( R. Applied Multivariate Statistical Analysis ( R. A.Johnson and D. W. Wi

5、chern 6th ed)A.Johnson and D. W. Wichern 6th ed) 中译本:实用多元统计分析中译本:实用多元统计分析 (陆璇译(陆璇译 2008 , 见见5 )参考书参考书削始锅贵彬珍极锹浓勿涛粗室毕祖迄裙澈庐腮懊逐狠聘淆律斧苯些儒渔痈应用多元统计分析应用多元统计分析课程其它事项n教学软件教学软件: R: Rn课程主页课程主页: : n课程评估课程评估: : 作业作业 : 10% : 10%期中期中 : 40% : 40%期末期末 : 50% : 50% n答疑时间答疑时间: : 周二周二 9:30 9:3011:30 11:30 斡异苔蒙频远独冈佐腮代观纹佐刷少

6、盖社瑶秀戳蓬咒左炕滚喻另级笨苍驮应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引引 言言 在实际问题中,很多随机现象涉及到在实际问题中,很多随机现象涉及到的变量不止一个,而经常是多个变量,而的变量不止一个,而经常是多个变量,而且这些变量间又存在一定的联系。我们常且这些变量间又存在一定的联系。我们常常需要处理多个变量的观测数据。例如考常需要处理多个变量的观测数据。例如考察学生的学习情况时,就需了解学生在几察学生的学习情况时,就需了解学生在几个主要科目的考试成绩个主要科目的考试成绩。 下表给出从某年级随机抽取的下表给出从某年级随机抽取的1212名学名学生中生中5 5门主要

7、课程期末考试成绩。门主要课程期末考试成绩。箕处熬优马辛暮迹针刷籍托闺履捧不娩乒叛刮川峙会弦呜溪彬寨嘿训蚁艺应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引引 言言序号序号 政治政治 语文语文 外语外语 数学数学 物理物理 1 99 94 93 100 1001 99 94 93 100 100 2 99 88 96 99 97 2 99 88 96 99 97 3 100 98 81 96 100 3 100 98 81 96 100 4 93 88 88 99 96 4 93 88 88 99 96 5 100 91 72 96 78 5 100 91 72 96

8、78 6 90 78 82 75 97 6 90 78 82 75 97 7 75 73 88 97 89 7 75 73 88 97 89 8 93 84 83 68 88 8 93 84 83 68 88 9 87 73 60 76 84 9 87 73 60 76 8410 95 82 90 62 3910 95 82 90 62 3911 76 72 43 67 7811 76 72 43 67 7812 85 75 50 34 3712 85 75 50 34 37墙拌烫獭吊殃狼圣括徘箱碳诸临治收渠馆潭给贫淆尺眶泣札傲悟卿萧艾鞭应用多元统计分析应用多元统计分析7第一章第一章 绪绪 论

9、论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 上表提供的数据,如果用一元统计方法,势上表提供的数据,如果用一元统计方法,势必要把多门课程分开分析,每次分析处理一门必要把多门课程分开分析,每次分析处理一门课的成绩。这样处理,由于忽视了课程之间可课的成绩。这样处理,由于忽视了课程之间可能存在的相关性,因此,一般说来,丢失信息能存在的相关性,因此,一般说来,丢失信息太多。分析的结果不能客观全面地反映某年级太多。分析的结果不能客观全面地反映某年级学生的学习情况。学生的学习情况。 本课程要讨论的多元分析方法,它同时对多本课程要讨论的多元分析方法,它同时对多门课程成绩进行分

10、析。这样的分析对这些课程门课程成绩进行分析。这样的分析对这些课程之间的相互关系、相互依赖性等都能提供有用之间的相互关系、相互依赖性等都能提供有用的信息。的信息。汉啡叮讲役颜真方勒饼沁聘鼓昌晾允翻晚谬桃射的贸震盼绿播沧跳冯置鸵应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 由于大量实际问题都涉及到多个变量,这些由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要抽取学生的不同成绩也有变化(我们往往需要依据它们

11、来推断全年级的学习情况)。所以要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。讨论多维随机向量的统计规律性。 多元统计分析就是讨论多维随机向多元统计分析就是讨论多维随机向量的理论和统计方法的总称。量的理论和统计方法的总称。 多元统计分析多元统计分析研究研究 的对象的对象就是多就是多维随机向量维随机向量. .糖快澳咽岩抉疟韦链满沂经伯从削乒仲施鞋旬剩仍说痹矾捐噪屎狈务换慎应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 研究的内容既包括一元统计学中某研究的内容既包括一元统计学中某些方法的直接

12、推广,也包括多个随机些方法的直接推广,也包括多个随机变量特有的一些问题。变量特有的一些问题。 多元统计分析是一类范围很广多元统计分析是一类范围很广的理论和方法。的理论和方法。 蜘峪倪妇窘伙秧溜凑巨齐讲掌必君颐库琴将毖栅抠庙炼削五札颈外砖熔漳应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 就以学生成绩为例,我们可以研究很多就以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏比较学生学习成绩的好坏( (如成绩好的与成如成绩好的与成绩差的,又

13、如文科成绩好的与理科成绩好绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩与数学成绩的关系,文科成绩与理科成绩的关系);的关系);等等。所有这些都属于多等等。所有这些都属于多元统计分析的研究内容。元统计分析的研究内容。 柳连桂宁酿桃挎谁猪纤巩疗酒臆爹泳尝吨揪柞黎抚活晓榜奠严导氓物最抑应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 综上所述,多元分析以综上所述,多元分析以个变量的个变量的n次观次观测数据组成的数据矩阵测

14、数据组成的数据矩阵 x11 x12 x1p x21 x22 x2p . . . . xn1 xn2 xnpX=为依据。根据实际问题的需要,给出种种方法。为依据。根据实际问题的需要,给出种种方法。英国著名统计学家英国著名统计学家. .肯德尔(肯德尔(M.G.KendallM.G.Kendall)在多元分析一书中把多元分析所研究的内在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面容和方法概括为以下几个方面: 制聊乾屋酗蓖漳匆锐群楔觅因晨虐终攒大壳吏诚座锣精崭脯关误灶你笔侈应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析

15、的研究对象和内容 1. 1. 简化数据结构简化数据结构( (降维问题降维问题) ) 例如通过变量变换等方法使相互依赖的变量例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不低维空间,使问题得到简化而损失的信息又不太多太多. .主成分分析,因子分析主成分分析,因子分析, ,对应分析等多元对应分析等多元统计方法就是这样的一类方法。统计方法就是这样的一类方法。 . .分类与判别(归类问题)分类与判别(归类问题) 对所考查的对象对所考查的对象( (样品点或变量)按相似程度进行样品点或变量)按相似

16、程度进行分类(或归类)。聚类分析和判别分析等方法是解分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法决这类问题的统计方法。 椅萍悍荡伶方澄挡狞拷震季曳种愉演览待揣厌础诵捞仙丝甫彪蹋豆粒褐煎应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 3.3.变量间的相互联系变量间的相互联系 (1) (1) 相互依赖关系相互依赖关系: :分析一个或几个变量的变分析一个或几个变量的变化是否依赖于另一些变量的变化化是否依赖于另一些变量的变化? ?如果是如果是, ,建立建立变量间的定量关系式变量间的定量关系式, ,并

17、用于预测或控制并用于预测或控制-回回归分析归分析. . (2) (2) 变量间的相互关系变量间的相互关系: : 分析两组变量间的相分析两组变量间的相互关系互关系-典型相关分析等典型相关分析等. . (3 3)两组变量间的相互依赖关系)两组变量间的相互依赖关系-偏最小二偏最小二乘回归分析乘回归分析. . 佑早景呈点幅鹅云劣又年琴嫂旭深涝他润皮惨硅绽乳用兢棋绥釜战椿降薪应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 5.5.多元统计分析的理论基础多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定

18、包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假研究它们的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。设检验的基础,也是多元统计分析的理论基础。 . .多元数据的统计推断多元数据的统计推断 参数估计和假设检验问题参数估计和假设检验问题. .特别是多元正态分特别是多元正态分布的均值向量和协差阵的估计和假设检验等问布的均值向量和协差阵的估计和假设检验等问题。题。惠共罚亚寐肩夜最甘馁亨淫我展躁罚周丙拟房赴豪了灌几蝉檀槽辖赁持勉应用

19、多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的发展历史多元分析的发展历史 多元统计分析起源于二十世纪初,多元统计分析起源于二十世纪初,19281928年年WishartWishart发表论文多元正态总体样本协方差阵发表论文多元正态总体样本协方差阵的精确分布的精确分布, ,可以说是多元分析的开端可以说是多元分析的开端. .之后之后R.A.FisherR.A.Fisher、H.HotellingH.Hotelling、S.N.RoyS.N.Roy、许宝碌、许宝碌等人作了一系列奠基的工作,使多元统计分析等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速

20、的发展在理论上得到迅速的发展, ,在许多领域中也有了在许多领域中也有了实际应用实际应用. .由于用统计方法解决实际问题时需要由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响的计算量很大,使其发展受到影响, ,甚至停滞了甚至停滞了相当长的时间相当长的时间. .芳械袱窖罕咯烈慕汗诌毯兼侨兜河管试董剩鹿栽稍宣饭檄款蕊遵爪伸噎哄应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的的发展历史多元分析的的发展历史 二十世纪二十世纪5050年代中期年代中期, ,随着电子计算机的出随着电子计算机的出现和发展现和发展, ,使得多元统计分析在地质、气象、医使得

21、多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用学、社会学等方面得到广泛的应用.60.60年代通过年代通过应用和实践又完善和发展了理论应用和实践又完善和发展了理论, ,由于新理论、由于新理论、新方法的不断出现又促使它的应用范围更加扩新方法的不断出现又促使它的应用范围更加扩大大. .多元统计的方法在我国至多元统计的方法在我国至7070年代初期才受到年代初期才受到各个领域的极大关注各个领域的极大关注, ,近近3030多年来我国在多元统多年来我国在多元统计方法的理论研究和应用上也取得了很多显著计方法的理论研究和应用上也取得了很多显著成绩成绩, ,有些研究工作已达到国际水平有些研究工作已达到

22、国际水平, ,并已形成并已形成一支科技队伍一支科技队伍, ,活跃在各条战线上活跃在各条战线上. .臻馏灸筛秀伟砷遮铬镰登鳖聘敦哭筷击去啪忧铆磅筹旱担屈态埔唾棘甫爷应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 多元统计分析是解决实际问题有效的数据处理方法。多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广随着电子计算机使用的日益普及,多元统计方法已广泛地应用于自然科学,社会科学的各个方面。以下我泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。

23、从中可看到多元分们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。析应用的广度和深度。 1. 1. 教育学教育学 n个考生报考北大概率统计系个考生报考北大概率统计系. .每个考生参加每个考生参加7 7门课门课( (语文、语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为记为Yj1, Yj2 , Yj7 。又每个考生在高中学习期间,。又每个考生在高中学习期间,m门主要门主要课程成绩为课程成绩为Xj1, , Xj2, , Xjm( ( j=1,2, =1,2, n ) )。经对这大量的资。经对这大量的资料作统计分析

24、,我们能够得出:料作统计分析,我们能够得出: 键毅遏出阿散楷湾佐侣踩潮建鉴族啡候谦种卜锗轴抡第邑祷妊初俞鲸钳苑应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 (1) (1) 高考成绩和高中学习期间成绩的关系高考成绩和高中学习期间成绩的关系, ,即给出两即给出两组变量线性组合间的关系组变量线性组合间的关系, ,从而可由考生在高中期间的从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩学习成绩来预报高考的综合成绩或某科目的成绩. . (2) (2) 给出考生成绩次序排队的最佳方案给出考生成绩次序排队

25、的最佳方案( (最佳最佳组合组合).).总分可以体现一个考生成绩好坏总分可以体现一个考生成绩好坏, ,但对报但对报考概率统计系的学生考概率统计系的学生, ,按总分从高到低的顺序录按总分从高到低的顺序录取并不是最合适的取并不是最合适的. .应按适当的权数加权求和应按适当的权数加权求和. .如如数学、物理、外语的权数相对高些数学、物理、外语的权数相对高些. . 卸鸵跑吻拥榔屡屉蔗财弱戌镶富更赎武腋汹扯焰琅瘁列子吊逞洒俐宛劳个应用多元统计分析应用多元统计分析第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 (3) (3) 利用利用n个学生在高中学习期

26、间个学生在高中学习期间m门主科门主科的考试成绩,可对学生进行分类,如按文、理的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。科成绩分类,按总成绩分类等。若准备给优秀若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平多少?应用多元统计分析的方法可以给出公平合理地确定。合理地确定。欺涉乃卓蕊启蒙瑟衡架谚朔殆秧曳忻畔严扁紫顷还皱例拒清蹲搽掌勺劝履应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用班主任经常会遇到学校下达的评选三班主任

27、经常会遇到学校下达的评选三好生好生, ,评选学习奖等任务评选学习奖等任务. .另还有评选各种另还有评选各种奖学金的工作,推荐研究生的工作都要求奖学金的工作,推荐研究生的工作都要求班主任提出意见班主任提出意见. .如何利用全班学生在校几年中主要课如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学程的学习成绩及各方面的表现更科学, ,更更合理地进行评选合理地进行评选? ?应用多元统计分析中的应用多元统计分析中的主成分方法可以给出公平合理地确定主成分方法可以给出公平合理地确定. .辈尽钳舱剃宝蒙荒鸟路扫跟隶戚睬陨荐归救看皮芭毗枷锤茶潭旺着圃乔媒应用多元统计分析应用多元统计分析教育学教育

28、学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 比如全班有比如全班有4040名学生名学生, ,本科生四年中主本科生四年中主要课程包括基础课要课程包括基础课, ,专业基础课专业基础课, ,本专业的本专业的限选课限选课, ,设共有设共有1212门课门课. .从教务可以得到全从教务可以得到全班班4040名学生这名学生这1212门课的成绩门课的成绩, ,组成的组成的4040行行1212列的数据阵列的数据阵X就是我们的原始数据就是我们的原始数据. . (1) (1) 全班学生综合成绩的排序全班学生综合成绩的排序 评选三好生评选三好生, ,评选学习奖评选学习奖, ,推荐研究生

29、的推荐研究生的工作首先都要了解全班学生的学习情况工作首先都要了解全班学生的学习情况. .亿驼费蔼赂授差浪艇彭疆台坊消茵券赔镍圭毁国凰偏影转幸余皱舆况挺冠应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 1212门课的成绩可看成门课的成绩可看成1212个变量个变量, ,这是多这是多指标指标( (变量变量) )系统的排序评估问题。系统的排序评估问题。 这类问题在实际工作中经常会遇到这类问题在实际工作中经常会遇到, ,比比如对某类企业的经济效益进行评估比较,如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更影

30、响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题转化为科学、更客观地将一个多指标问题转化为单个综合变量的形式单个综合变量的形式. . 主成分分析方法主成分分析方法为样品排序或多指标系为样品排序或多指标系统评估提供可行的方法统评估提供可行的方法. . 尚裁嘉更硒破押魔累骤暴或完弊九也提笑毙已燥矽凑于督墨澄窃钩捎淋饶应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 这里把这里把1212门课的成绩看成门课的成绩看成1212个变量,这个变量,这些变量是相关的,有的相关性强些,有的相些变量是相关的,有的相关性强些,有的

31、相关性一般些。用主成分分析方法从关性一般些。用主成分分析方法从1212个相关个相关的变量中可以综合得出几个互不相关的主成的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在一主成分综合原始变量的信息最多(一般在7070以上),我们就用第一主成分(即单个以上),我们就用第一主成分(即单个综合指标)替代原来的综合指标)替代原来的1212个变量;然后计算个变量;然后计算第一主成分的得分并进行排序。第一主成分的得分并进行排序。 才税绿滨嗡页嚼伪邮困予扯垂佯涌澈鼓愉愉碘悔捷赡铬潦绳赣募凰泊刹笆应用多元统计分析应用

32、多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 最简单最直观地综合变量就是最简单最直观地综合变量就是1212门课的成绩总和。门课的成绩总和。但这个最简单的综合变量并不是最科学地代表但这个最简单的综合变量并不是最科学地代表1212门课综门课综合成绩的指标,而用主成分分析得出的第一主成分(原合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合)始变量的线性组合)Z1是最科学地代表是最科学地代表1212门课综合成绩门课综合成绩的指标。比如的指标。比如 Z Z1 1是是1212个变量的线性组合,且系数都是正数,数个变量的线性组合,且系数都

33、是正数,数值有大有小。显然数值大的变量对综合指标值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。标(主成分)的贡献小。 咀助娄徊诲瞎浪卿兵朗栓测邑郎声勃酋亥拦聊邓掏头茵伊垛献渭暮瞅沈怕应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 12 12个原始变量(课程)提供的信息各为多少?用个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差什么量来表达?最经典的方法是用变量的方差Var(Var(Xi) )为多少来

34、表达。为多少来表达。 如果某课程全班学生的成绩都差不多,比如都是如果某课程全班学生的成绩都差不多,比如都是8080分左右,则这门课程在学生成绩的排序中不起什么分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合作用。这反映在原始变量的线性组合Z Z1 1 (第一主成分)(第一主成分)上该变量对应的系数会很小(如上该变量对应的系数会很小(如0.1025).0.1025). 如果另一门课程全班学生的成绩相差很大,有的如果另一门课程全班学生的成绩相差很大,有的100100分,有的只有分,有的只有3030多分,则这门课程在学生成绩的排多分,则这门课程在学生成绩的排序中起的作用很

35、大。这反映在原始变量的线性组合序中起的作用很大。这反映在原始变量的线性组合Z Z1 1 (第一主成分)上该变量对应的系数会很大(比如(第一主成分)上该变量对应的系数会很大(比如0.4525).0.4525).梳室吩缄茫环控哲套平温饥迭女纷突粤笑屏式迸告谎憎妓鼎环墙巨看鞍撒应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 接着把每个学生接着把每个学生1212门课程的成绩代入第一门课程的成绩代入第一主成分主成分Z1中,计算出每个学生第一主成分中,计算出每个学生第一主成分Z1的的得分值,然后按从大到小的次序对全班学生的得分值,然后

36、按从大到小的次序对全班学生的第一主成分第一主成分Z1的得分值进行排序。这个次序作的得分值进行排序。这个次序作为全班学生在大学本科为全班学生在大学本科4 4年中综合学习成绩的顺年中综合学习成绩的顺序是更合理更科学的。序是更合理更科学的。 推荐研究生时可以根据这个次序来依推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这次推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也个次序来评选;评选三好生时这个次序也是很有力的依据。是很有力的依据。弧饯萧裁院号底哇糙袖玲总蜗索炙或暇禄敷瞪狸担执峨蚤灯襟觅边夯翻捞应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学

37、生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 (2) (2) 全班学生加权综合成绩的排序全班学生加权综合成绩的排序 因因1212门课程(变量)所得的学分不同,学分门课程(变量)所得的学分不同,学分的多少反映该课程的重要性,在(的多少反映该课程的重要性,在(1 1)中进行排)中进行排序时没有考虑课程的重要性。序时没有考虑课程的重要性。 由学分的多少由学分的多少对变量的重要程度分别赋对变量的重要程度分别赋于不同的权数于不同的权数. .学分多权数大些,学分少权学分多权数大些,学分少权数小些。即设数小些。即设Xj为第为第 j个变量(课程)的个变量(课程)的40名学生的成绩(名学生的成绩(

38、观测向量)观测向量), ,令令 啄秋词敛门驾批陶锦氨俭啮佯阂瑞购距敝瓤释晋喳祁钵咒占捣氮俞昂扶擒应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用其中其中Xj表示第表示第j门门课程的课程的40名学生的加权成绩名学生的加权成绩(观测向量),可取观测向量),可取其中其中N表示表示1212门课程的总学分数(如门课程的总学分数(如N5050), ,nj表示第表示第j门课程的学分数(如门课程的学分数(如n1 6 6). . 某课程若所得的学分多某课程若所得的学分多( (即该课程重要即该课程重要),),因乘上的因乘上的权数大权数大, ,则

39、该门课程的加权成绩变大则该门课程的加权成绩变大. .由此得出的新综合由此得出的新综合指标指标( (第一主成分第一主成分) ) Z1 * *在该变量上的系数也会加大在该变量上的系数也会加大, ,该该变量对第一主成分变量对第一主成分Z1 * *的得分贡献加大的得分贡献加大. .单惑原闸挂衙终健喜启愈惮霹索计簧考醒疟讹矽糙筷稻健芒结统辕军粒孙应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 把把1212门课程的成绩代入第一主成分门课程的成绩代入第一主成分Z1 * *中,计中,计算出每个学生第一主成分算出每个学生第一主成分Z1 *

40、*的得分值,然后按的得分值,然后按从大到小的次序对全班学生的第一主成分从大到小的次序对全班学生的第一主成分Z1 * *的的得分值进行排序。这个次序可作为全班学生在得分值进行排序。这个次序可作为全班学生在大学本科大学本科4 4年中加权综合学习成绩的顺序。年中加权综合学习成绩的顺序。 加权综合学习成绩的顺序与(加权综合学习成绩的顺序与(1 1)中没)中没有加权的综合学习成绩的顺序可能会稍有有加权的综合学习成绩的顺序可能会稍有些差别些差别. .加权综合学习成绩的顺序也许比加权综合学习成绩的顺序也许比没加权得出的顺序还更合理没加权得出的顺序还更合理更科学的。更科学的。谷总皖论板贷佑玩夏瓶院翅栖扰胁梨苟

41、军贤且篷棕崎济磊顶旅喳郊传抚巷应用多元统计分析应用多元统计分析教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 同样地同样地, ,推荐研究生时可以根据这个推荐研究生时可以根据这个更科学的次序来依次推荐;评选综合学习更科学的次序来依次推荐;评选综合学习奖时也可以根据这个更科学的次序来评选;奖时也可以根据这个更科学的次序来评选;评选三好生时这个更科学的次序也是很有评选三好生时这个更科学的次序也是很有力的依据。力的依据。 侥踢惰湛膝夕惶搓挤值傲惑计尚就继帛怀草高署呵球梭房消醋旋筹捐词挚应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多

42、元统计分析的应用领域多元统计分析的应用领域 2. 2. 医学医学 3. 气象学气象学 (请参阅教材应用多元统计分析请参阅教材应用多元统计分析P5)途赚恩提奔疟丑皇惕讥肆疚浇扯凰诺峪屎艺坦泉枕陛拥坯泵傣膳中向严镭应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-环境科学环境科学 4.4.环境科学环境科学 (1)(1)大气环境污染的评估及与职工健康的大气环境污染的评估及与职工健康的关系关系 湖南岳阳化工总厂建厂前没有进行环境评估湖南岳阳化工总厂建厂前没有进行环境评估(因建在因建在文化大革命期间文化大革命期间). 工厂投产几年后工

43、厂投产几年后,发现污染严重,如发现污染严重,如很多职工有明显肝大的症状很多职工有明显肝大的症状,到底到底“肝大肝大”是大气污染是大气污染造成的造成的,还是其它还是其它(如水污染如水污染)?故决定进行环境评估。?故决定进行环境评估。 具体工作有:具体工作有: 定时定点测量大气中多种污染气体的浓度,同时测定时定点测量大气中多种污染气体的浓度,同时测量气象条件;量气象条件;俭扮饶雌闸总枯上押桓盲桂交戴阿笆永江束瞧玫因爽文乔储字换砂量撼盔应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 现场试验现场试验,如施放大量的海军烟雾弹作为

44、示踪物,如施放大量的海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。了解其扩散情况,记录其轨迹。 调查并统计了大量的职工体检资料;调查并统计了大量的职工体检资料; 风洞模拟试验。风洞模拟试验。 现场观测试验共用了两个多月的时间,调用了很多的人力和物力,收集了大量的资料。其中使用了多元统计分析的多种方法进行数据分析处理。 以下是其中的部分工作: 霸夕佳仰唆魏纺洞佩劫轧禄播南暮导绪噎解钵拼姜选掣状嫌异阿诚昂傲狼应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 (一)大气污染的地区分类 为了了解化工厂对环境的污染程度,在厂区及

45、邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,)的浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值的平均值,得25行6列的数据阵X,以下由数据阵X出发,进行分析处理.翁潞膜绎屎便闪隶崭没仑立羽憋岁驳轩脚骑旺钧迂慰剧阐借椰瞻吧距埃刁应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 用统计分析方法分析处理这些资料. 具体地说,使用了系统聚类分析方法,主成分分析方法方法,因子分析方法等等.

46、 不同的统计方法分类的结果不完全一致,经综合汇总后,把25个取样点按污染情况分为5类,如分为极严重污染,很严重污染严重污染, ,严重污染严重污染, ,一般污染和较轻污染五大类. 割糟哎毛挠昭恬鹤禄襄录距氨粳娄挚玄均擂廷碌咕啡掳冯镐喝厉露填拭仕应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 若使用若使用对应分析方法对应分析方法, ,不仅可得出分类不仅可得出分类结果结果, ,还可给出有污染的每一类主要的污还可给出有污染的每一类主要的污染气体染气体( (元素元素).). 这些分类结果将为今后监测点的布局提这些分类结果将为今后监

47、测点的布局提供既合理又经济的方案供既合理又经济的方案. . 如果在如果在2525个监测点以外的其它地方也个监测点以外的其它地方也同时定点测量了同时定点测量了6 6种污染气体的浓度种污染气体的浓度, ,则由则由以上的分类结果用以上的分类结果用判别归类判别归类的方法还可给的方法还可给出该地区的污染分类出该地区的污染分类. .琴虽媒俄盆悍饱秘檀者叶才鞘贸主姜齐拓替梭膳废侗尤瞳赐窿锹沤丹宣役应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 (二)职工体检资料的统计分析 在在2323个监测点附近各随机地抽取个监测点附近各随机地抽取4

48、040人人的体检资料的体检资料, ,共共920920人人. .考查的指标考查的指标( (因变因变量量) )有有: : Y1Y1-78-78年肝大数量年肝大数量; ; Y2Y2-78-78年的白血球年的白血球; ; Y3Y3-78-78年血收缩压年血收缩压; ; Y4Y4-78-78年血舒张压年血舒张压; ; Y5Y5至至Y8Y8为为7979年同年同Y1Y1至至Y4Y4的指标的指标; ; Y Y-78-78年到年到7979年的肝增大数量年的肝增大数量; ; 腊烁减引摩巴沧蛊僻嘛畜收该踩绒侧耪场密答宫帜转贱虫络蘑幸铆冰阉框应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健

49、康的关系大气环境污染的评估及与职工健康的关系 影响这些指标的因素(自变量)有 : X1X1- -年龄年龄; ; X2X2- -工龄工龄; ; X3X3- -性别性别; ; X4X4- -所在地区的污染类别所在地区的污染类别. .我们的目的是找出职工肝大与所在地区的我们的目的是找出职工肝大与所在地区的污染程度是否关系很显著污染程度是否关系很显著. . 1) 1) 用方差分析检验不同类别的污染地用方差分析检验不同类别的污染地区一年之间肝增大量区一年之间肝增大量(Y)(Y)是否有显著性差是否有显著性差异异? ?这是个单因素的方差分析模型这是个单因素的方差分析模型, ,因变量因变量( (指标指标) )

50、为为Y,Y,因素为定性因素为定性( (属性属性) )变量变量X4.X4.傲窒枚赠众轻占仟搏津方缎驼穆前办桐拒俄埋幸硝镰却迄渝葱蒜肥硒淘眷应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 问题可化为假设检验问题:假设问题可化为假设检验问题:假设即假设即假设5 5类地区职工中肝的平均增大数量相等类地区职工中肝的平均增大数量相等. .用用920920人的观测数据来检验这个假设是否成立人的观测数据来检验这个假设是否成立. . 分析计算的结果在分析计算的结果在 0.010.01的水平上的水平上否否定这个假设定这个假设. .这表明五类

51、不同地区的平均这表明五类不同地区的平均肝增大数量有显著性差异肝增大数量有显著性差异. . 类似地可以把性别类似地可以把性别(X1)(X1)作为因素作为因素, ,检验男检验男女职工平均肝增大数量是否有显著差异女职工平均肝增大数量是否有显著差异. .结果是结果是没有明显差异没有明显差异. .入诊赠崭上鞭暮迟纸休换朔类落币岛服卉疯悔佰弛陇扶警着豌目粹粮玫脯应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 这说明职工肝大主要是由大气污这说明职工肝大主要是由大气污染引起的染引起的. .与性别与性别( (或或年龄年龄, ,工龄工龄)

52、)无关无关, ,也不是由有些人所说是由于水质不也不是由有些人所说是由于水质不好引起的好引起的. . 2) 2) 用回归分析方法建立用回归分析方法建立Y(Y(肝增大数量肝增大数量) )与与X1,X2,X3,X4X1,X2,X3,X4的相关关系式的相关关系式. . 因为因为X3X3和和X4X4为定性为定性( (属性属性) )变量变量, ,建立模建立模型之前先把这两个变量数量化型之前先把这两个变量数量化. . X3=0 X3=0表示女性表示女性,X3=1,X3=1表示男性表示男性. .鹃卵兹啦俺赊辅厦谜爵佩磐曼判饯搓历横凄征挽坑豺矗鸳硒揖芹埂薄怎引应用多元统计分析应用多元统计分析环境科学环境科学大气

53、环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 由以上讨论的大气污染地区的分类结果知该地区的污染情况可分为五类. 引入极严重极严重很严重很严重严重严重一般一般较轻较轻绸垢些许缮垫烬蕾倚枪翰元寇琳洒梆掌碌沈革蝴际讹还鞘灯假汪窄冶煞枫应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 用逐步回归分析方法计算得用逐步回归分析方法计算得: : 第第1,2,31,2,3类是污染严重的地区类是污染严重的地区, ,在这三类在这三类地区内地区内 , ,故故 Y = 0.4611= 0.4611说明住在污染严重地区的职工

54、于说明住在污染严重地区的职工于7878年至年至7979年间肝平均增大年间肝平均增大0.4611(0.4611(厘米厘米); ); 兰轩牟座荤准游赵讲植乌爬手幌祝罚钨绑绷颓炉粗热八缚阉弧枕翁胡晕肮应用多元统计分析应用多元统计分析环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 住在第住在第4 4类地区类地区( )( )的职工的职工, ,这一这一年间肝平均增大数量为年间肝平均增大数量为 0.4611-0.3486=0.1125;0.4611-0.3486=0.1125;而住在第而住在第5 5类地区类地区( )( )的职工的职工, ,在在这一年间肝平均增大数量

55、为这一年间肝平均增大数量为 0.4611-0.2969=0.1642.0.4611-0.2969=0.1642.总之总之, ,以上分析结果表明以上分析结果表明, ,肝大是由大气污肝大是由大气污染引起的染引起的, ,与年龄与年龄, ,工龄工龄, ,性别无显著关系性别无显著关系. . 其它指标的分析结果这里省略了其它指标的分析结果这里省略了. . 汽偶娄宁抡腾名透祁贿哥丸蚀粗酬谬娥稗愉篆酗奏豢检汀咯防岔搁晒怔脏应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域 5.5.地质学地质学 6. 考古学考古学 7. 服装工业服装的定型分

56、类问题服装工业服装的定型分类问题 8. 经济学经济学(1)(4) 9. 农业农业(请参阅教材应用多元统计分析请参阅教材应用多元统计分析P6-7)叉罗吱攫携颐危美咏学榔项铣莲虫否跃试肄疫梢氦骡膊患据答哼周溢晒惟应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 元统计分析的应用领域元统计分析的应用领域-社会科学社会科学 10.10.社会科学社会科学 青少年犯罪问题是一个很大的社会问题。对青少年犯罪问题是一个很大的社会问题。对待青少年犯罪,我们采取待青少年犯罪,我们采取“以防为主、防重以防为主、防重干治干治”的原则。要预防犯罪,除了加强经常的原则。要预防犯罪,除了加强经常性

57、的教育外,还必然提出性的教育外,还必然提出预测犯罪预测犯罪的问题。的问题。如能对青少年犯罪心理和行为倾向性在犯罪如能对青少年犯罪心理和行为倾向性在犯罪行为发生之前便预测到,争取把它消灭在萌行为发生之前便预测到,争取把它消灭在萌芽状态,才能做到实际预防芽状态,才能做到实际预防。 残预夏皂隶子循滤匙箍蹋担拎暇鸭车瞳荷奄深釜坪剪插厦垛番圣觉痊琴桩应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-社会科学社会科学 为此目的,为此目的,19811982年中年中央教育科学研究所等几个单位央教育科学研究所等几个单位协作进行了调查研究工作,

58、调协作进行了调查研究工作,调查对象为一般中学生及工读学查对象为一般中学生及工读学校、少管所、劳教农场、和劳校、少管所、劳教农场、和劳改农场的青少年。改农场的青少年。骤彦遥认涨蹿埋逃颧盘蹬壁碌铲靶观辞加怖溢瓦完哎菩乏难惨爸投狠粥蒙应用多元统计分析应用多元统计分析社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 具体地说具体地说, ,使用逐步判别分析方法使用逐步判别分析方法. .利用所利用所调查的二大方面内容调查的二大方面内容: :心理因素心理因素(如物质追求感如物质追求感、隔离感隔离感、无目的感无目的感、团伙义气感团伙义气感)和外部因素和外部因素(如性别、如性别、家庭平均收入家庭平均

59、收入、每月零花钱每月零花钱、住宅面积住宅面积)共共25项指标项指标. .这些指标中有些是属这些指标中有些是属性指标性指标, ,如如性别性别、物质追求感等、物质追求感等, ,用于用于建立判别式之前建立判别式之前, ,先把它们数量化先把它们数量化. .锻魔挪煤烽掏筛乔烧矽租曝挎蓄捕惜肪仍判筑歉技杏晕沈着栽辽增熟哭耕应用多元统计分析应用多元统计分析社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 性别性别SexSex为为0 0表示女表示女, ,为为1 1表示男表示男; ; 若调查表中的物质追求感有三种选择若调查表中的物质追求感有三种选择: :很强很强, ,一般和弱一般和弱, ,那么可用二

60、个变量那么可用二个变量V1,V2V1,V2来表示来表示: : (V1,V2)=(1,0) (V1,V2)=(1,0)表示很强表示很强, , (V1,V2)=(0,1) (V1,V2)=(0,1)表示一般表示一般, , (V1,V2)=(0,0) (V1,V2)=(0,0)表示弱表示弱. .其它的属性指标类似处理其它的属性指标类似处理. . 宗伎嗓噎情剧拦向锌烦姑钝也绍询洒甭及关掩醉携封斑奠抓隆哇绵滤蓝皇应用多元统计分析应用多元统计分析社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 把被调查的青少年分为几类把被调查的青少年分为几类( (根据所犯根据所犯罪行罪行),),利用调查资料来

61、逐步筛选出区分这利用调查资料来逐步筛选出区分这几个类的指标几个类的指标, ,然后用这几个指标建立判然后用这几个指标建立判别式别式, ,并用所得到的判别式对这些青少年并用所得到的判别式对这些青少年进行归类进行归类, ,检验判别式的有效性检验判别式的有效性. . 将来就是要应用由这批调查资料所得的将来就是要应用由这批调查资料所得的判别式对另一些青少年进行归类判别式对另一些青少年进行归类, ,及早发及早发现有问题的青少年现有问题的青少年. . 妒苔众啥伦纺啤帘尔盲墩粒舌苏灯搁泼足做桃疯酋辛参够皇凸回纵梁乍厂应用多元统计分析应用多元统计分析社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测

62、如果只把青少年分为正常和有问如果只把青少年分为正常和有问题两类题两类, ,那么判别的效果是很满意的那么判别的效果是很满意的. . 如果有问题的这一类又细分为如果有问题的这一类又细分为: :小偷小偷, ,打架斗殴打架斗殴, ,流氓流氓, ,杀人等类杀人等类, ,所建立的判别所建立的判别式的效果就很不理想了式的效果就很不理想了, ,如把打架斗殴被如把打架斗殴被判为小偷判为小偷, ,而小偷被判为流氓等等而小偷被判为流氓等等. .但是好但是好人人, ,坏人基本上是分清了坏人基本上是分清了. . 也就是有问题的青少年还是可以预测也就是有问题的青少年还是可以预测出来的出来的. . 可胁扳反狐仪滓富瘸简磋苯

63、称谓派谦市哪鹏糜厂疯莉仁庐叔投舟姥弛蒸隧应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 11.11.文学文学 自从二十世纪自从二十世纪3030年代末英国著名的统计年代末英国著名的统计学家学家YuleYule把统计方法引入到文学词汇的把统计方法引入到文学词汇的研究以来研究以来, ,这个领域已经取得不少进展这个领域已经取得不少进展, ,最有名的是最有名的是MostellerMosteller与与WallaceWallace在在6060年年代初对美国立国三大历史文献之一的代初对美国立国三大历史文献之一的联邦主义者文集

64、的研究联邦主义者文集的研究. . 剧屯憋武剃膝乒拥暇雅悟臼捧住向浅棵哭淡儡岿胞瘤杯润熊布毙考窄溢震应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 在在1985,19861985,1986年我国复旦大学统计运筹系的年我国复旦大学统计运筹系的李贤平教授对我国的名著红楼梦的著作权李贤平教授对我国的名著红楼梦的著作权进行研究进行研究. .使用的统计方法主要是多元分析使用的统计方法主要是多元分析. . 先选定数十个与情节无关的虚词先选定数十个与情节无关的虚词( (如如: :了了, ,吗吗, ,嘛嘛, ,喱喱, ,呢呢,

65、,么么, ,等等) )作为变量作为变量, , 把红楼梦把红楼梦一书中的一书中的120120回作为回作为120120个样品个样品, ,统计每一回统计每一回( (即样品即样品) )选定的这些虚词选定的这些虚词( (即变量即变量) )出现的频数出现的频数. .由此得到的由此得到的120120行行m列的数据阵作为分析的依列的数据阵作为分析的依据据. .纷沙曳侈源钻移踪绎亏阐氮剪猴负诬鞍向厚耗习宛级数患唬劲系猎引止淋应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 在红楼梦的著作权的研究中使用较多的在红楼梦的著作权的研究中

66、使用较多的方法是聚类分析方法是聚类分析, ,主成分分析主成分分析, ,典型相关分析等典型相关分析等方法方法, ,由输出的大量图形可以看出由输出的大量图形可以看出: : (1) (1) 前前8080回和后回和后4040回截然地分为两类回截然地分为两类; ; (2) (2) 第第6767回落入后回落入后4040回的这一类中回的这一类中; ; (3) (3) 前前8080回广泛散布回广泛散布, ,并有若干规律并有若干规律; ; (4) (4) 后后4040回依回目的先后可分为几类回依回目的先后可分为几类. .谅嗅拳俊啤掉菇烯够坯租骸空龄缀姥酞岿傈景曰旅姻赚完外脱摄踌姬踢凹应用多元统计分析应用多元统计

67、分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 由以上分析结果可以证实由以上分析结果可以证实: : (1) (1)前前8080回和后回和后4040回不是出于同一个人的回不是出于同一个人的手笔手笔; ; (2) (2)前前8080回是否为曹雪芹所写回是否为曹雪芹所写? ?通过用曹通过用曹雪芹的另一著作雪芹的另一著作, ,做类似的分析做类似的分析, ,结果证实了结果证实了用词手法完全相同用词手法完全相同, ,断定为曹雪芹一人手笔断定为曹雪芹一人手笔; ; (3) (3)而后而后4040回是否为高鹗写的回是否为高鹗写的? ?结论推翻结论推翻了后

68、了后4040回是高鹗一人所写回是高鹗一人所写. .后后4040回的成书比回的成书比较复杂较复杂, ,既有残稿也有外人笔墨既有残稿也有外人笔墨, ,不是高鹗一不是高鹗一人所续人所续. .芹董择斯悦般祸低萍殖配洗箩亿式赂函胃婉刽次厦镍啦孙那祟误邀说爪勤应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 以上这些论证在红学界引起轰动以上这些论证在红学界引起轰动. .他们用多元统计分析方法提出了关于他们用多元统计分析方法提出了关于红楼梦作者和成书过程的新学说红楼梦作者和成书过程的新学说. . 李贤平教授他们又把这类方法用于

69、李贤平教授他们又把这类方法用于其他作家和作品其他作家和作品, ,结果证明统计方法结果证明统计方法的分辩能力是很强的的分辩能力是很强的. . 予颅刁豌钵偿杖艘亨诊夕粕栗狸发婴影络录彪措桔豌丈寒湛佃叙罚头鸣纽应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 从有关资料中我还看到从有关资料中我还看到:1980:1980年美国年美国华人教授华人教授陈炳藻陈炳藻也用类似的统计方法研究也用类似的统计方法研究了红楼梦的作者了红楼梦的作者. .当时把当时把前前80回和后回和后40回分开成为二部分回分开成为二部分,又另取英雄儿女又

70、另取英雄儿女一书一书.考虑的用词有名词考虑的用词有名词,形容词和虚词形容词和虚词等等.计算这三部分的相关系数计算这三部分的相关系数,得出前得出前80回回和后和后40回的相关系数为回的相关系数为0.7以上以上,而与英而与英雄儿女的相关系数只有雄儿女的相关系数只有0.3.从而得出结从而得出结论认为前论认为前80回和后回和后40回的作者为同一人回的作者为同一人.乏蛾争昌僧挞贴题贮膜仓袁杰扑祈及杭吝暖美锄她膘倒迹盒列鬃丹辆口理应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-其他其他 12.12.其他其他 体育科研体育科研 军事科

71、学军事科学 生物学生物学 心理学心理学 生态学生态学 保险科学保险科学 火警预报火警预报 地震预报地震预报 中医阴阳学说研究中医阴阳学说研究 林业科学林业科学 . . 言稳盲鹅貌斋喻秤眉涤彭顽硷男贪胀朋断便位姨案企投拄些敏孩小催妮晨应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法 图形有助于对所研究的数据的直观了解图形有助于对所研究的数据的直观了解, ,一维或二一维或二维数据的图形容易得到维数据的图形容易得到, ,三维图形虽也可以画出,但三维图形虽也可以画出,但并不方便并不方便. .三维以上图形如何表示三维以上图形如何表示

72、? ?许多统计学家给出许多统计学家给出了多维数据的图示方法,但这方面的研究还处于不成了多维数据的图示方法,但这方面的研究还处于不成熟状态,目前尚未有公认的方法熟状态,目前尚未有公认的方法. .下面介绍几种国际下面介绍几种国际上近几十年来出现的方法,其中有一些依赖人工容易上近几十年来出现的方法,其中有一些依赖人工容易实现,但是有一些要是没有计算机的帮助,恐怕较难实现,但是有一些要是没有计算机的帮助,恐怕较难实现实现. . 设变量个数为设变量个数为p,观测次数为,观测次数为n,第,第k次观测值记次观测值记为为 X(k) =( =(xk1 xk2 xkp) (k=1,2,n) 雇渠呜秒硼狮舷干臣骑今

73、宗犬衰仟味酷哀绘旅溃栖钩妇厢贫掣茁鸣口允干应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-轮廓图轮廓图轮廓图的作图步骤为:轮廓图的作图步骤为: (1) (1) 作直角坐标系,横坐标取作直角坐标系,横坐标取个点表示个点表示个变个变量量. . (2) (2) 对给定的一次观测值,在对给定的一次观测值,在个点上的纵坐标个点上的纵坐标(即高度)和它对应的变量取值成正比(即高度)和它对应的变量取值成正比. . (3) (3) 连接连接个高度的顶点得一折线个高度的顶点得一折线. .则一次观测值则一次观测值的轮廓为一条多角折线形的轮廓

74、为一条多角折线形. . n次观测值可画出次观测值可画出n条折线,构成轮廓条折线,构成轮廓图图. . 成双铆得胁量悸狼彰乎乓淡梯锹今满鞋澎墨堰拼丽修铂劈擞肪哉恢匡抨胞应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-轮廓图轮廓图 表表1.11.1中中1212个学生学习成绩的轮廓图如下:个学生学习成绩的轮廓图如下: 政治政治语文语文外语外语数学数学物理物理100掏谋匈皂抛娇吹鸡铺衙拂涡庚镍烃甸匪妨掉槛豺摆种哩毫酣蛰想烃诛滁匆应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统

75、计数据的图表示法-轮廓图轮廓图 由轮廓图可直观看出,哪几个学由轮廓图可直观看出,哪几个学生成绩相似,哪些属优秀、哪些中生成绩相似,哪些属优秀、哪些中等、哪些较差,对几门课程可直观等、哪些较差,对几门课程可直观地看成绩的好坏,分散情况等等地看成绩的好坏,分散情况等等. .这这种图形在聚类分析中颇有帮助种图形在聚类分析中颇有帮助. . 伦颠柄脏饿豢辕呸派拭庭言似莎仗歇挝杜灵苯霖预剿诱陆歼绘锨拓踪肩外应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-雷达图雷达图雷达图的作图步骤是:雷达图的作图步骤是: (1) 作一圆,并把圆周分

76、为等分. (2) 连接圆心和各分点,把这条半径依次定义为各变量的坐标轴,并标以适当的刻度. (3) 对给定的一次观测值,把个变量值分别点在相应的坐标轴上,然后连接成一个边形.n次观测值可画出n个边形.吵迫鞍搁棵窄搓傅抹塑动孝随绅先邹叶之油萍秤圾羞畸块捶勃砒坑凸拿作应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-雷达图雷达图政治政治语文语文外语外语数学数学物理物理121糠货薛饯徘跑殷福锣隆荤社蹋温图武啪胖科道俩梯契惭解旭渣受纫缝稽环应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示

77、法多元统计数据的图表示法-雷达图雷达图 这种图形既象雷达荧光屏上看到的图象,也这种图形既象雷达荧光屏上看到的图象,也象个蜘蛛网象个蜘蛛网. .因此有人称为雷达图,也有人称为因此有人称为雷达图,也有人称为 蜘蛛图蜘蛛图. .以上图形中画出表以上图形中画出表1.11.1中第一个和第十中第一个和第十二个学生的成绩二个学生的成绩. . 各科都达到各科都达到100100分的学生对应着一个面积最分的学生对应着一个面积最大的正五边形大的正五边形. .第一个学生的图形接近正五边形,第一个学生的图形接近正五边形,因此是个学习成绩优秀的学生因此是个学习成绩优秀的学生. . 另方面,学习成绩差的学生,其图形面积也另

78、方面,学习成绩差的学生,其图形面积也小,第十二个学生就是如此,而且其图形明显小,第十二个学生就是如此,而且其图形明显偏右上方,这意味着数学,物理和外语成绩极偏右上方,这意味着数学,物理和外语成绩极差,而语文,政治还算过得去差,而语文,政治还算过得去. .深痴睫搔奴拼饼缝锥堡明现肾烛咐蓖贤版邢多茶检劳擒脚靴崭五毖陨碎掖应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 从数学上看,较为完美的多维数据图表示从数学上看,较为完美的多维数据图表示方法可能是方法可能是D.F.D.F.Andcews在在197219

79、72年提出的三角多年提出的三角多项式表示法项式表示法. .其思想是把多维空间中的一个点对其思想是把多维空间中的一个点对应于二维平面上的一条曲线应于二维平面上的一条曲线. . 设设 p 维数据维数据X(x1 ,x2 , xp) ),则对应的则对应的曲线是曲线是畅乐咨巴擦揍叁侗伎蓬凝庞袒碳擎缀垣涂玻鼠苛渍氦搐炬茨工拴企裔豌涌应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 表表1.11.1学生成绩数据中,第一个学生对应的学生成绩数据中,第一个学生对应的曲线为曲线为 第十二个学生对应的曲线为第十二个学生对应的

80、曲线为锯邢猴椿兽怜傍亨多震融彬儡尾符掂罗缸港我蕊特怯驰缺脓悉惕戍驰铲淬应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图f2f1f11f12蔫搪提掠云龟运或飘啤璃尤仗蘸女锣威诧彦憎烃杜绪页实缠惊惶踊栏尾卒应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 n次观测对应次观测对应n条曲线条曲线, ,画在同一平面上画在同一平面上就是一张调和曲线图就是一张调和曲线图. .在多项式的图表示中,在多项式的图表示中,当各变量的数

81、值太悬殊时,最好先标准化当各变量的数值太悬殊时,最好先标准化后再作图后再作图. . 作调和曲线图时一般要借助计算机作图,这作调和曲线图时一般要借助计算机作图,这种图对聚类分析帮助很大,如果选择聚类统计种图对聚类分析帮助很大,如果选择聚类统计量为距离的话,同类的曲线拧在一起,不同类量为距离的话,同类的曲线拧在一起,不同类的曲线拧成不同的束,非常直观的曲线拧成不同的束,非常直观. .赵谗渴鳖罐皇韵龋儒瓤惨价藤照睫队酌鹿淫卸犯啼酗排伺剩青饲股鸽猛弥应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-散布图矩阵 当当p=2=2时时,

82、,常把常把n次次2 2维观测数据点在平面维观测数据点在平面上生成一张散点图上生成一张散点图, ,由散点图可直观地看由散点图可直观地看出变量出变量X X与与Y Y间的相关关系及相关的程度间的相关关系及相关的程度. . 当当p2 2时时, ,我们也想借助散点图来直观我们也想借助散点图来直观给出变量之间给出变量之间, ,观测点之间的关系观测点之间的关系, ,可以对可以对p p个变量个变量两两配对两两配对生成一张散点图矩阵生成一张散点图矩阵, ,通通过这张图过这张图, ,不仅可以了解到每两个变量间不仅可以了解到每两个变量间的相关情况的相关情况, ,在在SASSAS系统中系统中, ,还可通过还可通过“刷

83、刷亮亮”方法来找出异常点方法来找出异常点 .苗裂绷掇漳淀匈畜舱御碍志踏笆汀弯苇辅浚究哈闯朋擒瓤往窃坡檄玄戒憎应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-散布图矩阵是册垮茫冈獭遍晤僚星弘创邱桓嘎把巢怒婿乎唁庭言舰君迄有神获囱练旭应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 在多元数据的图表示法中在多元数据的图表示法中, ,还有还有星座图星座图、脸谱图脸谱图、装饰图装饰图等表示法等表示法. .最为浪漫的可能是脸谱图最为浪漫的可能是脸谱图.

84、 .它把多元数它把多元数据表示成一张脸谱图据表示成一张脸谱图. .脸的轮廓由上下两个椭圆构成脸的轮廓由上下两个椭圆构成. .这这些椭圆的长短轴及离心率等均由多元数据中某些变量来些椭圆的长短轴及离心率等均由多元数据中某些变量来刻画刻画. .另一些变量决定鼻子长度另一些变量决定鼻子长度, , 嘴的位置及圆弧的长度嘴的位置及圆弧的长度与向上还是向下与向上还是向下, ,眼晴的大小,眼珠的位置眼晴的大小,眼珠的位置, ,眉毛的角度眉毛的角度等等. . 如果变量很多如果变量很多, ,脸谱可以刻划得细致些脸谱可以刻划得细致些, ,变量不多变量不多, ,则则把一部分器官形态固定把一部分器官形态固定, ,只让另

85、一部分器官变化只让另一部分器官变化. .在实际在实际应用中应用中, ,脸谱图也有发展脸谱图也有发展, ,如在脸谱上加眼泪以表示如在脸谱上加眼泪以表示 很坏很坏情况的出现情况的出现; ;还可以在脸谱基础上加上体型还可以在脸谱基础上加上体型, ,用一些变量用一些变量来决定体型的胖瘦来决定体型的胖瘦, , 高矮等。高矮等。糯震管坝调普钵荆呕佣笑戎裴邀墟沦泽能认湘注旋诈系猫桩咀蔽锹荚膝团应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 最后我们指出最后我们指出, ,多元数据的图表示法的多元数据的图表示法的难点在于变量过多

86、难点在于变量过多. .如果有一种方法可以如果有一种方法可以把高维数据投影到二维空间把高维数据投影到二维空间( (平面平面) )中去中去. .并且在投影过程中不会过多地损失原有数并且在投影过程中不会过多地损失原有数据信息的话据信息的话, ,就可以使用通常方法在平面就可以使用通常方法在平面上画出这些本来是高维数据的图形来上画出这些本来是高维数据的图形来. . 后后面将介绍的主成分分析等方法就是一些降面将介绍的主成分分析等方法就是一些降维的方法维的方法。咙什奇坤铆龟很伤盂缅涂箍眩惫犯著蝗披邻淑他实焦果宛石啤涩涂驹水逊应用多元统计分析应用多元统计分析 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 (1) (1) 参见参见实用多元统计分析实用多元统计分析(方开泰方开泰) 第八章第八章 (2) (2) 参见参见多元统计分析多元统计分析(于秀林于秀林) 第四章第四章 房蔑赤昂皱标盛子熄帕庆净稳躬邯灿慈薄纹应雅佛烛裸疥乌认誓执策流膀应用多元统计分析应用多元统计分析

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号