最新应用多元统计分析PPT课件

上传人:ni****g 文档编号:568733672 上传时间:2024-07-26 格式:PPT 页数:83 大小:758KB
返回 下载 相关 举报
最新应用多元统计分析PPT课件_第1页
第1页 / 共83页
最新应用多元统计分析PPT课件_第2页
第2页 / 共83页
最新应用多元统计分析PPT课件_第3页
第3页 / 共83页
最新应用多元统计分析PPT课件_第4页
第4页 / 共83页
最新应用多元统计分析PPT课件_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《最新应用多元统计分析PPT课件》由会员分享,可在线阅读,更多相关《最新应用多元统计分析PPT课件(83页珍藏版)》请在金锄头文库上搜索。

1、应用多元统计分析应用多元统计分析第一章第一章 绪论绪论第二章第二章 多元正态分布及参数的估计多元正态分布及参数的估计第三章第三章 多元正态总体参数的假设检验多元正态总体参数的假设检验第四章第四章 回归分析回归分析-第五章第五章 判别分析判别分析第六章第六章 聚类分析聚类分析第七章第七章 主主成分分析成分分析第八章第八章 因子分析因子分析第九章第九章 对应分析方法对应分析方法第十章第十章 典型相关分析典型相关分析第十一章第十一章 偏最小二乘回归分析偏最小二乘回归分析课程内容课程内容多变量分析(数据结构简化)多变量分析(数据结构简化)分类方法分类方法两组变量的相关分析两组变量的相关分析基础理论基础

2、理论两组变量的相依分析两组变量的相依分析第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 由于大量实际问题都涉及到多个变量,这些由于大量实际问题都涉及到多个变量,这些变量又是随机变化,如学生的学习成绩随着被变量又是随机变化,如学生的学习成绩随着被抽取学生的不同成绩也有变化(我们往往需要抽取学生的不同成绩也有变化(我们往往需要依据它们来推断全年级的学习情况)。所以要依据它们来推断全年级的学习情况)。所以要讨论多维随机向量的统计规律性。讨论多维随机向量的统计规律性。 多元统计分析就是讨论多维随机向多元统计分析就是讨论多维随机向量的理论和统计方法的总

3、称。量的理论和统计方法的总称。 多元统计分析多元统计分析研究研究 的对象的对象就是多就是多维随机向量维随机向量. .第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 研究的内容既包括一元统计学中某研究的内容既包括一元统计学中某些方法的直接推广,也包括多个随机些方法的直接推广,也包括多个随机变量特有的一些问题。变量特有的一些问题。 多元统计分析是一类范围很广多元统计分析是一类范围很广的理论和方法。的理论和方法。 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 就以学生成绩为例,我们可以研究很多就

4、以学生成绩为例,我们可以研究很多问题:用各科成绩的总和作为综合指标来问题:用各科成绩的总和作为综合指标来比较学生学习成绩的好坏比较学生学习成绩的好坏( (如成绩好的与成如成绩好的与成绩差的,又如文科成绩好的与理科成绩好绩差的,又如文科成绩好的与理科成绩好的);研究各科成绩之间的关系(如物理的);研究各科成绩之间的关系(如物理与数学成绩的关系,文科成绩与理科成绩与数学成绩的关系,文科成绩与理科成绩的关系);的关系);等等。所有这些都属于多等等。所有这些都属于多元统计分析的研究内容。元统计分析的研究内容。 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象

5、和内容 综上所述,多元分析以综上所述,多元分析以个变量的个变量的n次观次观测数据组成的数据矩阵测数据组成的数据矩阵 x11 x12 x1p x21 x22 x2p . . . . xn1 xn2 xnpX=为依据。根据实际问题的需要,给出种种方法。为依据。根据实际问题的需要,给出种种方法。英国著名统计学家英国著名统计学家. .肯德尔(肯德尔(M.G.KendallM.G.Kendall)在多元分析一书中把多元分析所研究的内在多元分析一书中把多元分析所研究的内容和方法概括为以下几个方面容和方法概括为以下几个方面: 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析

6、的研究对象和内容 1. 1. 简化数据结构简化数据结构( (降维问题降维问题) ) 例如通过变量变换等方法使相互依赖的变量例如通过变量变换等方法使相互依赖的变量变成互不相关的;或把高维空间的数据投影到变成互不相关的;或把高维空间的数据投影到低维空间,使问题得到简化而损失的信息又不低维空间,使问题得到简化而损失的信息又不太多太多. .主成分分析,因子分析主成分分析,因子分析, ,对应分析等多元对应分析等多元统计方法就是这样的一类方法。统计方法就是这样的一类方法。 . .分类与判别(归类问题)分类与判别(归类问题) 对所考查的对象对所考查的对象( (样品点或变量)按相似程度进行样品点或变量)按相似

7、程度进行分类(或归类)。聚类分析和判别分析等方法是解分类(或归类)。聚类分析和判别分析等方法是解决这类问题的统计方法决这类问题的统计方法。 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 3.3.变量间的相互联系变量间的相互联系 (1) (1) 相互依赖关系相互依赖关系: :分析一个或几个变量的变分析一个或几个变量的变化是否依赖于另一些变量的变化化是否依赖于另一些变量的变化? ?如果是如果是, ,建立建立变量间的定量关系式变量间的定量关系式, ,并用于预测或控制并用于预测或控制-回回归分析归分析. . (2) (2) 变量间的相互关系变量间的

8、相互关系: : 分析两组变量间的相分析两组变量间的相互关系互关系-典型相关分析等典型相关分析等. . (3 3)两组变量间的相互依赖关系)两组变量间的相互依赖关系-偏最小二偏最小二乘回归分析乘回归分析. . 第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的研究对象和内容多元分析的研究对象和内容 5.5.多元统计分析的理论基础多元统计分析的理论基础 包括多维随机向量及多维正态随机向量,及由此定包括多维随机向量及多维正态随机向量,及由此定义的各种多元统计量,推导它们的分布并研究其性质,义的各种多元统计量,推导它们的分布并研究其性质,研究它们的抽样分布理论。这些不仅是统计估计和假研究它们

9、的抽样分布理论。这些不仅是统计估计和假设检验的基础,也是多元统计分析的理论基础。设检验的基础,也是多元统计分析的理论基础。 . .多元数据的统计推断多元数据的统计推断 参数估计和假设检验问题参数估计和假设检验问题. .特别是多元正态分特别是多元正态分布的均值向量和协差阵的估计和假设检验等问布的均值向量和协差阵的估计和假设检验等问题。题。第一章第一章 绪绪 论论1.1 1.1 引言引言-多元分析的发展历史多元分析的发展历史 多元统计分析起源于二十世纪初,多元统计分析起源于二十世纪初,19281928年年WishartWishart发表论文多元正态总体样本协方差阵发表论文多元正态总体样本协方差阵的

10、精确分布的精确分布, ,可以说是多元分析的开端可以说是多元分析的开端. .之后之后R.A.FisherR.A.Fisher、H.HotellingH.Hotelling、S.N.RoyS.N.Roy、许宝碌、许宝碌等人作了一系列奠基的工作,使多元统计分析等人作了一系列奠基的工作,使多元统计分析在理论上得到迅速的发展在理论上得到迅速的发展, ,在许多领域中也有了在许多领域中也有了实际应用实际应用. .由于用统计方法解决实际问题时需要由于用统计方法解决实际问题时需要的计算量很大,使其发展受到影响的计算量很大,使其发展受到影响, ,甚至停滞了甚至停滞了相当长的时间相当长的时间. .第一章第一章 绪绪

11、 论论1.1 1.1 引言引言-多元分析的的发展历史多元分析的的发展历史 二十世纪二十世纪5050年代中期年代中期, ,随着电子计算机的出随着电子计算机的出现和发展现和发展, ,使得多元统计分析在地质、气象、医使得多元统计分析在地质、气象、医学、社会学等方面得到广泛的应用学、社会学等方面得到广泛的应用.60.60年代通过年代通过应用和实践又完善和发展了理论应用和实践又完善和发展了理论, ,由于新理论、由于新理论、新方法的不断出现又促使它的应用范围更加扩新方法的不断出现又促使它的应用范围更加扩大大. .多元统计的方法在我国至多元统计的方法在我国至7070年代初期才受到年代初期才受到各个领域的极大

12、关注各个领域的极大关注, ,近近3030多年来我国在多元统多年来我国在多元统计方法的理论研究和应用上也取得了很多显著计方法的理论研究和应用上也取得了很多显著成绩成绩, ,有些研究工作已达到国际水平有些研究工作已达到国际水平, ,并已形成并已形成一支科技队伍一支科技队伍, ,活跃在各条战线上活跃在各条战线上. .第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 多元统计分析是解决实际问题有效的数据处理方法。多元统计分析是解决实际问题有效的数据处理方法。随着电子计算机使用的日益普及,多元统计方法已广随着电子计算机使用的日益普及,多元统计方法已广泛地

13、应用于自然科学,社会科学的各个方面。以下我泛地应用于自然科学,社会科学的各个方面。以下我们列举多元分析的一些应用领域。从中可看到多元分们列举多元分析的一些应用领域。从中可看到多元分析应用的广度和深度。析应用的广度和深度。 1. 1. 教育学教育学 n个考生报考北大概率统计系个考生报考北大概率统计系. .每个考生参加每个考生参加7 7门课门课( (语文、语文、数学、政治、外语、物理、化学、生物)的考试,各门课成绩数学、政治、外语、物理、化学、生物)的考试,各门课成绩记为记为Yj1, Yj2 , Yj7 。又每个考生在高中学习期间,。又每个考生在高中学习期间,m门主要课门主要课程成绩为程成绩为Xj

14、1, , Xj2, , Xjm( ( j=1,2, =1,2, n ) )。经对这大量的资料。经对这大量的资料作统计分析,我们能够得出:作统计分析,我们能够得出: 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 (1) (1) 高考成绩和高中学习期间成绩的关系高考成绩和高中学习期间成绩的关系, ,即给出两即给出两组变量线性组合间的关系组变量线性组合间的关系, ,从而可由考生在高中期间的从而可由考生在高中期间的学习成绩来预报高考的综合成绩或某科目的成绩学习成绩来预报高考的综合成绩或某科目的成绩. . (2) (2) 给出考生成绩次序排队的最佳方

15、案给出考生成绩次序排队的最佳方案( (最佳最佳组合组合).).总分可以体现一个考生成绩好坏总分可以体现一个考生成绩好坏, ,但对报但对报考概率统计系的学生考概率统计系的学生, ,按总分从高到低的顺序录按总分从高到低的顺序录取并不是最合适的取并不是最合适的. .应按适当的权数加权求和应按适当的权数加权求和. .如如数学、物理、外语的权数相对高些数学、物理、外语的权数相对高些. . 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-教育学教育学 (3) (3) 利用利用n个学生在高中学习期间个学生在高中学习期间m门主科门主科的考试成绩,可对学生进行分类,如按文、

16、理的考试成绩,可对学生进行分类,如按文、理科成绩分类,按总成绩分类等。若准备给优秀科成绩分类,按总成绩分类等。若准备给优秀学生发奖,那么一等奖、二等奖的比例应该是学生发奖,那么一等奖、二等奖的比例应该是多少?应用多元统计分析的方法可以给出公平多少?应用多元统计分析的方法可以给出公平合理地确定。合理地确定。教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用班主任经常会遇到学校下达的评选三班主任经常会遇到学校下达的评选三好生好生, ,评选学习奖等任务评选学习奖等任务. .另还有评选各种另还有评选各种奖学金的工作,推荐研究生的工作都要求奖学金的工作,推荐研究生的工

17、作都要求班主任提出意见班主任提出意见. .如何利用全班学生在校几年中主要课如何利用全班学生在校几年中主要课程的学习成绩及各方面的表现更科学程的学习成绩及各方面的表现更科学, ,更合更合理地进行评选理地进行评选? ?应用多元统计分析中的主应用多元统计分析中的主成分方法可以给出公平合理地确定成分方法可以给出公平合理地确定. .教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 比如全班有比如全班有4040名学生名学生, ,本科生四年中主本科生四年中主要课程包括基础课要课程包括基础课, ,专业基础课专业基础课, ,本专业的本专业的限选课限选课, ,设共有设共有12

18、12门课门课. .从教务可以得到全从教务可以得到全班班4040名学生这名学生这1212门课的成绩门课的成绩, ,组成的组成的4040行行1212列的数据阵列的数据阵X就是我们的原始数据就是我们的原始数据. . (1) (1) 全班学生综合成绩的排序全班学生综合成绩的排序 评选三好生评选三好生, ,评选学习奖评选学习奖, ,推荐研究生的推荐研究生的工作首先都要了解全班学生的学习情况工作首先都要了解全班学生的学习情况. .教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 1212门课的成绩可看成门课的成绩可看成1212个变量个变量, ,这是多这是多指标指标(

19、(变量变量) )系统的排序评估问题。系统的排序评估问题。 这类问题在实际工作中经常会遇到这类问题在实际工作中经常会遇到, ,比比如对某类企业的经济效益进行评估比较,如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题转化为科学、更客观地将一个多指标问题转化为单个综合变量的形式单个综合变量的形式. . 主成分分析方法主成分分析方法为样品排序或多指标系为样品排序或多指标系统评估提供可行的方法统评估提供可行的方法. . 教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 这里把这

20、里把1212门课的成绩看成门课的成绩看成1212个变量,这个变量,这些变量是相关的,有的相关性强些,有的相些变量是相关的,有的相关性强些,有的相关性一般些。用主成分分析方法从关性一般些。用主成分分析方法从1212个相关个相关的变量中可以综合得出几个互不相关的主成的变量中可以综合得出几个互不相关的主成分它们是原始变量的线性组合。其中第分它们是原始变量的线性组合。其中第一主成分综合原始变量的信息最多(一般在一主成分综合原始变量的信息最多(一般在7070以上),我们就用第一主成分(即单个以上),我们就用第一主成分(即单个综合指标)替代原来的综合指标)替代原来的1212个变量;然后计算个变量;然后计算

21、第一主成分的得分并进行排序。第一主成分的得分并进行排序。 教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 最简单最直观地综合变量就是最简单最直观地综合变量就是1212门课的成绩总和。门课的成绩总和。但这个最简单的综合变量并不是最科学地代表但这个最简单的综合变量并不是最科学地代表1212门课综门课综合成绩的指标,而用主成分分析得出的第一主成分(原合成绩的指标,而用主成分分析得出的第一主成分(原始变量的线性组合)始变量的线性组合)Z1是最科学地代表是最科学地代表1212门课综合成绩门课综合成绩的指标。比如的指标。比如 Z Z1 1是是1212个变量的线性组合

22、,且系数都是正数,个变量的线性组合,且系数都是正数,数值有大有小。显然数值大的变量对综合指标数值有大有小。显然数值大的变量对综合指标(主成分)的贡献大;数值小的变量对综合指(主成分)的贡献大;数值小的变量对综合指标(主成分)的贡献小。标(主成分)的贡献小。 教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 12 12个原始变量(课程)提供的信息各为多少?用什个原始变量(课程)提供的信息各为多少?用什么量来表达?最经典的方法是用变量的方差么量来表达?最经典的方法是用变量的方差Var(Var(Xi) )为为多少来表达。多少来表达。 如果某课程全班学生的成绩都差

23、不多,比如都是如果某课程全班学生的成绩都差不多,比如都是8080分左右,则这门课程在学生成绩的排序中不起什么作分左右,则这门课程在学生成绩的排序中不起什么作用。这反映在原始变量的线性组合用。这反映在原始变量的线性组合Z Z1 1 (第一主成分)(第一主成分)上该变量对应的系数会很小(如上该变量对应的系数会很小(如0.1025).0.1025). 如果另一门课程全班学生的成绩相差很大,有的如果另一门课程全班学生的成绩相差很大,有的100100分,有的只有分,有的只有3030多分,则这门课程在学生成绩的多分,则这门课程在学生成绩的排序中起的作用很大。这反映在原始变量的线性组合排序中起的作用很大。这

24、反映在原始变量的线性组合Z Z1 1 (第一主成分)上该变量对应的系数会很大(比如(第一主成分)上该变量对应的系数会很大(比如0.4525).0.4525).教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 接着把每个学生接着把每个学生1212门课程的成绩代入第一门课程的成绩代入第一主成分主成分Z1中,计算出每个学生第一主成分中,计算出每个学生第一主成分Z1的的得分值,然后按从大到小的次序对全班学生的得分值,然后按从大到小的次序对全班学生的第一主成分第一主成分Z1的得分值进行排序。这个次序作的得分值进行排序。这个次序作为全班学生在大学本科为全班学生在大学本

25、科4 4年中综合学习成绩的顺年中综合学习成绩的顺序是更合理更科学的。序是更合理更科学的。 推荐研究生时可以根据这个次序来依次推荐研究生时可以根据这个次序来依次推荐;评选综合学习奖时也可以根据这个推荐;评选综合学习奖时也可以根据这个次序来评选;评选三好生时这个次序也是次序来评选;评选三好生时这个次序也是很有力的依据。很有力的依据。教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 (2) (2) 全班学生加权综合成绩的排序全班学生加权综合成绩的排序 因因1212门课程(变量)所得的学分不同,学门课程(变量)所得的学分不同,学分的多少反映该课程的重要性,在(分的

26、多少反映该课程的重要性,在(1 1)中进行)中进行排序时没有考虑课程的重要性。排序时没有考虑课程的重要性。 由学分的多少由学分的多少对变量的重要程度分别赋于对变量的重要程度分别赋于不同的权数不同的权数. .学分多权数大些,学分少权数学分多权数大些,学分少权数小些。即设小些。即设Xj为第为第 j个变量(课程)的个变量(课程)的40名名学生的成绩(学生的成绩(观测向量)观测向量), ,令令 教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用其中其中Xj表示第表示第j门门课程的课程的40名学生的加权成绩名学生的加权成绩(观测向量),可取观测向量),可取其中其中N表

27、示表示1212门课程的总学分数(如门课程的总学分数(如N5050), ,nj表示表示第第j门课程的学分数(如门课程的学分数(如n1 6 6). . 某课程若所得的学分多某课程若所得的学分多( (即该课程重要即该课程重要), ),因乘上的权因乘上的权数大数大, ,则该门课程的加权成绩变大则该门课程的加权成绩变大. .由此得出的新综合指由此得出的新综合指标标( (第一主成分第一主成分) ) Z1 * *在该变量上的系数也会加大在该变量上的系数也会加大, ,该变量该变量对第一主成分对第一主成分Z1 * *的得分贡献加大的得分贡献加大. .教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在

28、学生学习成绩排序中的应用 把把1212门课程的成绩代入第一主成分门课程的成绩代入第一主成分Z1 * *中,计中,计算出每个学生第一主成分算出每个学生第一主成分Z1 * *的得分值,然后按的得分值,然后按从大到小的次序对全班学生的第一主成分从大到小的次序对全班学生的第一主成分Z1 * *的的得分值进行排序。这个次序可作为全班学生在得分值进行排序。这个次序可作为全班学生在大学本科大学本科4 4年中加权综合学习成绩的顺序。年中加权综合学习成绩的顺序。 加权综合学习成绩的顺序与(加权综合学习成绩的顺序与(1 1)中没)中没有加权的综合学习成绩的顺序可能会稍有有加权的综合学习成绩的顺序可能会稍有些差别些

29、差别. .加权综合学习成绩的顺序也许比加权综合学习成绩的顺序也许比没加权得出的顺序还更合理更科学的。没加权得出的顺序还更合理更科学的。教育学教育学-主成分分析在学生学习成绩排序中的应用主成分分析在学生学习成绩排序中的应用 同样地同样地, ,推荐研究生时可以根据这个推荐研究生时可以根据这个更科学的次序来依次推荐;评选综合学习更科学的次序来依次推荐;评选综合学习奖时也可以根据这个更科学的次序来评选;奖时也可以根据这个更科学的次序来评选;评选三好生时这个更科学的次序也是很有评选三好生时这个更科学的次序也是很有力的依据。力的依据。 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统

30、计分析的应用领域 2. 2. 医学医学 3. 气象学气象学 (请参阅教材请参阅教材应用多元统计分析应用多元统计分析P5) 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-环境科学环境科学 4.4.环境科学环境科学 (1)(1)大气环境污染的评估及与职工健康的大气环境污染的评估及与职工健康的关系关系 湖南岳阳化工总厂建厂前没有进行环境评估湖南岳阳化工总厂建厂前没有进行环境评估(因建在因建在文化大革命期间文化大革命期间). 工厂投产几年后工厂投产几年后,发现污染严重,如发现污染严重,如很多职工有明显肝大的症状很多职工有明显肝大的症状,到底到底“肝大肝大”是大气

31、污染造是大气污染造成的成的,还是其它还是其它(如水污染如水污染)?故决定进行环境评估。?故决定进行环境评估。 具体工作有:具体工作有: 定时定点测量大气中多种污染气体的浓度,同时测定时定点测量大气中多种污染气体的浓度,同时测量气象条件;量气象条件;环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 现场试验现场试验,如施放大量的海军烟雾弹作为示踪物,如施放大量的海军烟雾弹作为示踪物,了解其扩散情况,记录其轨迹。了解其扩散情况,记录其轨迹。 调查并统计了大量的职工体检资料;调查并统计了大量的职工体检资料; 风洞模拟试验。风洞模拟试验。 现场观测试验共用了两个

32、多月的时间,调用了很多的人力和物力,收集了大量的资料。其中使用了多元统计分析的多种方法进行数据分析处理。 以下是其中的部分工作: 环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 (一)大气污染的地区分类 为了了解化工厂对环境的污染程度,在厂区及邻近地区有代表性的选25个监测点(如厂区,生活区,医院,学校),每天定时(2点,8点,14点,20点)同时抽取大气样品,测定其中6种污染气体(二氧化硫,硫化氢,碳4,)的浓度,前后4天共16次数据,对每个监测点,计算每种污染气体16次实测值的平均值,得25行6列的数据阵X,以下由数据阵X出发,进行分析处理.环境科

33、学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 用统计分析方法分析处理这些资料. 具体地说,使用了系统聚类分析方法,主成分分析方法方法,因子分析方法等等. 不同的统计方法分类的结果不完全一致,经综合汇总后,把25个取样点按污染情况分为5类,如分为极严重污染,很严重污严重污染染, ,严重污染严重污染, ,一般污染和较轻污染五大类. 环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 若使用若使用对应分析方法对应分析方法, ,不仅可得出分类不仅可得出分类结果结果, ,还可给出有污染的每一类主要的污还可给出有污染的每一类主要的

34、污染气体染气体( (元素元素).). 这些分类结果将为今后监测点的布局提这些分类结果将为今后监测点的布局提供既合理又经济的方案供既合理又经济的方案. . 如果在如果在2525个监测点以外的其它地方也个监测点以外的其它地方也同时定点测量了同时定点测量了6 6种污染气体的浓度种污染气体的浓度, ,则由则由以上的分类结果用以上的分类结果用判别归类判别归类的方法还可给的方法还可给出该地区的污染分类出该地区的污染分类. .环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 (二)职工体检资料的统计分析 在在2323个监测点附近各随机地抽取个监测点附近各随机地抽取40

35、40人人的体检资料的体检资料, ,共共920920人人. .考查的指标考查的指标( (因变因变量量) )有有: : Y1Y1-78-78年肝大数量年肝大数量; ; Y2Y2-78-78年的白血球年的白血球; ; Y3Y3-78-78年血收缩压年血收缩压; ; Y4Y4-78-78年血舒张压年血舒张压; ; Y5Y5至至Y8Y8为为7979年同年同Y1Y1至至Y4Y4的指标的指标; ; Y Y-78-78年到年到7979年的肝增大数量年的肝增大数量; ; 环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 影响这些指标的因素(自变量)有 : X1X1- -年

36、龄年龄; ; X2X2- -工龄工龄; ; X3X3- -性别性别; ; X4X4- -所在地区的污染类别所在地区的污染类别. .我们的目的是找出职工肝大与所在地区的我们的目的是找出职工肝大与所在地区的污染程度是否关系很显著污染程度是否关系很显著. . 1) 1) 用方差分析检验不同类别的污染地用方差分析检验不同类别的污染地区一年之间肝增大量区一年之间肝增大量(Y)(Y)是否有显著性差是否有显著性差异异? ?这是个单因素的方差分析模型这是个单因素的方差分析模型, ,因变量因变量( (指标指标) )为为Y,Y,因素为定性因素为定性( (属性属性) )变量变量X4.X4.环境科学环境科学大气环境污

37、染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 问题可化为假设检验问题:假设问题可化为假设检验问题:假设即假设即假设5 5类地区职工中肝的平均增大数量相等类地区职工中肝的平均增大数量相等. .用用920920人的观测数据来检验这个假设是否成立人的观测数据来检验这个假设是否成立. . 分析计算的结果在分析计算的结果在 0.010.01的水平上的水平上否否定这个假设定这个假设. .这表明五类不同地区的平均肝这表明五类不同地区的平均肝增大数量有显著性差异增大数量有显著性差异. . 类似地可以把性别类似地可以把性别(X1)(X1)作为因素作为因素, ,检验男女职检验男女职工平均肝增大数

38、量是否有显著差异工平均肝增大数量是否有显著差异. .结果是没有结果是没有明显差异明显差异. .环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 这说明职工肝大主要是由大气污染这说明职工肝大主要是由大气污染引起的引起的. .与性别与性别( (或或年龄年龄, ,工龄工龄) )无关无关, ,也也不是由有些人所说是由于水质不好引不是由有些人所说是由于水质不好引起的起的. . 2) 2) 用回归分析方法建立用回归分析方法建立Y(Y(肝增大数量肝增大数量) )与与X1,X2,X3,X4X1,X2,X3,X4的相关关系式的相关关系式. . 因为因为X3X3和和X4X4

39、为定性为定性( (属性属性) )变量变量, ,建立模建立模型之前先把这两个变量数量化型之前先把这两个变量数量化. . X3=0 X3=0表示女性表示女性,X3=1,X3=1表示男性表示男性. .环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 由以上讨论的大气污染地区的分类结果知该地区的污染情况可分为五类. 引入极严重极严重很严重很严重严重严重一般一般较轻较轻环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 用逐步回归分析方法计算得用逐步回归分析方法计算得: : 第第1,2,31,2,3类是污染严重的地区类是污染严

40、重的地区, ,在这三类在这三类地区内地区内 , ,故故 Y = 0.4611= 0.4611说明住在污染严重地区的职工于说明住在污染严重地区的职工于7878年至年至7979年间肝平均增大年间肝平均增大0.4611(0.4611(厘米厘米); ); 环境科学环境科学大气环境污染的评估及与职工健康的关系大气环境污染的评估及与职工健康的关系 住在第住在第4 4类地区类地区( )( )的职工的职工, ,这一这一年间肝平均增大数量为年间肝平均增大数量为 0.4611-0.3486=0.1125;0.4611-0.3486=0.1125;而住在第而住在第5 5类地区类地区( )( )的职工的职工, ,在在

41、这一年间肝平均增大数量为这一年间肝平均增大数量为 0.4611-0.2969=0.1642.0.4611-0.2969=0.1642.总之总之, ,以上分析结果表明以上分析结果表明, ,肝大是由大气污肝大是由大气污染引起的染引起的, ,与年龄与年龄, ,工龄工龄, ,性别无显著关系性别无显著关系. . 其它指标的分析结果这里省略了其它指标的分析结果这里省略了. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域 5.5.地质学地质学 6. 考古学考古学 7. 服装工业服装的定型分类问题服装工业服装的定型分类问题 8. 经济学经济学(1)(4) 9. 农业

42、农业(请参阅教材请参阅教材应用多元统计分析应用多元统计分析P6-7) 第一章第一章 绪绪 论论 1.2 1.2 元统计分析的应用领域元统计分析的应用领域-社会科学社会科学 10.10.社会科学社会科学 青少年犯罪问题是一个很大的社会问题。对青少年犯罪问题是一个很大的社会问题。对待青少年犯罪,我们采取待青少年犯罪,我们采取“以防为主、防重以防为主、防重干治干治”的原则。要预防犯罪,除了加强经常的原则。要预防犯罪,除了加强经常性的教育外,还必然提出性的教育外,还必然提出预测犯罪预测犯罪的问题。的问题。如能对青少年犯罪心理和行为倾向性在犯罪如能对青少年犯罪心理和行为倾向性在犯罪行为发生之前便预测到,

43、争取把它消灭在萌行为发生之前便预测到,争取把它消灭在萌芽状态,才能做到实际预防芽状态,才能做到实际预防。 第一章第一章 绪绪 论论1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-社会科学社会科学 为此目的,为此目的,19811982年中年中央教育科学研究所等几个单位央教育科学研究所等几个单位协作进行了调查研究工作,调协作进行了调查研究工作,调查对象为一般中学生及工读学查对象为一般中学生及工读学校、少管所、劳教农场、和劳校、少管所、劳教农场、和劳改农场的青少年。改农场的青少年。社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 具体地说具体地说, ,使用逐步判别分析方法使

44、用逐步判别分析方法. .利用所利用所调查的二大方面内容调查的二大方面内容: :心理因素心理因素(如物质追求感如物质追求感、隔离感隔离感、无目的感无目的感、团团伙义气感伙义气感)和外部因素和外部因素(如性别、家如性别、家庭平均收入庭平均收入、每月零花钱每月零花钱、住宅面积住宅面积)共共25项指标项指标. .这些指标中有些是属这些指标中有些是属性指标性指标, ,如如性别性别、物质追求感等、物质追求感等, ,用于用于建立判别式之前建立判别式之前, ,先把它们数量化先把它们数量化. .社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 性别性别SexSex为为0 0表示女表示女, ,为为1

45、1表示男表示男; ; 若调查表中的物质追求感有三种选择若调查表中的物质追求感有三种选择: :很强很强, ,一般和弱一般和弱, ,那么可用二个变量那么可用二个变量V1,V2V1,V2来表示来表示: : (V1,V2)=(1,0) (V1,V2)=(1,0)表示很强表示很强, , (V1,V2)=(0,1) (V1,V2)=(0,1)表示一般表示一般, , (V1,V2)=(0,0) (V1,V2)=(0,0)表示弱表示弱. .其它的属性指标类似处理其它的属性指标类似处理. . 社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 把被调查的青少年分为几类把被调查的青少年分为几类( (根据

46、所犯根据所犯罪行罪行),),利用调查资料来逐步筛选出区分这利用调查资料来逐步筛选出区分这几个类的指标几个类的指标, ,然后用这几个指标建立判然后用这几个指标建立判别式别式, ,并用所得到的判别式对这些青少年并用所得到的判别式对这些青少年进行归类进行归类, ,检验判别式的有效性检验判别式的有效性. . 将来就是要应用由这批调查资料所得的将来就是要应用由这批调查资料所得的判别式对另一些青少年进行归类判别式对另一些青少年进行归类, ,及早发及早发现有问题的青少年现有问题的青少年. . 社会科学社会科学青少年犯罪的防治与预测青少年犯罪的防治与预测 如果只把青少年分为正常和有问如果只把青少年分为正常和有

47、问题两类题两类, ,那么判别的效果是很满意的那么判别的效果是很满意的. . 如果有问题的这一类又细分为如果有问题的这一类又细分为: :小偷小偷, ,打架斗殴打架斗殴, ,流氓流氓, ,杀人等类杀人等类, ,所建立的判别所建立的判别式的效果就很不理想了式的效果就很不理想了, ,如把打架斗殴被如把打架斗殴被判为小偷判为小偷, ,而小偷被判为流氓等等而小偷被判为流氓等等. .但是好但是好人人, ,坏人基本上是分清了坏人基本上是分清了. . 也就是有问题的青少年还是可以预测也就是有问题的青少年还是可以预测出来的出来的. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的

48、应用领域-文学文学 11.11.文学文学 自从二十世纪自从二十世纪3030年代末英国著名的统计年代末英国著名的统计学家学家YuleYule把统计方法引入到文学词汇的把统计方法引入到文学词汇的研究以来研究以来, ,这个领域已经取得不少进展这个领域已经取得不少进展, ,最有名的是最有名的是MostellerMosteller与与WallaceWallace在在6060年年代初对美国立国三大历史文献之一的代初对美国立国三大历史文献之一的联邦主义者文集的研究联邦主义者文集的研究. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 在在1985,198

49、61985,1986年我国复旦大学统计运筹系的年我国复旦大学统计运筹系的李贤平教授对我国的名著红楼梦的著作权李贤平教授对我国的名著红楼梦的著作权进行研究进行研究. .使用的统计方法主要是多元分析使用的统计方法主要是多元分析. . 先选定数十个与情节无关的虚词先选定数十个与情节无关的虚词( (如如: :了了, ,吗吗, ,嘛嘛, ,喱喱, ,呢呢, ,么么,等等) )作为变量作为变量, , 把红楼梦把红楼梦一书一书中的中的120120回作为回作为120120个样品个样品, ,统计每一回统计每一回( (即样品即样品) )选定的这些虚词选定的这些虚词( (即变量即变量) )出现的频数出现的频数. .

50、由此得到的由此得到的120120行行m列的列的数据阵作为分析的依数据阵作为分析的依据据. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 在红楼梦的著作权的研究中使用较多的在红楼梦的著作权的研究中使用较多的方法是聚类分析方法是聚类分析, ,主成分分析主成分分析, ,典型相关分析等典型相关分析等方法方法, ,由输出的大量图形可以看出由输出的大量图形可以看出: : (1) (1) 前前8080回和后回和后4040回截然地分为两类回截然地分为两类; ; (2) (2) 第第6767回落入后回落入后4040回的这一类中回的这一类中; ; (3) (

51、3) 前前8080回广泛散布回广泛散布, ,并有若干规律并有若干规律; ; (4) (4) 后后4040回依回目的先后可分为几类回依回目的先后可分为几类. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 由以上分析结果可以证实由以上分析结果可以证实: : (1) (1)前前8080回和后回和后4040回不是出于同一个人的回不是出于同一个人的手笔手笔; ; (2) (2)前前8080回是否为曹雪芹所写回是否为曹雪芹所写? ?通过用曹通过用曹雪芹的另一著作雪芹的另一著作, ,做类似的分析做类似的分析, ,结果证实了结果证实了用词手法完全相同用词

52、手法完全相同, ,断定为曹雪芹一人手笔断定为曹雪芹一人手笔; ; (3) (3)而后而后4040回是否为高鹗写的回是否为高鹗写的? ?结论推翻结论推翻了后了后4040回是高鹗一人所写回是高鹗一人所写. .后后4040回的成书比回的成书比较复杂较复杂, ,既有残稿也有外人笔墨既有残稿也有外人笔墨, ,不是高鹗一不是高鹗一人所续人所续. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 以上这些论证在红学界引起轰动以上这些论证在红学界引起轰动. .他们用多元统计分析方法提出了关于他们用多元统计分析方法提出了关于红楼梦作者和成书过程的新学说红楼梦作

53、者和成书过程的新学说. . 李贤平教授他们又把这类方法用于李贤平教授他们又把这类方法用于其他作家和作品其他作家和作品, ,结果证明统计方法结果证明统计方法的分辩能力是很强的的分辩能力是很强的. . 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-文学文学 从有关资料中我还看到从有关资料中我还看到:1980:1980年美国年美国华人教授华人教授陈炳藻陈炳藻也用类似的统计方法研究也用类似的统计方法研究了红楼梦的作者了红楼梦的作者. .当时把当时把前前80回和后回和后40回分开成为二部分回分开成为二部分,又另取英雄儿女又另取英雄儿女一书一书.考虑的用词有名词考

54、虑的用词有名词,形容词和虚词形容词和虚词等等.计算这三部分的相关系数计算这三部分的相关系数,得出前得出前80回回和后和后40回的相关系数为回的相关系数为0.7以上以上,而与英而与英雄儿女的相关系数只有雄儿女的相关系数只有0.3.从而得出结从而得出结论认为前论认为前80回和后回和后40回的作者为同一人回的作者为同一人. 第一章第一章 绪绪 论论 1.2 1.2 多元统计分析的应用领域多元统计分析的应用领域-其他其他 12.12.其他其他 体育科研体育科研 军事科学军事科学 生物学生物学 心理学心理学 生态学生态学 保险科学保险科学 火警预报火警预报 地震预报地震预报 中医阴阳学说研究中医阴阳学说

55、研究 林业科学林业科学 . . 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法 图形有助于对所研究的数据的直观了解图形有助于对所研究的数据的直观了解, ,一维或二一维或二维数据的图形容易得到维数据的图形容易得到, ,三维图形虽也可以画出,但三维图形虽也可以画出,但并不方便并不方便. .三维以上图形如何表示三维以上图形如何表示? ?许多统计学家给出许多统计学家给出了多维数据的图示方法,但这方面的研究还处于不成了多维数据的图示方法,但这方面的研究还处于不成熟状态,目前尚未有公认的方法熟状态,目前尚未有公认的方法. .下面介绍几种国际下面介绍几种国际上近几十年

56、来出现的方法,其中有一些依赖人工容易上近几十年来出现的方法,其中有一些依赖人工容易实现,但是有一些要是没有计算机的帮助,恐怕较难实现,但是有一些要是没有计算机的帮助,恐怕较难实现实现. . 设变量个数为设变量个数为p,观测次数为,观测次数为n,第,第k次观测值记次观测值记为为 X(k) =( =(xk1 xk2 xkp) (k=1,2,n) 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-轮廓图轮廓图轮廓图的作图步骤为:轮廓图的作图步骤为: (1) (1) 作直角坐标系,横坐标取作直角坐标系,横坐标取个点表示个点表示个变个变量量. . (2) (2) 对

57、给定的一次观测值,在对给定的一次观测值,在个点上的纵坐标个点上的纵坐标(即高度)和它对应的变量取值成正比(即高度)和它对应的变量取值成正比. . (3) (3) 连接连接个高度的顶点得一折线个高度的顶点得一折线. .则一次观测值则一次观测值的轮廓为一条多角折线形的轮廓为一条多角折线形. . n次观测值可画出次观测值可画出n条折线,构成轮廓条折线,构成轮廓图图. . 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-轮廓图轮廓图 表表1.11.1中中1212个学生学习成绩的轮廓图如下:个学生学习成绩的轮廓图如下: 政治政治语文语文外语外语数学数学物理物理10

58、0 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-轮廓图轮廓图 由轮廓图可直观看出,哪几个学由轮廓图可直观看出,哪几个学生成绩相似,哪些属优秀、哪些中生成绩相似,哪些属优秀、哪些中等、哪些较差,对几门课程可直观等、哪些较差,对几门课程可直观地看成绩的好坏,分散情况等等地看成绩的好坏,分散情况等等. .这这种图形在聚类分析中颇有帮助种图形在聚类分析中颇有帮助. . 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-雷达图雷达图雷达图的作图步骤是:雷达图的作图步骤是: (1) 作一圆,并把圆周分为等分. (2) 连接圆

59、心和各分点,把这条半径依次定义为各变量的坐标轴,并标以适当的刻度. (3) 对给定的一次观测值,把个变量值分别点在相应的坐标轴上,然后连接成一个边形.n次观测值可画出n个边形. 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-雷达图雷达图政治政治语文语文外语外语数学数学物理物理121 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-雷达图雷达图 这种图形既象雷达荧光屏上看到的图象,也这种图形既象雷达荧光屏上看到的图象,也象个蜘蛛网象个蜘蛛网. .因此有人称为雷达图,也有人称为因此有人称为雷达图,也有人称为 蜘蛛图蜘蛛图

60、. .以上图形中画出表以上图形中画出表1.11.1中第一个和第十中第一个和第十二个学生的成绩二个学生的成绩. . 各科都达到各科都达到100100分的学生对应着一个面积最分的学生对应着一个面积最大的正五边形大的正五边形. .第一个学生的图形接近正五边形,第一个学生的图形接近正五边形,因此是个学习成绩优秀的学生因此是个学习成绩优秀的学生. . 另方面,学习成绩差的学生,其图形面积也另方面,学习成绩差的学生,其图形面积也小,第十二个学生就是如此,而且其图形明显小,第十二个学生就是如此,而且其图形明显偏右上方,这意味着数学,物理和外语成绩极偏右上方,这意味着数学,物理和外语成绩极差,而语文,政治还算

61、过得去差,而语文,政治还算过得去. . 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 从数学上看,较为完美的多维数据图表示从数学上看,较为完美的多维数据图表示方法可能是方法可能是D.F.D.F.Andcews在在19721972年提出的三角多年提出的三角多项式表示法项式表示法. .其思想是把多维空间中的一个点对其思想是把多维空间中的一个点对应于二维平面上的一条曲线应于二维平面上的一条曲线. . 设设 p 维数据维数据X(x1 ,x2 , xp) ),则对应的则对应的曲线是曲线是 第一章第一章 绪绪 论论1.3 1.3 多元统计数据

62、的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 表表1.11.1学生成绩数据中,第一个学生对应的学生成绩数据中,第一个学生对应的曲线为曲线为 第十二个学生对应的曲线为第十二个学生对应的曲线为 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图f2f1f11f12 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-调和曲线图调和曲线图 n次观测对应次观测对应n条曲线条曲线, ,画在同一平面上画在同一平面上就是一张调和曲线图就是一张调和曲线图. .在多项式的图表示中,在多项式的图表示中,当各变量的数

63、值太悬殊时,最好先标准化当各变量的数值太悬殊时,最好先标准化后再作图后再作图. . 作调和曲线图时一般要借助计算机作图,这作调和曲线图时一般要借助计算机作图,这种图对聚类分析帮助很大,如果选择聚类统计种图对聚类分析帮助很大,如果选择聚类统计量为距离的话,同类的曲线拧在一起,不同类量为距离的话,同类的曲线拧在一起,不同类的曲线拧成不同的束,非常直观的曲线拧成不同的束,非常直观. . 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-散布图矩阵 当当p=2=2时时, ,常把常把n次次2 2维观测数据点在平面维观测数据点在平面上生成一张散点图上生成一张散点图, ,

64、由散点图可直观地看由散点图可直观地看出变量出变量X X与与Y Y间的相关关系及相关的程度间的相关关系及相关的程度. . 当当p2 2时时, ,我们也想借助散点图来直观我们也想借助散点图来直观给出变量之间给出变量之间, ,观测点之间的关系观测点之间的关系, ,可以对可以对p p个变量个变量两两配对两两配对生成一张散点图矩阵生成一张散点图矩阵, ,通通过这张图过这张图, ,不仅可以了解到每两个变量间不仅可以了解到每两个变量间的相关情况的相关情况, ,在在SASSAS系统中系统中, ,还可通过还可通过“刷刷亮亮”方法来找出异常点方法来找出异常点 . 第一章第一章 绪绪 论论1.3 1.3 多元统计数

65、据的图表示法多元统计数据的图表示法-散布图矩阵 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 在多元数据的图表示法中在多元数据的图表示法中, ,还有还有星座图星座图、脸谱图脸谱图、装饰图装饰图等表示法等表示法. .最为浪漫的可能是脸谱图最为浪漫的可能是脸谱图. .它把多元数它把多元数据表示成一张脸谱图据表示成一张脸谱图. .脸的轮廓由上下两个椭圆构成脸的轮廓由上下两个椭圆构成. .这这些椭圆的长短轴及离心率等均由多元数据中某些变量来些椭圆的长短轴及离心率等均由多元数据中某些变量来刻画刻画. .另一些变量决定鼻子长度另一些变量决定鼻子长度, ,

66、 嘴的位置及圆弧的长度嘴的位置及圆弧的长度与向上还是向下与向上还是向下, ,眼晴的大小,眼珠的位置眼晴的大小,眼珠的位置, ,眉毛的角度眉毛的角度等等. . 如果变量很多如果变量很多, ,脸谱可以刻划得细致些脸谱可以刻划得细致些, ,变量不多变量不多, ,则则把一部分器官形态固定把一部分器官形态固定, ,只让另一部分器官变化只让另一部分器官变化. .在实际在实际应用中应用中, ,脸谱图也有发展脸谱图也有发展, ,如在脸谱上加眼泪以表示如在脸谱上加眼泪以表示 很坏很坏情况的出现情况的出现; ;还可以在脸谱基础上加上体型还可以在脸谱基础上加上体型, ,用一些变量用一些变量来决定体型的胖瘦来决定体型

67、的胖瘦, , 高矮等。高矮等。 第一章第一章 绪绪 论论 1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 最后我们指出最后我们指出, ,多元数据的图表示法的多元数据的图表示法的难点在于变量过多难点在于变量过多. .如果有一种方法可以如果有一种方法可以把高维数据投影到二维空间把高维数据投影到二维空间( (平面平面) )中去中去. .并且在投影过程中不会过多地损失原有数并且在投影过程中不会过多地损失原有数据信息的话据信息的话, ,就可以使用通常方法在平面就可以使用通常方法在平面上画出这些本来是高维数据的图形来上画出这些本来是高维数据的图形来. . 后后面将介绍的主成分分析等方法就是一些降面将介绍的主成分分析等方法就是一些降维的方法维的方法。 第一章第一章 绪绪 论论1.3 1.3 多元统计数据的图表示法多元统计数据的图表示法-其它其它 (1) (1) 参见参见实用多元统计分析实用多元统计分析(方开泰方开泰) 第八章第八章 (2) (2) 参见参见多元统计分析多元统计分析(于秀林于秀林) 第四章第四章 结束语结束语谢谢大家聆听!谢谢大家聆听!83

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号