多元统计分析知识点多元统计分析课件

上传人:工**** 文档编号:474083818 上传时间:2024-02-18 格式:DOC 页数:70 大小:3.28MB
返回 下载 相关 举报
多元统计分析知识点多元统计分析课件_第1页
第1页 / 共70页
多元统计分析知识点多元统计分析课件_第2页
第2页 / 共70页
多元统计分析知识点多元统计分析课件_第3页
第3页 / 共70页
多元统计分析知识点多元统计分析课件_第4页
第4页 / 共70页
多元统计分析知识点多元统计分析课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《多元统计分析知识点多元统计分析课件》由会员分享,可在线阅读,更多相关《多元统计分析知识点多元统计分析课件(70页珍藏版)》请在金锄头文库上搜索。

1、目录第一章绪论11.1什么是多元统计分析11.2多元统计分析能解决哪些实际问题21.3主要内容安排2第二章多元正态分布22.1基本概念22.2多元正态分布的定义及基本性质81.(多元正态分布)定义92.多元正态变量的基本性质102.3多元正态分布的参数估计111.多元样本的概念及表示法122. 多元样本的数值特征123.和 的最大似然估计及基本性质154.Wishart分布17第五章 聚类分析185.1什么是聚类分析185.2距离和相似系数191Q型聚类分析常用的距离和相似系数202.R型聚类分析常用的距离和相似系数255.3八种系统聚类方法261.最短距离法272.最长距离法303.中间距离

2、法324.重心法355.类平均法376.可变类平均法387.可变法388.离差平方和法(Word方法)38第六章判别分析396.1什么是判别分析396.2距离判别法401、两个总体的距离判别法402.多总体的距离判别法456.3费歇(Fisher)判别法461.不等协方差矩阵两总体Fisher判别法462.多总体费歇(Fisher)判别法516.4贝叶斯(Bayes)判别法581.基本思想582.多元正态总体的Bayes判别法596.5逐步判别法611.基本思想612.引入和剔除变量所用的检验统计量623.Bartlett近似公式632 第一章绪论1.1什么是多元统计分析在自然科学、社会科学以

3、及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。例如,研究某公司的经营状况,需要观测公司的财务指标有:每股净资产(X

4、1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。多元统计分析研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。1.2多元统计分析能解决哪些实际问题经济学:对我国32个省市自治区的社会情况进行分析。工业:服装厂

5、生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)投资组合:1.3主要内容安排多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。第二章多元正态分布2.1基本概念1.随机向量的概率分布定义1 将p个随机变量的整体称为p维随机向量,记为在多元统计分析中,仍然将所研究对象的全体称为总体。一元总体分布函数和分别密度定义:为随机变量X的概率分布,记为。离散型: k=1,2,3,; 连续型: ; 定义2 设是p维随机向量,它的多元分别函数定义为记为,其中记为。定义

6、3 设是p维随机向量,若存在有限个或可列个p维数向量,,记 (k=1,2,3,),且满足,则称X为离散型随机向量,称(k=1,2,3,)为的概率分布。设p维随机向量,若存在一个非负函数,使得对一切,有则称X为连续随机向量,称为分布密度函数,易见 , 例1试证函数为随机向量的密度函数。证:(1)易见(2)定义4 设是p维随机向量,称由q(p)个分量组成的子向量的分布为的边缘(或边际)分布(通过变换中各分量的次序,总可以假定正好是的前q个分量,其余p-q个分量为),即,相应的取值也可以分成两部分。的边缘分布函数为当有分布密度时,则的分布密度为例2 对例1中的求边缘密度函数。解:当时当时0从而有同理

7、可得到定义5 若p维随机向量的联合分布等于各自边缘分布的乘积,则称是相互独立的一切对于连续型随机变量,有 一切(有时候根据几何图形判断概率,根据试验的背景判断独立性)例3 例2中的与是否相互独立?解:例1中密度函数例2中求得的边缘分布 及所以有,即与相互独立。如果相互独立,则任何与独立,反之不真。2.随机向量的数字特征定义6设,若(i=1,2,3,)存在,则称为X的均值(向量)或期望,也记为均值向量性质:其中X、Y为随机向量,A、B为常数矩阵。定义7 设, 称=为X的方差矩阵或协方差矩阵,有时简记为称随机向量X和Y的协方差矩阵为 =若X的协方差矩阵存在,且每个分量的方差大于零,则X的相关系数矩

8、阵为其中 (i,j=1,2,3,p)为与的相关系数。记标准离差矩阵则有 , 易见。实际上,对于任意非零向量,为半正定矩阵。例4 设,则可得, 容易验证若,称X与Y不相关。若X与Y独立,则X与Y不相关,反之不成立。(正态分布反之成立)协方差矩阵性质:;。2.2多元正态分布的定义及基本性质多元正态分布在多元统计分析中所处的地位,如同一元统计分析中一元正态分布所处的地位一样重要,多元统计分析中的许多理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。另外,在实用中遇到的随机向量常常是服从或近似服从正态分布。因此,现实世界中许多实际问题的解决办法都是以总体服从正态分布或近

9、似正态分布为前提。1.(多元正态分布)定义定义8 若p维随机向量的密度函数为其中,而是p为常数向量,是p阶正定矩阵,则称X服从p元正态分布,也称X为p维正态随机向量,简记为X。(是退化矩阵时,用特征函数的方法定义)当p=1时,记为一元正态分布密度函数。当p=2时,有, , 二元正态分布密度函数可以写成2.多元正态变量的基本性质若X,当是p阶对角矩阵时,相互独立;若X,为常数矩阵,d为s维常数向量,则AX+d若X,将X作如下划分:, , 则,。说明:多元正态分布的任何边缘分布为正态分布,反之不真。协方差矩阵(表明不相关)的充分必要条件是与独立。例5 ,其中,设,则,其中,即。,其中,记(分块矩阵

10、),则多元统计中的很多统计方法,大都假定数据来自多元正态总体。但是要判断已有的数据是否来自多元正态总体不是一件容易的事,不过要肯定数据不是来自多元正态总体,有一些简易的方法,例如服从p元正态分布,则它的每一个分量必须服从一元正态分布,因此把某个分量的n个样本作成直方图,如果断定不呈正态分布,则可以断定也不服从p元正态分布。2.3多元正态分布的参数估计在实际应用中,多元正态总体中均值向量和协方差矩阵通常是未知的,需由样本来估计,而参数的估计方法有很多,这里用常见的极大似然估计给出其估计量。1.多元样本的概念及表示法设是p元总体中抽取的相互独立的随机样本,简称为样本,每个称为一个样品。其中为第个样

11、品对第j个指标的观测值。每一行都是总体的简单随机样本。每个样本各分量之间有相关关系,不同样本之间一定相互独立;多元统计中样本常常是横截面数据,不同于时间序列中样本数据(纵向数据)。2. 多元样本的数值特征定义设为来自p元总体的样本,其中。 样本均值向量定义为 样本离差矩阵定义为其中 样本协方差矩阵定义为 样本相关系数矩阵定义为其中样本均值向量和离差矩阵也可以用样本资料矩阵表示。记, 则 由于 所以3.和 的最大似然估计及基本性质均值向量和协方差矩阵的最大似然估计及基本性质设为来自p元正态总体的容量为n的样本,每个样本,样本资料矩阵为和的最大似然估计为和的估计量的性质: ,即是的无偏估计;,即不

12、是的无偏估计。,即是的无偏估计。 分别是的有效估计;(最小方差无偏估计) (或)分别是的一致估计量(相合估计量)。设为参数的估计量,若对于任意,当时,以概率收敛到,则称是的一致估计量。由于 定理(P27)设分别是正态总体的样本均值和离差矩阵,则 ;离差矩阵可以写为:其中,独立同服从分布;与相互独立;为正定矩阵的充要条件是。4.Wishart分布在实际应用中,常采用分别作为的估计。定义 设,且相互独立,则由组成的随机矩阵的分布称为非中心Wishart分布,记为,其中;当全部=0时,称为中心Wishart分布,记为,密度函数见书P28。当时,密度函数就是的分布密度,Wishart分布是克方分布在p

13、为正态情况下的推广。基本性质: 设且相互独立,则样本离差矩阵,其中。 且相互独立,则若,为非奇异矩阵,则。第五章 聚类分析5.1什么是聚类分析聚类分析又称为群分析,它是数理统计中研究“物以类聚”的一种统计分析方法。在数值分类方面,可以分为两大类问题,一类是已知研究对象的分类情况,将某些未知个体归属其中某一类(判企业归宿),这是判别分析所要解决的问题;另一类问题不存在一个事前分类的情况下,而进行数据结构的分类,这就是本章聚类分析所要解决的问题(怎么把企业聚类)。聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认知不断加深,分类越来越细

14、,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。在社会经济领域存在大量分类问题:例如,根据某些经济指标将全国32个省市自治区分类;根据上市公司总股本、流通股本、每股收益等指标,将2400多家上市公司分类;根据N个国家的森林面积、森林覆盖面积、林木积蓄量及草原面积把N个国家进行科学分类;学生按各科考试成绩分类;酒分成好、中、次分析;将杭州市所有企业按经济类型、生产规模分类。这些都属于聚类问题。聚类问题内容丰富,有系统聚类法、动态聚类法、模糊聚类法、图论,其中系统聚类法是目前国内外应用最为广泛的一种方法,本章仅介绍此

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 大杂烩/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号