文档详情

[数学]第3章_多元正态分布均值向量和协差阵的检验

油条
实名认证
店铺
PPT
483.50KB
约42页
文档ID:49785765
[数学]第3章_多元正态分布均值向量和协差阵的检验_第1页
1/42

多元统计分析党耀国 经济与管理学院Iamdangyg@第三章 多元正态分布均值向量和 协差阵的检验 一、均值向量的检验 二、协差阵的检验 1、霍特林(Hotelling) 分布 由于这一统计量的分布首先由霍特林提出来的 ,故称为霍特林T2分布值得指出的是,我国著 名的统计学家许宝騄先生在1938年用不同的方法 也导出T2分布的密度函数在一元统计中,若 来自总体 的样本,则统计量其中 显然 与上面给出的T2统计量形式类似,且 , 可见T2分布是t分布的推广在一元统计中,若 分布, 则 分布,即把t分布转化为F分 布来处理,在多元统计分析中统计量也有类 似的性质这个公式在后面检验中经常用到2、一个正态总体均值向量的假设检验• 这里需要对统计量的选取做一些解释, 说明为什么统计量服从 分布根据 二次型分布定理,若 则显然 而故在处理实际问题时,单一变量的检验和多变量的检 验可以联合使用,多元的检验具有概括和全面的特点, 而一元的检验容易发现各变量之间的关系和差异,能给 人们提供更多的统计分析的信息。

• 例1:对某地区农村的6名2周岁男婴的身高、胸围、上半 臂围进行测量,得样本数据如表所示:编号身高(cm)胸围( cm)上半臂围( cm) 17860.616.5 27658.112.5 39263.214.5 48159.014.0 58160.815.5 68459.514.0根据以往资料,该地区城市2周岁男婴的三个指标的均值 为(90,58,16),假定总体服从正态分布,问该地区农 村男婴与城市男婴在上述三个指标的均值有无显著性差异 ?显著性水平取0.01这是一个假设检验问题:3、两个正态总体均值向量的假设检验• 当两个总体的协方差阵未知时,自然会想 到用每个总体的样本协方差阵 和 去代替,而又由于 所以有 以后假设统计量的选取和前面统计量的选取思路是 一样的,只提出待检验的假设,然后给出统计量及其分 布,为节省篇幅,就不再重复解释例3.2 为了研究日美两国在华投资企业对中国经营环境的评价 是否存在差异,今从两国在华投资企业中各抽取10家,让其对 中国的政治、经济、法律、文化等环境进行打分,其结果如表 3.2和表3.3数据来源于国务院发展研究中心APEC在华投资 企业情况调查)表3.2 美国在华投资企业的打分序号政治环境经济法律环境文化环境 165352560 275502055 360453565 475404070 570303050 655403565 760453060 865402560 960503070 1055553575表3.3 日本在华投资企业的打分序号政治环境经济法律环境 文化环境 155554065 250604570 345453575 450505070 555503075 660404560 765554575 850603580 940453065 1045504570解: 比较日美两国在华投资企业对中国多方面经营环境的 评价是否存在差异问题,就是两总体均值向量是否相等的 检验问题。

记日美两国在华投资企业对中国4个方面经营环 境的评价可以看成是2个4元总体,因此可设两组样本分别 来自于正态总体,分别记为:且两组样本相互独立,有共同未知协方差阵 假设检验 构造统计量 经计算得 进一步计算得 对于给定的显著性水平 ,查F分布表,临界值 由于 ,则拒绝H0,即认为日美两国在华投资企 业对中国经营环境的评价存在显著性差异1) 单因素方差分析(复习)(2)Wilks(威尔克斯分布) (3) 在一元统计分析中,方差是刻画随机变量分散程度的 一个重要特征,而方差的概念在多变量情况下变为协差阵 如何用一个数量指标来反映协差阵所体现的分散程度呢?有 的用行列式,有的用迹等方法,目前用的最多的是行列式这里需要说明的是,在实际应用中经常把Λ统计量化为T2统计 量,进而再化为F统计量,利用F统计量来解决多元统计分析 中有关检验问题3)多元方差分析• 类似一元方差分析办法,将诸平方和变成离差阵有 :例3.3 为了研究某种疾病,对一批人同时测量 了4个指标: β脂蛋白(X1),甘油三酯(X2), α脂蛋白(X3),前β脂蛋白(X4),按不同年龄、不同性别分为三组(20至35 岁女性、20至25岁男性和35至50岁男性), 数据见表3.4~表3.6,试问这三组的4项指标间 有无显著性差异?(α=0.01)表3.4 20至35岁女性身体指标化验数据 序号β脂蛋白(X1)甘油三酯(X2)α脂蛋白(X3)前β脂蛋白(X4)1260754018 2200723417 3240874518 4170653917 5270110392462051303423 7190692715 8200464515 92501172120 102001072820 112251303611 122101252617 13170643114 14270763313 15190603416 16280812018 173101192515 1827057318 19250673114 202601353929表3.5 20至25岁男性身体指标化验数据序号β脂蛋白(X1 )甘油三酯(X2 )α脂蛋白(X3)前β脂蛋白(X4)13101223021 2310603518 3190402715 4225653416 5170653716 6210823117 7280673718 8210383617 9280653023 10200764017 11200763920 12280942611 13190603317 14295553016 152701252421 162801203218 17240623220 18280692920 19370703020 20280403717表3.6 35至50岁男性身体指标化验数据序号β脂蛋白(X1)甘油三酯(X2)α脂蛋白(X3)前β脂蛋白(X4)1320643917 2260593711 3360882826 42951003612 5270653221 63801143621 7240554210 8260553420 92601102920 10295733321 112401143818 123101033218 133301122111 143451272420 15250622216 16260592119 172251003430 183451203618 193601072523 202501173616• 解: 比较3个组(k=3)的4项指标(p=4)间是否 有显著性差异问题,就是多总体均值向量是否相等 的检验问题。

设第i组为4维总体 , 来自3个总体的样本容量 检验: : 至少有一对不相等 因统计量 ,可利用 统计量与F统计 量的关系,取检验统计量为F统计量:其中 由样本计算得: ,,进一步计算可得计算F统计量的2个自由度为8和108对于给定的检验水平 ,查F分布表,得临界 值 由于样本值 , 则拒绝H0说明三个组的指标间有显著性的差异进一步若还想了解三个组间指标的差异究竟由哪几 项指标引起的,可以对4项指标逐项用一元方差分析方 法进行检验,我们将发现三个组指标间只有第一项指 标(X1)有显著性差异事实上,用一元方差分析检验第一项指标(X1) 在三个组中是否有显著性差异时,因对于给定的检验水平 ,查F分布表,得临界值 。

由于样本值 ,说 明第一项指标(X1)有显著性的差异例4 :对例3中给出的3组身体指标化验数据,试判 断这3个组的协方差阵是否相等?( ) 解: 这是3个4维正态总体的协方差阵是否相等的 检验问题设第i组为4维总体 , 来自3个总体的样本容量 检验:至少有一对不相等在 成立时,取近似检验统计量为统计量:由样本值计算3个总体的样本协方差阵:,进一步可以计算出则得 对于给定的检验水平 ,查 分布表,得临界值由于样本值则接受H0 说明这3个组的协方差阵之间没有显著性的差异3、多个正态总体均值向量和协差阵同时检验设有k个p维正态总体分别为每个,且未知,从k个正态总体中分别取ni()个独立样本如下:第2个总体: 第k个总体:我们考虑假设检验 :且第1个总体:或至少有一对不相等构造统计量 其中 记在实际应用中,将统计量中的改为n-k改为n ,得到修正的统计量,记为则统计量在n很大,H0成立时,统计量近似服从 其中: 给定检验水平 ,由样本值计算出 值,若,或 否则拒绝H0,否则接受H0。

例3.5 对例3.3中给出的3组身体指标化验数据,试判断这3个组 的均值向量和协方差阵是否相等?( ) 解: 这是3个4维正态总体的均值向量和协方差阵是否同时相 等的检验问题设第i组为4维总体 ,来自3个 总体的样本容量,至少有一对不相等 成立时,取近似检验统计量为 统计量:由样本值计算3个总体的样本协方差阵及总离差阵T,进一步 可以计算出则得 对于给定的检验水平 ,得临界值 由于 说明这3个组的均值向量和协方差阵之间有显著性的差异检验:且 或 在,则拒绝H0。

下载提示
相似文档
正为您匹配相似的精品文档