多元统计分析及重点和内容和方法

上传人:豆浆 文档编号:19507304 上传时间:2017-11-19 格式:DOC 页数:12 大小:928KB
返回 下载 相关 举报
多元统计分析及重点和内容和方法_第1页
第1页 / 共12页
多元统计分析及重点和内容和方法_第2页
第2页 / 共12页
多元统计分析及重点和内容和方法_第3页
第3页 / 共12页
多元统计分析及重点和内容和方法_第4页
第4页 / 共12页
多元统计分析及重点和内容和方法_第5页
第5页 / 共12页
点击查看更多>>
资源描述

《多元统计分析及重点和内容和方法》由会员分享,可在线阅读,更多相关《多元统计分析及重点和内容和方法(12页珍藏版)》请在金锄头文库上搜索。

1、一、什么是多元统计分析 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。二、多元统计分析的内容和方法 1、简化数据结构(降维问题)将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别(归类问题)对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。例 5:根据信息

2、基础设施的发展状况,对世界 20 个国家和地区进行分类。考察指标有 6 个:1、X1:每千居民拥有固定电话数目2、X2:每千人拥有移动电话数目3、X3:高峰时期每三分钟国际电话的成本4、X4:每千人拥有电脑的数目5、X5:每千人中电脑使用率6、X6:每千人中开通互联网的人数 3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。 (回归分析)二是:两组变量间的相互关系(典型相关分析) 4、多元数据的统计推断点估计参数估计 区间估计统 u 检验 计 参数 t 检验推 F 检验断 假设 相关与回归检验 卡方检验非参 秩和检验秩相关检验 1、假设检验的基本原理 小概率事件原理

3、小概率思想是指小概率事件(P 2 或 10 或 d= ,则还不能拒绝 H0。 例 4:要比较 50 个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有 50 个数目。 这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为 1 ,而减肥后的均值为 2 ;这样所要进行的检验为:H0: 1 2 H1: 1 大于 2一、方差分析的基本思想1、定义 方差分析又称变异数分析或 F 检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。 2、了解方差分析中

4、几个重要概念: (1)观测因素或称为观测变量如:考察农作物产量的影响因素。农作物产量就是观测变量。 (2)控制因素或称控制变量进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。影响农作物产量的因素,如品种、施肥量、土壤等。如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验 。 方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量 3、方差分析的基本原理 设有 r 个总体,各总体分别服从 ,假定各总体方差相等。现从各

5、总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值是否相等?:至少有一组数据的平均值与其它组的平均值有显著性差异。 分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个来源:(1)组内变动(within groups ) ,代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差(2)组间变动(between groups) ,代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差即:SS 总=SS 组间+SS 组内 消除各组样本数不同的影响-离差平方和除以自由度(即均方差) 。从而构造统计量: 方差分析的基本思想就是通过组内方差与组间方差的比值构造

6、的 F 统计量,将其与给定显著性水平、自由度下的 F 值相对比,判定各组均数间的差异有无统计学意义。 零假设否定域: 例 2 SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 SPSS 处理:Analyze Compare Mean One-Way ANOVA 多元方差分析(操作参见书例 2.1,第 36 页): SPSS 选项: Analyze General Linear Model Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量1

7、 和 2 相等与否, 得到:F=8.8622,P=0.0008 。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。 4、方差分析的应用条件21(,)N2(,)2(,)rN012rH (1)Sr组 间组 内 n-1,()rnrF (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相

8、同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。依据涉及的分析变量多少分为:一元方差分析、多元方差分析依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析 一、什么是聚类分析? 聚类分析(P54)是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析的目的(P54)使类内对象的同质性最大化和类间对象的异质性最大化。 二、聚类分析的基本思想:是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类

9、。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 相似样本或指标的集合称为类。 1、聚类分析的类型有:对样本分类,称为 Q 型聚类分析对变量分类,称为 R 型聚类分析Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。R 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。 2、聚类分析的方法:系统聚类(层次聚类)非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:

10、模糊聚类法、K均值法(快速聚类法)等等 常用距离:(1) 、明考夫斯基距离(Minkowski distance)明氏距离有三种特殊形式:(1a) 、绝对距离(Block 距离):当 q=1 时(1b) 欧氏距离(Euclidean distance):当 q=2 时(1c)切比雪夫距离:当 时gpkjkiijxd11)|(pkjkikij xd1211)(2pkjkikij xdq jkikpkij xxd 1max)( 当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:其中 为第 j 个变量的样

11、本均值;为第 j 个变量的样本方差。 (4)马氏距离*1,21,2ijjijxinjps 1nj iix21()nj ijjisx)(2ji1jixijd1/2()ijijijx克服量纲的影响 克服指标间相关性的影响缺点:协方差矩阵难以确定马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别

12、和联系,现考虑一个例子。 1、类的定义相似样本或指标的集合称为类。(数学表达见 63-64 页定义 3.1-3.4) 2、类的特征描述:设类 G 这一集合有 m 为 G 内的样本数。其特征:x.,21(1)均值(或称为重心)(2)协方差矩阵(3) G 的直径d12=(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)20.5=11.67d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24

13、.06 d25=23.54 d34=2.2 d35=3.51 d45=2.211 2 3 4 5 D1= 1 0 河南与甘肃的距离最近,2 11.67 0 先将二者(3 和 4)合为 3 13.80 24.63 0 一类 G6=G2,G4 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 1miix1()()mGiGiisx 1GGsn,axijijDd 判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别判别分析的特点(基本思想)、是根据已掌握的、历史上若干样本的 p 个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。 判别分析的目的:识别一个个体所属类别3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:被解释变量为属性变量;解释变量是定量变量。

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 经济/贸易/财会 > 综合/其它

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号