多元统计分析课件――杜子芳

资源描述

《多元统计分析课件――杜子芳》由会员分享，可在线阅读，更多相关《多元统计分析课件――杜子芳（118页珍藏版）》请在金锄头文库上搜索。

1、多元统计分析,统计学院杜子芳,课程内容,描述统计典型相关主成分和因子分析聚类分析判别和logistic回归,推荐参考书目,张尧庭，方开泰，多元统计分析引论，北京：科学出版社，1982。高惠璇，应用多元统计分析，北京：北京大学出版社，2005。陈峰，医用多元统计分析方法，北京：中国统计出版社，2000。美Richard A. Johnson, Dean W. Wichern著，陆璇叶俊译，实用多元统计分析（第6版），北京：清华大学出版社，2008。,多元统计分析的数据结构,n个样品p个变量的数据 n个样品 (样本点/case) p个变量 (指标/variable),多元统计分析

2、的数据结构（续）,变量1 变量2 变量p,样品1 样品2 样品n,变量的分类,性质分类顺序数值定量（quantitative）功能自变量因变量,定性（qualitative）,三类变量,三类变量的举例分类：姓名，性别，民族，籍贯顺序：学历，“成份”，职称数值：身高，收入，年龄变量对应的数据容许的最高计算等级分类顺序数值 ,三种数据的变化,升级变化手段：编码后果：计算高级化信息可能扭曲,降级变化手段：分组后果：计算低级化信息可能减少,一个降级的例子,学生成绩原本是数值数据：0100分分组后成顺序数据：优，良，中，及格，差后果：无法进行加减计算了。

3、信息减少，95与100分的差异不见了。,课程框架,自变量之间的关系聚类分析主成分分析因子分析自变量与因变量之间的关系,多元分析的描述统计,描述统计量均值向量方差和协方差矩阵相关系数矩阵图形散点矩阵图三维曲面图轮廓图闪电图雷达图调和曲线图切尔谢夫脸谱图,一元分析的描述统计量,分类变量的数字特征集中性趋势：众数分散性趋势：异众比例顺序变量的数字特征集中性趋势：中位数分散性趋势：四分位数数值变量的数字特征集中性趋势：平均值分散性趋势：标准差,多元的描述统计量均值向量,集中趋势，平均水平第一个变量的平均值第k个变量的平均值 p个变量的均值向量,多元的描

4、述统计量方差和协方差矩阵,方差表示变量离散程度，协方差变量间的协同关系变量k的方差变量i和变量k的协方差变量i越大，变量k越大，则协方差为正数；变量i越大，变量k越小，则协方差为负数；若两个变量关系不大，则协方差接近0 当i=k时,多元的描述统计量方差和协方差矩阵,多元的描述统计量相关系数矩阵,第i个和第k个变量的相关系数为相关系数是协方差的标准化形式；相关系数的取值在-1到+1之间；相关系数衡量的是变量间线性关系的强度,多元的描述统计量相关系数矩阵,图形,散点矩阵图多个变量之间的关系三维曲面图两个变量的联合分布轮廓图闪电图雷达图调和曲线图切尔谢夫脸谱图,n很小，p比较

5、大可以很直观进行样品间的比较，并且可以用于样品的初步分组和验证聚类分析的结果,散点图矩阵多个变量间的关系,p=2时，可以用散点图表示两个变量之间的关系 p2时，对p个变量两两配对生成散点图矩阵,散点图矩阵多个变量间的关系,三维曲面图,轮廓图,横坐标取p个点，表示p个变量；对于某一样品，纵坐标表示每个变量的取值，将p个点用直线连起来；依次画n个样品的图。,轮廓图,闪电图,类似于轮廓图旋转90度直观上便于各样品之间的比较柱形图vs条形图,1 2 3 4 5,购票方便准时等待时间短舒适物有所值方便安全可靠性高配套设施齐全座位宽敞有空调,注：红线代表地铁，蓝线代表公交车。,

6、购票不方便不准时等待时间长不舒适物非所值不方便安全可靠性低配套设施不齐全座位拥挤无空调,地铁公交服务优劣比较,生均占地面积,生均建筑面积,百生均计算机数,生均设备价值,师生比,生均图书册数,生均占地面积,生均建筑面积,百生均计算机数,生均设备价值,师生比,生均图书册数,国家标准,60,50,70,16.5,18,15,10台,5台,15台,5000元,4500元,5500元,1：16,1：20,1：25,80册，35元/册,70册，30元/册,80册，40元/册,推荐方案,投资方案,雷达图,作一圆，将圆周p等分；连接圆心和各分点，这p条半径即为p个坐标轴；将每一个样品的p

7、个变量取值分别标注在p个坐标轴上，用直线连接成p边形； n个样品即有n个p边形。,调和曲线图,Andrews，1972提出用二维空间的一条曲线表示多维空间的点各变量数值悬殊时，要先标准化同类的曲线拧在一起，不同类拧成不同的束,切尔诺夫脸谱图,每个样品用一个脸谱表示用脸部特征如脸的长度、高度、眼睛大小、发型等表示各变量的值可以根据脸的相似程度，将样品分组无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973),多元统计学的应用文学,红楼梦作

8、者研究（文本挖掘）选定数十个与情节无关的虚词，把红楼梦120回作为120个样品，统计每一回选定的这些虚词出现的频数作为变量方法：聚类分析李贤平， “红楼梦成书新说”，复旦学报社会科学版，1987年第5期,多元统计学的应用营销,消费者偏好研究消费者对具有不同属性的各种产品进行打分，用联合分析确定具有哪种属性组合的产品最受欢迎，消费者最看重哪种属性,多元统计学的应用医学,胃癌的鉴别事先有一些经手术后病理化验确诊的病理资料，如三个总体，胃癌患者、萎缩性胃炎患者、非胃炎患者，每人化验了4项生化指标（血清铜蛋白、蓝色反应、尿吲哚乙酸、中性硫化物），根据这些资料可以建立诊断准则。以后对来就诊的

9、病人，就可以根据这几项生化指标的结果以及之前建立的准则判断病人的疾病种类。方法：判别分析,多元统计学的应用工业设计,服装定型问题服装公司希望生产的成衣能适应大多数顾客的要求。首先做抽样调查，测量身体身高、坐高、胸围、腰围、裤长、袖长等指标，确定服装的每种型号是由身体的哪几个主要尺寸决定的方法：主成分分析,典型相关-统计相关的集大成,有两组变量(x1,x2,xp),(y1,y2,yq)，我们对两组变量之间的关系感兴趣。两组共p+q个变量，如果进行两两相关分析可以得到pq 或(pq)(pq1)/2 个相关系数。但是这两组变量或两个随机向量之间的“整体”相关关系是什么呢？,典型相关分析的思

10、想,两组随机变量的相关系数我们并未接触，以前接触的是一对一的：分类之间，顺序之间，数值之间一对多的：数值对分类（方差），数值对数值（回归）多对多的：数值对数值如何反映多对多的相关呢？,多元统计分析最重要的框架,更细的分类,典型相关分析的思想,每组变量都进行线性组合，生成代表性变量；计算不同组任意两个代表性变量的相关系数；找到相关系数最大对应的两个代表性变量作为一对“典型”，将“典型”之间的相关系数用来代表两组变量的线性相关程度，乘为典型相关系数，又称广义相关系数。,广义相关系数,典型相关系数的检验,广义相关系数的性质,所有广义相关系数除满足对称性外还具有以下性质：时，代表U和V不

11、相关，从而任一与任一中的随机变量都不相关时，代表U和V可以相互线性表出时，等于Pearson相关系数的平方时，等于复相关系数的平方或决定系数。,典型相关分析的数学表达,对于两组变量和，寻找系数向量和使得新的综合变量（称典型变量）有尽可能大的相关关系。令,典型相关分析的数学表达,典型相关分析的数学表达,典型变量的性质： 1.X的典型变量U1,U2,Up不相关，Y的典型变量W1,W2, Wq 不相关; 2.X和Y的同一对典型变量Ui和Wi之间的相关系数为，不同对的Ui和Wi之间不相关。,典型相关（续5）,注意点：在实际例子中一般并不知道。因此在只有样本数据的情况下, 只要把

12、用样本协差阵或样本相关阵代替就行了。但是这时的特征根可能不在0和1的范围，因此会出现软件输出中的特征根（比如大于1）不等于相关系数的平方的情况，这时，各种软件会给出调整后的相关系数。,证明（1）,证明（2）,分类对分类相关的例子：受访者性别与种族的相关关系的测度,不相关,完全相关,完全相关的另一种情形,列联表的结构,列标题,行标题,分类对分类相关的原理,事件相关程度,事件相关程度？,变量相关程度？,变量相关程度？,最终的类类相关系数,分类对数值相关的例子：受访者性别与姊妹数的相关关系的测度,普通情形,线性无关情形,完全线性相关情形,分类对数值的相关关系,总平方和=组间平方和+组内平方和,证

13、明两种组间平方和的关系,两种证明,证明1 证明2,1对1之数值与数值的线性相关原理,1对1之数值与数值的线性相关原理,典型相关分析的程序,INCLUDE C:Program FilesSPSSCanonical correlation.sps. CANCORR SET1=salary salbegin /SET2=jobtime prevexp educ.,因子与主成分分析简化之至,因子与主成分分析的思想,在多元条件下，一些变量彼此存在很高的相关关系，其本质是所含信息具有重叠性。在回归分析里，对这些相关程度很高（多重共线性）的变量其处置方式之一是去除一部分变量，只保留极少的变量做代表；另一种处

14、置思路是用这些变量的线性组合替代原有变量（同时认为这些组合表征的是深层的原因称为因子），而尽量不减少它们所包含的信息。不仅如此，在不怎么减少原来变量所含信息的前提下，还要达成三个目标：减少变量个数；新变量彼此之间不再线性相关，最好正交；新变量与原变量之间的关系清晰容易判断。,三个关键问题,以何表示原来变量所含信息？如何寻找达成上述目标的线性组合（即新变量）？此处线性组合与回归分析和判别分析里的组合有何区别？,第一节主成份分析,回归分析判别分析,主成份分析,主成份分析,主成份分析（续）,类似判别分析那样，应用拉格朗日方法求极值将所有特征根降序排队，,条件极值求法,主成份分析（续）

15、,将最大特征根代入方程，求得，然后求得称为的第一主成份（实际上是变换后的第一个新变量），而类似得到的称为第 i个主成份，最多有r个主成份。。主成份的个数通常有两种取法（1）取为（2）特征根1,主成份的性质,主成份（新变量）是原变量的线性变换彼此独立（源于何种原因？）方差递减（是什么原因？）方差总和守恒（又是什么原因？）,主成分分析（续1）,找出向量ai,主成分分析（续2）,因此，,一般情况下，取使得总方差中累积的解释比例达到85%的前几个主成分。,因子分析,基本思想很多变量间存在着某种相似性（彼此之间相关系数较高），本质上影响这些变量观测值结果的可能是其背后看不到的共

16、同原因所致。因子分析就是要从彼此相关的变量中找出这些原因。作法用较少数个公共因子的线性组合与特殊因子的之和来表示原观察变量，以便达到降维的目的，并清楚暴露新变量与原变量间的相关关系。主成份分析是寻求因子的一种方法。,因子分析（续1）,因子分析（续2）,共性方差,因子载荷aik是Xi与fk的协方差,特殊方差,表示m个公共因子对Xi的方差贡献,相当于回归中的什么指标?,因子分析（续3）,虽然该式表示的很精确，但后面p-m个特征值较小的并不是很有用，可以近似略去,因子分析（续4）,因子分析的参数估计,极大似然法主成分估计法（迭代）主因子估计法,因子旋转原理,因子得分,加权最小二乘法巴特莱特极大似然法最小二乘法汤普森回归法,聚类分析,分布的两种表达方式

展开阅读全文