多元统计分析课件――杜子芳

上传人:我*** 文档编号:147979902 上传时间:2020-10-15 格式:PPT 页数:118 大小:1.02MB
返回 下载 相关 举报
多元统计分析课件――杜子芳_第1页
第1页 / 共118页
多元统计分析课件――杜子芳_第2页
第2页 / 共118页
多元统计分析课件――杜子芳_第3页
第3页 / 共118页
多元统计分析课件――杜子芳_第4页
第4页 / 共118页
多元统计分析课件――杜子芳_第5页
第5页 / 共118页
点击查看更多>>
资源描述

《多元统计分析课件――杜子芳》由会员分享,可在线阅读,更多相关《多元统计分析课件――杜子芳(118页珍藏版)》请在金锄头文库上搜索。

1、多元统计分析,统计学院 杜子芳,课程内容,描述统计 典型相关 主成分和因子分析 聚类分析 判别和logistic回归,推荐参考书目,张尧庭,方开泰,多元统计分析引论,北京:科学出版社,1982。 高惠璇,应用多元统计分析,北京:北京大学出版社,2005。 陈峰,医用多元统计分析方法,北京:中国统计出版社,2000。 美Richard A. Johnson, Dean W. Wichern著,陆璇 叶俊译,实用多元统计分析(第6版),北京:清华大学出版社,2008。,多元统计分析的数据结构,n个样品p个变量的数据 n个样品 (样本点/case) p个变量 (指标/variable),多元统计分析

2、的数据结构(续),变量1 变量2 变量p,样品1 样品2 样品n,变量的分类,性质 分类 顺序 数值定量(quantitative) 功能 自变量 因变量,定性(qualitative),三类变量,三类变量的举例 分类:姓名,性别,民族,籍贯 顺序:学历,“成份”,职称 数值:身高,收入,年龄 变量对应的数据容许的最高计算等级 分类 顺序 数值 ,三种数据的变化,升级变化 手段:编码 后果: 计算高级化 信息可能扭曲,降级变化 手段:分组 后果: 计算低级化 信息可能减少,一个降级的例子,学生成绩原本是数值数据:0100分 分组后成顺序数据:优,良,中,及格,差 后果: 无法进行加减计算了。

3、信息减少,95与100分的差异不见了。,课程框架,自变量之间的关系 聚类分析 主成分分析 因子分析 自变量与因变量之间的关系,多元分析的描述统计,描述统计量 均值向量 方差和协方差矩阵 相关系数矩阵 图形 散点矩阵图 三维曲面图 轮廓图 闪电图 雷达图 调和曲线图 切尔谢夫脸谱图,一元分析的描述统计量,分类变量的数字特征 集中性趋势:众数 分散性趋势:异众比例 顺序变量的数字特征 集中性趋势:中位数 分散性趋势:四分位数 数值变量的数字特征 集中性趋势:平均值 分散性趋势:标准差,多元的描述统计量均值向量,集中趋势,平均水平 第一个变量的平均值 第k个变量的平均值 p个变量的均值向量,多元的描

4、述统计量方差和协方差矩阵,方差表示变量离散程度,协方差变量间的协同关系 变量k的方差 变量i和变量k的协方差 变量i越大,变量k越大,则协方差为正数;变量i越大,变量k越小,则协方差为负数;若两个变量关系不大,则协方差接近0 当i=k时,多元的描述统计量方差和协方差矩阵,多元的描述统计量相关系数矩阵,第i个和第k个变量的相关系数为 相关系数是协方差的标准化形式; 相关系数的取值在-1到+1之间; 相关系数衡量的是变量间线性关系的强度,多元的描述统计量相关系数矩阵,图形,散点矩阵图多个变量之间的关系 三维曲面图两个变量的联合分布 轮廓图 闪电图 雷达图 调和曲线图 切尔谢夫脸谱图,n很小,p比较

5、大 可以很直观进行样品间的比较,并且可以用于样品的初步分组和验证聚类分析的结果,散点图矩阵多个变量间的关系,p=2时,可以用散点图表示两个变量之间的关系 p2时,对p个变量两两配对生成散点图矩阵,散点图矩阵多个变量间的关系,三维曲面图,轮廓图,横坐标取p个点,表示p个变量; 对于某一样品,纵坐标表示每个变量的取值,将p个点用直线连起来; 依次画n个样品的图。,轮廓图,闪电图,类似于轮廓图旋转90度 直观上便于各样品之间的比较 柱形图vs条形图,1 2 3 4 5,购票方便 准时 等待时间短 舒适 物有所值 方便 安全可靠性高 配套设施齐全 座位宽敞 有空调,注:红线代表地铁,蓝线代表公交车。,

6、购票不方便 不准时 等待时间长 不舒适 物非所值 不方便 安全可靠性低 配套设施不齐全 座位拥挤 无空调,地铁公交服务优劣比较,生均占地面积,生均建筑面积,百生均计算机数,生均设备价值,师生比,生均图书册数,生均占地面积,生均建筑面积,百生均计算机数,生均设备价值,师生比,生均图书册数,国家标准,60,50,70,16.5,18,15,10台,5台,15台,5000元,4500元,5500元,1:16,1:20,1:25,80册,35元/册,70册,30元/册,80册,40元/册,推荐方案,投资方案,雷达图,作一圆,将圆周p等分; 连接圆心和各分点,这p条半径即为p个坐标轴; 将每一个样品的p

7、个变量取值分别标注在p个坐标轴上,用直线连接成p边形; n个样品即有n个p边形。,调和曲线图,Andrews,1972提出 用二维空间的一条曲线表示多维空间的点 各变量数值悬殊时,要先标准化 同类的曲线拧在一起,不同类拧成不同的束,切尔诺夫脸谱图,每个样品用一个脸谱表示 用脸部特征如脸的长度、高度、眼睛大小、发型等表示各变量的值 可以根据脸的相似程度,将样品分组 无法在同一框架下进行比较 Chernoff, H. “Using Faces to Represent Points in K-Dimensional Space Graphically.”(1973),多元统计学的应用文学,红楼梦作

8、者研究(文本挖掘) 选定数十个与情节无关的虚词,把红楼梦120回作为120个样品,统计每一回选定的这些虚词出现的频数作为变量 方法:聚类分析 李贤平, “红楼梦成书新说”, 复旦学报社会科学版,1987年第5期,多元统计学的应用营销,消费者偏好研究 消费者对具有不同属性的各种产品进行打分,用联合分析确定具有哪种属性组合的产品最受欢迎,消费者最看重哪种属性,多元统计学的应用医学,胃癌的鉴别 事先有一些经手术后病理化验确诊的病理资料,如三个总体,胃癌患者、萎缩性胃炎患者、非胃炎患者,每人化验了4项生化指标(血清铜蛋白、蓝色反应、尿吲哚乙酸、中性硫化物),根据这些资料可以建立诊断准则。以后对来就诊的

9、病人,就可以根据这几项生化指标的结果以及之前建立的准则判断病人的疾病种类。 方法:判别分析,多元统计学的应用工业设计,服装定型问题 服装公司希望生产的成衣能适应大多数顾客的要求。首先做抽样调查,测量身体身高、坐高、胸围、腰围、裤长、袖长等指标,确定服装的每种型号是由身体的哪几个主要尺寸决定的 方法:主成分分析,典型相关-统计相关的集大成,有两组变量(x1,x2,xp),(y1,y2,yq),我们对两组变量之间的关系感兴趣。 两组共p+q个变量,如果进行两两相关分析可以得到pq 或(pq)(pq1)/2 个相关系数。 但是这两组变量或两个随机向量之间的“整体”相关关系是什么呢?,典型相关分析的思

10、想,两组随机变量的相关系数我们并未接触,以前接触的是 一对一的:分类之间,顺序之间,数值之间 一对多的:数值对分类(方差),数值对数值(回归) 多对多的:数值对数值 如何反映多对多的相关呢?,多元统计分析最重要的框架,更细的分类,典型相关分析的思想,每组变量都进行线性组合,生成代表性变量; 计算不同组任意两个代表性变量的相关系数; 找到相关系数最大对应的两个代表性变量作为一对“典型”,将“典型”之间的相关系数用来代表两组变量的线性相关程度,乘为典型相关系数,又称广义相关系数。,广义相关系数,典型相关系数的检验,广义相关系数的性质,所有广义相关系数除满足对称性外还具有以下性质: 时,代表U和V不

11、相关,从而任一与任一中的随机变量都不相关 时,代表U和V可以相互线性表出 时,等于Pearson相关系数的平方 时,等于复相关系数的平方或决定系数。,典型相关分析的数学表达,对于两组变量 和 ,寻找系数向量 和 使得新的综合变量(称典型变量) 有尽可能大的相关关系。 令,典型相关分析的数学表达,典型相关分析的数学表达,典型变量的性质: 1.X的典型变量U1,U2,Up不相关,Y的典型变量W1,W2, Wq 不相关; 2.X和Y的同一对典型变量Ui和Wi之间的相关系数为 ,不同对的Ui和Wi之间不相关。,典型相关(续5),注意点: 在实际例子中一般并不知道 。因此在只有样本数据的情况下, 只要把

12、 用样本协差阵或样本相关阵代替就行了。 但是这时的特征根可能不在0和1的范围,因此会出现软件输出中的特征根(比如大于1)不等于相关系数的平方的情况,这时,各种软件会给出调整后的相关系数。,证明(1),证明(2),分类对分类相关的例子:受访者性别与种族的相关关系的测度,不相关,完全相关,完全相关的另一种情形,列联表的结构,列标题,行标题,分类对分类相关的原理,事件相关程度,事件相关程度?,变量相关程度?,变量相关程度?,最终的类类相关系数,分类对数值相关的例子:受访者性别与姊妹数的相关关系的测度,普通情形,线性无关情形,完全线性相关情形,分类对数值的相关关系,总平方和=组间平方和+组内平方和,证

13、明两种组间平方和的关系,两种证明,证明1 证明2,1对1之数值与数值的线性相关原理,1对1之数值与数值的线性相关原理,典型相关分析的程序,INCLUDE C:Program FilesSPSSCanonical correlation.sps. CANCORR SET1=salary salbegin /SET2=jobtime prevexp educ.,因子与主成分分析简化之至,因子与主成分分析的思想,在多元条件下,一些变量彼此存在很高的相关关系,其本质是所含信息具有重叠性。在回归分析里,对这些相关程度很高(多重共线性)的变量其处置方式之一是去除一部分变量,只保留极少的变量做代表;另一种处

14、置思路是用这些变量的线性组合替代原有变量(同时认为这些组合表征的是深层的原因称为因子),而尽量不减少它们所包含的信息。不仅如此,在不怎么减少原来变量所含信息的前提下,还要达成三个目标: 减少变量个数; 新变量彼此之间不再线性相关,最好正交; 新变量与原变量之间的关系清晰容易判断。,三个关键问题,以何表示原来变量所含信息? 如何寻找达成上述目标的线性组合(即新变量)? 此处线性组合与回归分析和判别分析里的组合有何区别?,第一节 主成份分析,回归分析 判别分析,主成份分析,主成份分析,主成份分析(续),类似判别分析那样,应用拉格朗日方法求极值 将所有特征根降序排队,,条件极值求法,主成份分析(续)

15、,将最大特征根 代入方程,求得 ,然后求得 称为 的第一主成份(实际上是变换后的第一个新变量),而类似得到的 称为第 i个主成份,最多有r个主成份。 。 主成份的个数通常有两种取法 (1)取为 (2)特征根1,主成份的性质,主成份(新变量)是原变量的线性变换 彼此独立(源于何种原因?) 方差递减(是什么原因?) 方差总和守恒(又是什么原因?),主成分分析(续1),找出向量ai,主成分分析(续2),因此,,一般情况下,取使得总方差中累积的解释比例达到85%的前几个主成分。,因子分析,基本思想 很多变量间存在着某种相似性(彼此之间相关系数较高),本质上影响这些变量观测值结果的可能是其背后看不到的共

16、同原因所致。因子分析就是要从彼此相关的变量中找出这些原因。 作法 用较少数个公共因子的线性组合与特殊因子的之和来表示原观察变量,以便达到降维的目的,并清楚暴露新变量与原变量间的相关关系。主成份分析是寻求因子的一种方法。,因子分析(续1),因子分析(续2),共性方差,因子载荷aik是Xi与fk的协方差,特殊方差,表示m个公共因子对Xi的方差贡献,相当于回归中的什么指标?,因子分析(续3),虽然该式表示的很精确,但后面p-m个特征值较小的并不是很有用,可以近似略去,因子分析(续4),因子分析的参数估计,极大似然法 主成分估计法 (迭代)主因子估计法,因子旋转原理,因子得分,加权最小二乘法 巴特莱特极大似然法 最小二乘法 汤普森回归法,聚类分析,分布的两种表达方式

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > PPT模板库 > PPT素材/模板

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号