数理统计复习单变量课件

上传人:公**** 文档编号:577858024 上传时间:2024-08-22 格式:PPT 页数:82 大小:939.50KB
返回 下载 相关 举报
数理统计复习单变量课件_第1页
第1页 / 共82页
数理统计复习单变量课件_第2页
第2页 / 共82页
数理统计复习单变量课件_第3页
第3页 / 共82页
数理统计复习单变量课件_第4页
第4页 / 共82页
数理统计复习单变量课件_第5页
第5页 / 共82页
点击查看更多>>
资源描述

《数理统计复习单变量课件》由会员分享,可在线阅读,更多相关《数理统计复习单变量课件(82页珍藏版)》请在金锄头文库上搜索。

1、多元统计分析课程提纲多元统计分析课程提纲多元统计分析课程提纲多元统计分析课程提纲(SyllabusSyllabus)教师教师教师教师 张青张青张青张青 联系方式:联系方式:zhangq 办公地点:理学院楼二层办公地点:理学院楼二层225bjfu_ 123456 成绩评定成绩评定成绩评定成绩评定 平时:平时: 40% 实验课实验课+作业作业 (阅读文献,第七周上交)(阅读文献,第七周上交) 考试:考试: 60% 教学安排教学安排教学安排教学安排 基本概念;聚类分析;回归分析;主成分分析;基本概念;聚类分析;回归分析;主成分分析;因子分析因子分析 ;判别分析;典型相关;假设检验;判别分析;典型相

2、关;假设检验 中文参考书中文参考书中文参考书中文参考书 1 多元统计分析多元统计分析 何晓群何晓群 编编 人民大学大出版社人民大学大出版社 1999 2 应用多元统计分析应用多元统计分析 高惠璇高惠璇 编编 北京大学出版社北京大学出版社 2005 3 多元统计分析选讲多元统计分析选讲 张饶庭张饶庭 著著 中国统计出版社中国统计出版社 2002 4 多元统计分析(研究生)袁志发多元统计分析(研究生)袁志发 科学出版社科学出版社外文参考书外文参考书外文参考书外文参考书 1 Applied Multivariate Statistical Analysis(6th Ed) 2007 Richard

3、A. Johnson Dean W.Wichern China Statistics Press (国外国外MBA优秀教材优秀教材) 2 Analyzing Multivariate Data 2003 Lattin Carroll Green China Machine Press ( 斯坦福大学,罗格斯大学,宾夕法尼亚斯坦福大学,罗格斯大学,宾夕法尼亚) 3 Applied Multivariate Methods for Data Analysts 2005 Dallase E. Johnson Higher Education Press (海外优秀数学类教材海外优秀数学类教材)参考文

4、献参考文献参考文献参考文献 本专业研究生博士生论文本专业研究生博士生论文1.1.随机变量、概率分布随机变量、概率分布2.随机变量的数字特征随机变量的数字特征3.总体和样本总体和样本4.统计量及其参数估计统计量及其参数估计5.参数估计和假设检验参数估计和假设检验6.6.6.回归分析回归分析一、单变量统计随机变量随机变量随机变量随机变量 X X (random variable)(random variable)在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过在自然界中,有些变量在每次观察前,不可能事先确定其取值;经过大量反复观察,其取值又有一定的规律,这种变量称为大量反复观察,其取值

5、又有一定的规律,这种变量称为随机变量随机变量随机变量随机变量X X。例例 (1). 掷骰子出现某点数的概率为掷骰子出现某点数的概率为1/6,若掷,若掷100次,则出现该点数次,则出现该点数的次数的次数X是随机变量是随机变量; (2). 332路公车每路公车每10分钟发一趟车,某人在随机的时间到达车站等分钟发一趟车,某人在随机的时间到达车站等车,则等车时间车,则等车时间X是随机变量。是随机变量。1. 1. 随机变量、概率分布随机变量、概率分布随机变量、概率分布随机变量、概率分布离散型随机变量离散型随机变量离散型随机变量离散型随机变量 X的所有可能取值是有限个或可列个。的所有可能取值是有限个或可列

6、个。连续型随机变量连续型随机变量连续型随机变量连续型随机变量 最常见的一类非离散型随机变量。最常见的一类非离散型随机变量。 对连续型随机变量,考察事件对连续型随机变量,考察事件aXb的概率。若存在非负的可的概率。若存在非负的可积函数积函数p(x),使得:对任意的,使得:对任意的a, b(ab),都有,都有 则称则称p(x)为随机变量为随机变量X的的概率密度函数。概率密度函数。概率密度函数。概率密度函数。概率密度函数概率密度函数概率密度函数概率密度函数 (PDF, probability density function) (PDF, probability density function)

7、对所有随机变量对所有随机变量X,可以定义以下的概率分布函数,可以定义以下的概率分布函数F(x):P(x)的性质:的性质:2. 2. 随机变量的数字特征随机变量的数字特征随机变量的数字特征随机变量的数字特征均值均值均值均值(mean)(mean)或或或或数学期望数学期望数学期望数学期望(mathematical expectation)(mathematical expectation)离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值离散型随机变量的均值设离散型随机变量设离散型随机变量X的分布律为:的分布律为:若若收敛,则称收敛,则称E(X)为随机变量为随机变量X的的均值均值均值均值

8、或或数学期望数学期望数学期望数学期望。xi:质点质点i的坐标;的坐标;pi: 质点质点i的质量的质量E(X): 质心坐标质心坐标连续型随机变量的均值连续型随机变量的均值连续型随机变量的均值连续型随机变量的均值设设X为连续型随机变量,它的概率密度函数为为连续型随机变量,它的概率密度函数为p(x) ,若,若收敛,则称收敛,则称E(X)为随机变量为随机变量X的的均值均值均值均值或或数学期望数学期望数学期望数学期望。小结:小结:E(X)反映随机变量反映随机变量X的统计平均性质,代表随机变量取值的一般水平的统计平均性质,代表随机变量取值的一般水平或集中的位置,略去了随机变量概率分布规律的具体细节。或集中

9、的位置,略去了随机变量概率分布规律的具体细节。方差方差方差方差(variance)(variance)设随机变量设随机变量X的均值为的均值为E(X),则:,则:对于离散型随机变量对于离散型随机变量X,其方差为:,其方差为:对于连续型随机变量对于连续型随机变量X,其方差为:,其方差为:计算计算D(X)的简单公式:的简单公式:小结:小结:D(X)反映随机变量反映随机变量X的相对于均值的相对于均值E(X)的偏离程度,代表随机变量取的偏离程度,代表随机变量取值的分散性,也是统计平均的性质。值的分散性,也是统计平均的性质。正态分布正态分布正态分布正态分布(Normal distribution)(Nor

10、mal distribution)设随机变量设随机变量X的概率密度为:的概率密度为:其中其中- 0均为常数。称均为常数。称X X服从参数为服从参数为服从参数为服从参数为 , 的正态分布的正态分布的正态分布的正态分布,记,记作作XN(XN( , 2 2). ). :均值;:均值; :方差:方差 =0; 2=1时,称为标准正态分布,记为时,称为标准正态分布,记为XN(0XN(0,1)1)。遵从正态分布的随机变量遵从正态分布的随机变量X,其正态分布函数为:,其正态分布函数为:正态分布的若干性质正态分布的若干性质正态分布的若干性质正态分布的若干性质 正态分布完全由其均值正态分布完全由其均值 和方差和方

11、差 2决定决定;正态分布的概率密度函数曲线呈对称的正态分布的概率密度函数曲线呈对称的“钟形钟形”;经验规则(经验规则(3 准则):准则):689599 2 3 2 3 p(x)x3. 3. 总体和样本总体和样本总体和样本总体和样本总体总体总体总体X X (population) 研究对象的某种特征值的全体组成的集合。用研究对象的某种特征值的全体组成的集合。用X表示。表示。样本样本样本样本X1, X2, , Xn (sample) 在总体中选取部分有代表性的子集称为(随机)样本。在总体中选取部分有代表性的子集称为(随机)样本。 一个样本是来自总体一个样本是来自总体X的一组相互独立同的一组相互独立

12、同X分布的随机变量。分布的随机变量。 样本值样本值样本值样本值x1, x2, , xn 从总体从总体X随机抽取的一组观测值,常用随机抽取的一组观测值,常用x1, x2, , xn来表示样本或来表示样本或样本值。样本值。 4. 4. 统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量及其参数估计统计量统计量统计量统计量(statistical quantity) 设设X1, X2, , Xn为总体为总体X的的n个样本,个样本,g(x1, x2, , xn)为连续函数,为连续函数,则称则称g(X1, X2, , Xn) 为一个统计量。为一个统计量。 显然,统计量显然,统计量g(X1, X

13、2, , Xn)也是一个随机变量。也是一个随机变量。总体总体总体总体X X的数字特征的数字特征的数字特征的数字特征参数参数参数参数 总体均值总体均值 :刻划总体的平均取值:刻划总体的平均取值 总体方差总体方差 2:刻划总体取值的分散(涨落)程度:刻划总体取值的分散(涨落)程度根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质根据样本值推断总体性质参数估计参数估计参数估计参数估计样本均值样本均值 :样本方差样本方差s:显然,样本均值、样本方差都属于统计量。显然,样本均值、样本方差都属于统计量。通常用样本均值、样本方差作为总体均值、总体方差的无偏估计量。通常用样本均值、样本方差作为

14、总体均值、总体方差的无偏估计量。无偏估计无偏估计:当当n取得充分大,样本均值、样本方差分别逼近总体均值取得充分大,样本均值、样本方差分别逼近总体均值和总体方差。和总体方差。或或(当当n较大时较大时)5. 5. 统计推断的两类问题统计推断的两类问题统计推断的两类问题统计推断的两类问题参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计和假设检验参数估计问题参数估计问题参数估计问题参数估计问题 假定总体假定总体X的分布函数形式已知,对其中的某些参数进行估计。的分布函数形式已知,对其中的某些参数进行估计。 估计方法:矩估计法、最小二乘法、最大似然法,估计方法:矩估计法、最小二乘法、最大似然

15、法,假设检验问题假设检验问题假设检验问题假设检验问题 从从样本值出发,判断关于总体分布的某种假设是否成立。样本值出发,判断关于总体分布的某种假设是否成立。1 1、提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)提出原假设(或称零假设)和备选假设(或称对立假设)2 2、指定显著性水平、指定显著性水平、指定显著性水平、指定显著性水平 (一般取(一般取(一般取(一般取 0.05, 0.01, 0.05, 0.01, ) 值用以衡量(或拒绝)原假设成立所需证据的指标。值用以衡量(或拒绝)原假设成立所需

16、证据的指标。 值越小,否定原假设的条件越高,不容易否定原假设;值越小,否定原假设的条件越高,不容易否定原假设; 值越大,否定原假设的条件越低,比较容易否定原假值越大,否定原假设的条件越低,比较容易否定原假设。设。3 3、构造检验统计量、构造检验统计量、构造检验统计量、构造检验统计量WW 4 4、进行统计试验、进行统计试验、进行统计试验、进行统计试验收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著收集数据、计算检验统计量及显著性概率值性概率值性概率值性概率值p p5 5、根据显著性水平、根据显著性水平、根据显著性水平、根据显著性水平 值进行判断值进行判断

17、值进行判断值进行判断 变量与变量的关系:变量与变量的关系:确定性关系确定性关系函数关系函数关系函数关系函数关系U=IRv=gt变量与变量的关系:变量与变量的关系:非确定性关系非确定性关系统计相关统计相关统计相关统计相关(具有统计规律)(具有统计规律)Y=f(x1, x2, , xn)+ 回归分析方法回归分析方法回归分析方法回归分析方法6. 6. 回归分析回归分析回归分析回归分析回归分析的基本问题回归分析的基本问题回归分析的基本问题回归分析的基本问题 寻求表达寻求表达Y与与x1, x2, , xn的相关关系的的相关关系的经验回归方程经验回归方程经验回归方程经验回归方程,简称简称回归方程回归方程回

18、归方程回归方程; 利用回归方程,在一定可靠度的要求下,预估当自变量利用回归方程,在一定可靠度的要求下,预估当自变量x1, x2, , xn取取确定值时,随机变量确定值时,随机变量Y的取值,称为的取值,称为预测预测预测预测问题问题问题问题; 为使为使Y在给定的范围内取值,利用回归方程,控制自变在给定的范围内取值,利用回归方程,控制自变量量x1, x2, , xn的取值范围,称为的取值范围,称为控制问题控制问题控制问题控制问题。数据分析的两大阶段数据分析的两大阶段探索阶段探索阶段实证阶段实证阶段详细查看数据,分离出数据的模式和特点评估观察到的模式或效应着重评估现有的证据提供显著性和置信度的陈述7

19、数据分析探索性数据分析的四个主题耐抗性:对局部不良行为的非敏感性重视主体部分,不重视离群值残差:从数据减去一个总括统计量或拟合末次那个以后的残余部分残差=数据-拟合重新表达:找到什么样的尺度(对数或平方根)会简化分析,如果原始测量尺度不合适,重新表达会有助于对称性、线性关系的发现。启示:通过显示数据、拟合曲线、残差图等反映数据的特点和行为。contacts.sav软件公司数据饼图直方图markedlynon-normal直方图均值中位数众数标准差方差分位数变换之后更加接近正态分布对变量sale 进行对数变换BoxplotBoxplotsprovideaquick,visualsummaryof

20、anynumberofgroups.Further,allthegroupswithinasinglefactorarearrayedonthesameaxes,makingcomparisonseasier.Whileboxplotsprovidesomeevidenceaboutshapeofthedistributions,theExploreprocedureoffersmanyoptionsthatallowamoredetailedlookathowgroupsmaydifferfromeachotherorfromexpectation.Boxplotsmedian25thper

21、centile75thpercentileOutliersextreme values Maximumminimum箱线图将受教育大于等于16年的数据筛选出来,观察开始工资14500=14.5x1000 stemleafStem width茎叶图35000=3.5x10000二、多元统计基本概念二、多元统计基本概念二、多元统计基本概念二、多元统计基本概念1.数据表达2.数据类型3.随机向量的分布函数和分布密度随机向量的分布函数和分布密度4 均值均值5 协差阵协差阵P表示变量,n表示项目或实验单元例如,某书店销售情况变量1销售金额:42524858变量2售出数量45431.数据表达2.数据类型(

22、1)数据类型分类Nominal(标称、名义)取值为0或1(表示属性)Ordinal(次序、有序)取值为1,2,3,(表示等级)Interval(区间)取值为任意实数Ratio(比例)取值为0和1之间的实数(表示数量关系,有大小、倍数的关系)(2)定量数据和定性数据定量数据(Interval、Ratio),定性数据(Nominal),Ordinal界于二者之间。Ordinal向Nominal的转化。3.随机向量的分布函数和分布密度随机向量的分布函数和分布密度3.随机向量的分布函数和分布密度随机向量的分布函数和分布密度联合分布函数联合分布函数 分布密度函数分布密度函数 满足满足 设 X=(X1,X

23、2,Xp) 是p维随机变量,定义X的数学期望为4 均值均值均值X1X2 2、性质 1)设为常数,则 ; 2)设 分别为常数矩阵,则5方差协方差矩阵协方差矩阵若令定义:设 和 分别为 维和 维随机向量,则其协方差矩阵为 三、相关系数矩阵 若(x1,x2,,xp) 和(y1,y2,,yp)分别是p和q维随机向量,则其相关系数矩阵为三、多元正态分布1 多元正态分布定义多元正态分布定义2 多元正态分布的定义及基本性质多元正态分布的定义及基本性质3 多元正态分布参数估计多元正态分布参数估计1 多元正态分布定义多元正态分布定义若随机向量若随机向量 的分布密度函数为的分布密度函数为则称则称 服从服从p维正态

24、分布。其数学期望与协方差矩阵维正态分布。其数学期望与协方差矩阵分别为分别为其中其中 特例特例1(一元正态分布一元正态分布)为对称正定矩阵,为对称正定矩阵,则则 特例2(二元正态分布)设则2 多元正态分布的定义及基本性质1)若若是对角阵,则是对角阵,则相互独立相互独立与与 是否独立?是否独立? 练习:设设问问 与与 是否独立?是否独立? 其中2 多元正态分布的定义及基本性质为常数阵,为常数阵,d为常数向量,则为常数向量,则2)若若正态随机向量的线性函数还是正态的正态随机向量的线性函数还是正态的3)若若则则练习:设练习:设3维随机向量维随机向量试求试求 的分布的分布3)若若则则2 多元正态分布的定

25、义及基本性质思考题:设随机向量思考题:设随机向量与与 独立?且独立?且 问服从什么分布?服从什么分布?样本样本多元分析的任务多元分析的任务 根据样本数据来分析各变量之间的关系根据样本数据来分析各变量之间的关系,推断总体的性质。推断总体的性质。多元样本数据为一元样本3 3 多元正态分布参数估计多元正态分布参数估计样本平均值样本平均值样本平均值是n个点的重心例题:计算均值、离差阵、协方差和相关阵样本离差(平方乘积和)矩阵S计算离差阵(样本协方差)(样本方差)样本协差阵样本协差阵样本相关矩阵RR为非负定矩阵-样本相关系数二组样本的协方差矩阵二组样本的协方差矩阵总体均值和协方差矩阵的最大似然估计总体均

26、值和协方差矩阵的最大似然估计设用最大似然法求出的均值和协方差的估计量分别为基本性质1)是总体均值的无偏估计是总体均值的无偏估计2)是总体协方差的无偏估计是总体协方差的无偏估计分别是总体均值和协差阵的有效估计分别是总体均值和协差阵的有效估计是总体均值和协差阵的一致估计估计是总体均值和协差阵的一致估计估计3)4)和和和和10.定理设和和 S 分别是正态总体分别是正态总体样本均值和离差阵,则样本均值和离差阵,则和和 S 相互独立相互独立1)2)3)四、多元统计中常用的分布四、多元统计中常用的分布 在一元统计中,常用的分布有卡方分布、在一元统计中,常用的分布有卡方分布、t分分布和布和F分布。在多元统计

27、中,他们分别发展为分布。在多元统计中,他们分别发展为Wishart分布、分布、T2分布和分布和Wilks分布。分布。 1 Wishart分布分布2 T2分布分布3 Wilks分布分布1 分布和分布和Wishart分布分布 定义1设为相互独立且同服从于分布的随机变量。则(1)所服从的分布叫做分布,称为自由度且记为。定理定理2. 由由(1)式定义的随机变量的分布密式定义的随机变量的分布密度函数为度函数为 定理定理3. 设设 ,且且 与与 相互独立,则相互独立,则 推推论论2 设设 是是抽抽自自正正态态总总体体 的的简简单单随随机机样样本本,则则统统计计量量Wishart分布分布它是多元样本离差平方

28、和矩阵的分布它是多元样本离差平方和矩阵的分布定义1设为相互独立且同服从于分布,令则(1)所服从的分布叫做自由度为的p维维希特分布,记作显然,当显然,当p=1 时,有时,有Wishart分布像卡方分布一样具有加法性质,分布像卡方分布一样具有加法性质,若若相互独立,则相互独立,则设设 ,且且 与与 相互独立,则称随机变量相互独立,则称随机变量 服从自由度为服从自由度为 的的 分布,分布,记为记为 。 将将T平方,即平方,即2 分布与分布与 分布分布在多元统计中在多元统计中 分布是一元统计中分布是一元统计中t分布的推广分布的推广定义:若定义:若 , S与与X相互独立、称随机变量相互独立、称随机变量是

29、自由度为(是自由度为(p,n)的)的 分布分布 可以转化为可以转化为F分布分布Hotelling3、 分布与分布与Wilks分布分布定定义义3 设设 , ,且且 与与 相互独立,则称随机变量相互独立,则称随机变量 服从自由度为服从自由度为 的的 分布,分布,记为记为 。F分布事实上为从正态总体随机抽取的两个样本方差的比,在方差分析和回归分析中广泛使用描描述述 的的变变异异程程度度的的统统计计参参数数称称为广义方差,其定义有很多为广义方差,其定义有很多如如F统计量的推广是统计量的推广是 统计量统计量 定义:若定义:若相互独立,则称随机变量相互独立,则称随机变量的分布是自由度为的分布是自由度为(p,n1,n2)的的 分布分布小结随机向量分布函数和密度函数均值向量和协方差矩阵特殊分布

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号