推断性统计分析讲解

上传人:我** 文档编号:112829477 上传时间:2019-11-07 格式:PPT 页数:83 大小:7.03MB
返回 下载 相关 举报
推断性统计分析讲解_第1页
第1页 / 共83页
推断性统计分析讲解_第2页
第2页 / 共83页
推断性统计分析讲解_第3页
第3页 / 共83页
推断性统计分析讲解_第4页
第4页 / 共83页
推断性统计分析讲解_第5页
第5页 / 共83页
点击查看更多>>
资源描述

《推断性统计分析讲解》由会员分享,可在线阅读,更多相关《推断性统计分析讲解(83页珍藏版)》请在金锄头文库上搜索。

1、,第二讲:推断性统计分析,统计推断的过程,主要内容,抽样分布 参数估计 假设检验,1. 抽样分布,总体分布、样本分布、和抽样分布,总体分布:总体中所有个体在某个变量上观测值的频次分布。 样本分布:从总体中抽取一个容量为n的样本,这n个观测值构成的频次分布。 抽样分布:假如我们对总体进行重复抽样,根据每个样本可以计算出一个样本统计量,从所有这些样本得出的样本统计量构成的分布称为抽样分布。,抽样分布,抽样分布,样本均值的抽样分布 样本标准差的抽样分布,抽样分布,抽样分布是样本统计量的概率分布。 它只是一种理论上存在的概率分布,结果来自无数样本量相同的所有可能样本。 依靠抽样分布,我们就能够将实际观

2、测到的样本结果与其他所有可能的样本结果进行比较,从而建立起单一样本和总体之间的联系。这就是统计推断的理论依据! 抽样分布的标准差称为“标准误”。它用来测量使用某个样本统计量来估计总体参数时的抽样误差。,样本均值的抽样分布(例子),样本均值的抽样分布(例子),样本均值的抽样分布(例子),样本均值的抽样分布(例子),样本均值的抽样分布(例子),总体分布和抽样分布的比较:,样本均值的抽样分布(一般规律),当总体服从正态分布时,来自该总体的所有样本量为n的样本的均值也服从正态分布,且的均值(数学期望)为,方差为。即,样本均值的抽样分布(一般规律),中心极限定理 (Central Limit Theor

3、em):从均值为,方差为的任意总体(不一定服从正态分布)中抽取样本量为的样本。只要样本量足够大,样本均值的抽样分布将近似服从均值为,方差为的正态分布: 即:,正态分布的特征,单峰、对称、钟形; 渐进:曲线无论向左或向右延伸,都愈来愈接近横轴,但不会和横轴相交,以横轴为渐进线; 一个位置参数,一个描述离散程度的参数; 均值、中值、和众值都相等。 最美的特征: 无论和为何值,也就是说对任意一个正态分布,约68%(或者说2/3)的值落在区间;约95%的值落在区间;约99.7%的值落在区间。,正态分布的特征,689599.7规则:,均值抽样分布分布,只有当总体方差已知的情况下,样本均值的抽样分布才为正

4、态分布,才能作Z转换。 总体方差未知的情况下,样本均值的抽样分布不再服从正态分布,此时应作T转换。,分布,T分布的图形是对称的,均值为0,离散程度比标准正态分布要大,也就是说方差大于1; 形状由一个参数(自由度)来决定; 当样本量n很大时(n30),就可用标准正态分布N(0,1)来近似t分布。,样本方差的抽样分布分布,当总体服从正态分布时,样本方差的抽样分布服从自由度为的卡方分布:,样本方差的抽样分布分布,分布,分布的特征: 非负值,最小值为; 正偏; 具体形状由来决定; 均值,方差; 均值和方差随着的增加而增加,这样,分布的均值随之向右偏移,离散度也随之增加; 随着的增加, 分布偏度和峰度都

5、较小,将趋近于正态分布。,两个样本方差比的抽样分布分布,总体1:服从正态分布 样本1: 总体2:服从正态分布 样本2: 两个样本方差和比值的抽样分布服从分布:,2. 参数估计,参数估计,参数估计:指从总体中随机抽取一个样本,利用样本统计量推算总体参数的过程。,点估计(point estimation),点估计:根据样本统计量计算出一个确切的数来估计总体的未知参数 用于估计总体某一参数的样本统计量,被称为估计量(estimator)。估计量是一个随机变量,随着抽取的样本的不同,取值会发生变化。对应的值称为“估计值(estimate)”。 比如:样本均值是总体均值的一个估计量 如果抽取一个样本,得

6、出,5万就是的估计值 点估计的理论基础是“抽样分布” 点估计没有给出估计值接近总体参数的程度。也就是说,从点估计,我们并不知道估计误差的大小。,点估计,用样本均值()作为总体均值()的点估计: 用样本方差()作为总体方差()的点估计: 对定类变量,用样本比例()作为总体比例()的点估计:,注意: 一般在“总体参数”上加来表示它的样本估计值; 在样本方差的公式中,分母为(n-1)而不是n。因为只有用(n-1),得出的样本方差才是总体方差的无偏估计!,点估计的评判标准(无偏性),无偏性(unbiasedness):估计量的数学期望(即所有可能样本得到的估计值所组成的抽样分布的均值)等于被估计的总体

7、参数。,是总体均值的无偏估计量,是总体方差的无偏估计量! 而不是总体标准差的无偏估计!,点估计的评判标准(有效性),有效性(efficiency):如果估计量的抽样分布的方差小于其它任何估计量,则称是更有效的估计量。,对服从正态分布的总体,样本均值和中值都是总体均值的无偏估计,但是更有效的估计量!,点估计的评判标准(一致性),一致性(consistency):随着样本容量的增大,估计量越来越接近被估计的总体参数的真实值。,区间估计(interval estimation),区间估计:根据样本计算出一个取值范围来对总体的未知参数进行估计,并给出置信度。 定义:如果用 作为总体参数的估计值,那么参

8、数的置信区间(confidence interval) 与的关系为: 显著性水平(significance level),表示置信区间不包含真实参数的概率,即估错的概率 置信概率,置信度或置信水平(confidence level),表示这样的置信区间包含真实参数的概率。,置信区间的计算,置信区间=点估计临界值*标准误 标准误为点估计抽样分布的标准差 临界值与抽样分布和有关,根据的大小,确定置信区间有多少个标准误的宽度。,置信区间的计算,越大(),置信度就变小(),从而导致置信区间变小(),估计的精确度提高(),但估错的可能性增加了! 增加样本量,标准误减小(),从而导致置信区间减小() ,估

9、计的精确度提高()。,理解置信区间,理解置信区间,注意: 是未知参数,对于确定总体,它是唯一的,固定的; 而样本统计量是随着样本不同而变化的随机变量。 所以,根据不同的样本,计算出来的CI也是变化的。因此,确切地说,CI是一个随机区间。 对于一次抽样,它的CI可能包含Q也可能不包含Q。 设=0.05,那么1-=0.95 95%CI就表示:如果重复抽取100个样本,根据每个样本建立一个CI,共100个CI,这100个CI中有95(95%)个CI将包含待估参数,有5(5%)个CI将不包含待估参数。,总体均值的置信区间已知,假定条件: 总体服从正态分布,且总体方差已知 总体不服从正态分布,但样本量较

10、大 样本均值的抽样分布为正态分布: 转换为正态分布统计量: 总体均值的的置信区间:,总体均值的置信区间已知,当时,对应95%CI: 当时,对应99%CI:,由公式可以看出,CI的宽度受两个因素的影响: (1)总体分布的离散程度 (2)样本量 (3)置信度,总体均值的置信区间未知,假定条件: 总体方差未知 总体必须服从正态分布 样本均值对应的统计量为统计量: 总体均值的的置信区间:,总体比例的的置信区间,样本比例是总体的点估计 在大样本条件下,样本统计量的抽样分布近似为正态分布: 总体参数未知,所以用来估计标准误:,大样本总体比例 的(1-)的置信区间:,3. 假设检验,3.1 假设检验的基本概

11、念,什么是假设检验?,假设检验:事先对总体参数提出一个假设,然后通过样本信息来判断这一假设是否成立。 基本思想是“小概率原理”: 首先假设成立,得出样本统计量(点估计)的抽样分布。经过抽样获取一组数据,如果根据该样本得出的估计值在成立的条件下发生的概率非常小,我们就有理由来“拒绝原假设”;反之,如果该值发生的可能性很大,那么就“不拒绝”。 显著性水平=小概率的标准,由研究者事前确定。,什么是假设检验?,假设检验的步骤,根据研究问题,决定是做“单边”检验还是“双边”检验;提出原假设和备择假设;并给定显著性水平; 选择合适的检验统计量; 在检验统计量的抽样分布上找到拒绝的区间; 根据样本数据,计算

12、检验统计量的观测值。 根据决策方法,作出统计决策。,统计决策方法1临界值比较法,比较检验统计量的“观测值”和“临界值(critical value)” 如果观测值落在接受域,则不拒绝 如果观测值落在拒绝域,则拒绝,值:在成立条件下,出现观测值或比它更极端值的概率。值越小,说明数据在成立时出现的可能性越小,从而提供了拒绝的证据。,统计决策方法2值法,双边检验:,单边检验(右侧)值:,统计决策方法2值法,右侧单边检验:,单边检验(左侧)值:,统计决策方法2值法,右侧单边检验:,判定方法: 任何一个统计分析软件(如SPSS或Stata)都会计算出p值。,统计决策方法2值法,拒绝,不拒绝,两类错误,假

13、设检验属于统计推断,根据一个样本的有限信息和小概率原理得出关于总体特征的判断。因此,我们不可能做到百分之百的正确。 在假设检验中有可能犯两种错误: 第一类错误 (Type I Error):弃真的错误 第二类错误 (Type II Error):纳伪的错误,两类错误,检验功效 或效能,两类错误,第一类错误(弃真) 在原假设为真时,拒绝了原假设。 犯第一类错误的概率就是显著性水平,研究者通过选择显著性水平来控制犯弃真错误的概率; 当减小时,拒绝域随之减小,弃真的错误就减小。,两类错误,第二类错误(纳伪): 在原假设为假的情况下,接受了原假设。 犯纳伪错误的概率一般用来表示。 受许多因素的影响,主

14、要有:显著性水平、样本量、及真实值和中的值的偏离程度等。 第一类错误在检验过程中由研究者自行设定。除去第一类错误后,检验是否有效就取决于的的大小。在统计学中,将称作检验效能(power)。,两类错误,两类错误的关系:,其它条件不变,显著性水平, 接受域增加, 其它条件不变,样本量n,; 其它条件不变,真实值(1)和H0中的值(0)偏离程度,。,3.2 单总体假设检验,单总体均值的检验,原假设 备择假设,单总体均值的检验,大样本 总体方差已知 总体方差未知 小样本: 总体方差已知 总体方差未知,大样本时对总体分布没有要求, 可以为任意分布。,小样本时,要求总体服从正态分布,单总体均值的检验大样本

15、,已知时,检验统计量为统计量: 未知时,需要用样本方差来代替总体方差,得到的检验统计量为统计量: 当样本量越来越大时,分布越来越接近正态分布,所以检验统计量可以近似为:,单总体均值的检验小样本,注意:小样本数据,我们假设样本来自正态分布的总体! 已知时,检验统计量为统计量: 未知时,需要用样本方差来代替总体方差,得到的检验统计量为统计量: 此时不能将其近似为正态分布进行计算!,单总体比例的检验,假设: (落在某个类别中概率或比例等于) ( 或 ) 大样本情况: 样本量满足 及; 检验统计量是,在成立的条件下,其分布服从一个标准正态分布:,注意:SPSS中没有该Z检验,但是可以用下页的二项检验。

16、,单总体比例的检验,小样本情况:采用精确二项检验(Binomial Test) 二项分布 : 如何检验?(请看下面的例子),(x=0, 1, 2, , n),在一个“抛硬币”的游戏中,一个人抛了次,其中次是正面,请检验所用的硬币是否均匀。 vs. 根据二项分布,计算当成立时观测到比次更极端值的概率( 此概率即为我们常用的值。 需要注意此检验为单边检验。对双边检验,需要把上面得到的值乘以。,3.3 两个总体的假设检验,两个总体均值的比较检验,原假设: (两个总体均值没有差异) 备择假设:,两个总体均值的比较检验,独立大样本 两个独立总体方差和已知 两个独立总体方差和未知 独立小样本: 两个独立总体方差和已知 两个独立总体方差和未知 两个相关总体均值的比较,大样本时对总

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 大学课件

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号