社会统计分析与数据处理技术（stata）8参数估计

资源描述

《社会统计分析与数据处理技术（stata）8参数估计》由会员分享，可在线阅读，更多相关《社会统计分析与数据处理技术（stata）8参数估计（114页珍藏版）》请在金锄头文库上搜索。

1、第四部分推断行统计分析参数估计（parameter estimation）、假定检验（hypothesis test）与方差分析（Analysis of variance）,推断性统计,学术研究的目的在于把握总体特征。若掌握总体数据，则只需进行简单的统计描述，就可得到总体特征事实上，很难获得总体数据；多需要根据样本推断总体特征。若样本代表全体人群，则总结性的推断也具有很高的可信性推断性统计方法应用概率理论，根据观察到的样本特征预测和推断全域特征统计上的重要性检验帮助判断假定关系实际发生的概率只有推断性方法，才能检验假定是否成立参数估计、假定检验、方差分析都属于推断性分析方法,

2、本章主要内容,8.1参数估计（parameter estimation） 8.2假定检验（hypothesis test） 8.3方差分析（analysis of variance）,8.1：参数估计（parameter estimation） 8.1.1. 基本原理 8.1.2. 基本概念与估计方法 8.1.3. 参数估计举例,参数估计,估计就是根据拥有的信息来对现实世界进行某种判断。人们时刻都在进行估计估计 (estimation) 是统计性推断的重要内容之一参数估计是在抽样及抽样分布的基础上，根据样本统计量来推断总体的特征，即用统计量（statistics）去估计总体的参数（para

3、meters）从数据得到对现实世界的结论的过程就叫做统计推断 (statistical inference),参数估计的定义,用样本统计量估计总体的参数。比如：用样本均值估计总体均值用样本方差估计总体方差同样本比例估计总体比例设 = 总体参数，参数估计也就是如何用样本统计量来估计总体参数,样本统计量与总体参数,方,方,估计量（estimator）与估计值（estimated value）,估计量：用于估计总体参数的样本统计量，用符号表示比如：样本均值、样本比例、样本方差估计值：估计总体参数时计算出来的估计量的具体数值。比如：若要估计一个公司职员的平均月收入全公司的平均收入是

4、未知的，称为参数，用表示从中抽取样本，并根据样本计算的平均收入就是一个估计量，用表示假如计算出来的是1万元，这个1万元就是估计量的具体数值，即估计值,参数估计的主要方法,由样本统计量来估计总体参数有两种方法：点估计区间估计,点估计（ point estimation ）,根据样本统计量确定总体参数的一个数值(均值、标准差、比例等) 。常用点估计有：比如，若根据随即抽样的样本计算出来的公司职员的月工资收入为1万元，则用1万元作为全公司职员月平均收入的一个估计值,样本均值总体均值样本方差总体方差样本比例总体比例,区间估计（Interval estimate）（I）,通过统计推

5、断找到包括样本统计量在内（有时是以统计量为中心）的一个区间鉴于总体参数与样本均值的分布特点，该区间很可能包含总体参数无论研究的总体是否服从正态分布，样本均值一定服从正态分布,样本均值分布图,区间估计（Interval estimate）（II）样本的均值分布（I）,由样本均值的抽样分布可知，在重复抽样或无限抽样的情况下，样本均值的数学期望等于总体均值：样本均值的抽样标准误差为：于是，样本的抽样分布即为：由此可知，样本均值落在总体均值的两侧各为一个抽样标准差范围内的概率为0.6827，两个标准差范围内的概率为0.9544，三个标准差范围内的概率为0.9973,区间估计（Interva

6、l estimate）（II）样本的均值分布（II）,可以求出样本均值落在总体均值的两侧任何一个抽样标准差范围内的概率但实际估计时，情况恰恰相反：是已知的，是未知的，也是需要估计的由于与的距离是对称的，如果某个样本的平均值落在的两个标准差范围内，则也被包括在以为中心左右两个标准差的范围内因此，约有95%的样本均值会落在的两个标准差的范围之内。换言之，约有95%的样本均值所构造的两个标准误差的区间会包括抽取100个样本估计总体的均值，由100个样本所构成的100区间中，约有95个区间包含；另5个区间不包含 ,区间估计（Interval estimate）（II）样本

7、的均值分布（III）,样本均值（）在（，）范围内的概率为 68.27% 样本均值（）在（，）范围内的概率为 95.44% 样本均值（）在（，）范围内的概率为 99.73%,置信区间（confidence interval）,参数的区间估计就是通过有限样本估计出未知参数以多大的概率在某一区间内取值，即通过有限样本求出的一个置信区间区间的最小值称为置信下限，最大值称为置信上限比如，若一个样本为正态分布，方差已知(或为非正态分布，但样本量够大)，则其均值的置信下限和上限分别为：,由此可知，置信区间（包括均值和比例）由两部分组成：点估计和描述估计量精度的值（即边际误差：margi

8、nal error，或估计误差或误差范围）,点估计,边际误差,评价估计量的标准,无偏性（unbiasedness）：估计量抽样分布的数学期望值=被估计的总体参数设总体参数为，估计量为。若E（）=，则称为的无偏估计其它的统计量亦然有效性（efficiency）：一个无偏的估计并一定十分接近被估计的参数，它还必须与总体参数的离散程度比较小。对同以总体参数的两个无偏点估计量，有更小标准差的估计量更有效。假定两个用于估计总体参数的无偏估计量，分别用表示，哪一个的方差小，那个更有效一致性（consistency）：随着样本容量的增加，估计量的值越来越接近总体参数。这与样本均值抽样的标准

9、差有关：,置信水平（confidence level）（I）,将构造置信区间的步骤重复多次，置信区间包含总体参数真值的次数所占的比例称为置信度或置信水平 (confidence level) 比如，在100个样本构造的总体参数的100个置信区间中，有95%的区间包含了总体参数的真值，而5%没有包含，则95%这个值称为置信水平若用95%的置信水平得到孩子身高的置信区间为150-170cm，我们不能说“150-170cm这个区间以95%的概率包含全体孩子平均身高的真值”,置信水平（II）,Z 被称为概率度事先确定一个概率值（风险值），它是总体均值不包括在置信区间的概率 Z/2为标准正态分布上侧

10、面积为/2的 Z 值 1- 称为置信水平。一旦确定置信水平，Z/2的值就确定了,置信区间的解释（I）,例如：一个106个体温样本均值在95%的置信水平下的的置信区间是：98 F 99 我们有95%的把握相信，在98-99这个区间内包含了的真实值区间98-99以 95% 的概率覆盖总体均值的真实值的真实值以 95% 的概率落入区间98-99之间以上说法是否正确？那个（些）正确或不正确？为什么？,置信区间的解释（II）,2 & 3.“区间98-99以 95% 的概率覆盖总体均值的真实值”或“ 的真实值以95%的概率落入区间98-99之间”错误的原因：整个总体的平均体温是个固定的常数值

11、若使用样本数据求出一些特定的范围（如98-99），则这些范围要么包含、要么不包含总体均值；若不知道的真实值，我们也无法确定这些范围是否包含了但说“ 的真实值以95%的概率落入区间98-99之间”是错误的，因为是一个常数，而不是一个随机变量；要么在这个范围内，要么不落在这个范围内；这里并不涉及概率,置信区间的解释（III）,又如：计算生女孩的概率如果一个婴儿已经出生了，但我们还不知道婴儿的性别，我们就不能说这个婴儿是女孩的概率是0.5，因为这个婴儿已经是一个女孩，或不是一个女孩了。这里并不涉及可能性，因为婴儿的性别已经确定了相同地，的真实值已经确定下来了，置信区间的范围要么包含，要

12、么不包含因此，“ 有95%的可能性落在98-99之间”或“区间98-99以 95% 的概率覆盖总体均值的真实值”的说法是错误的,置信区间、置信水平、样本量,当样本容量给定时，置信区间的宽度随着置信系数的增大而增大。区间较宽时，才会使这一区间有更大的可能性包含参数的真值当置信系数固定时，置信区间的宽度随样本容量的增大而减小较大的样本量所提供的有关总体的信息比较小的样本多,样本容量的确定,在进行参数估计前，需要确定一个适当的样本量（即应该抽取多大的样本来估计总体参数）可靠性、准确性与置信区间增加样本容量可以（1）缩小置信区间，（2）保持置信程度，但（3）增加调查的费用和工作量样本容量：

13、指一个样本所包含的单位数一般将不少于30个个案的样本称为大样本，样本单位数不到三十个的样本称为小样本如何在我们愿意容忍的置信区间范围内，在维持较高置信水平的前提下，确定样本量是抽样估计中需要考虑的问题,估计总体均值时样本容量的确定,总体均值的置信区间由样本均值和边际误差组成在重复抽样和无限总体抽样条件下，边际误差由 z/2 的值和样本容量 n 共同确定。一旦确定了置信水平1-， z/2 的值也就确定了对于给定的z/2 的值和总体标准差，我们就可以确定任一希望的边际误差所需要的样本容量设E为希望达到的边际误差，则,样本量的计算,样本容量与置信水平成正比在其它条件不变的情况下，置信水平越

14、大，所需的样本容量也就越大；样本容量与总体方差成正比，总体的差异越大，所要求的样本容量也越大样本容量与边际误差成反比：可以接受的边际误差越大，所需的样本量就越小,置信区间的注意点,来自现实世界的数据量越大，对现实世界的了解就越准确样本量对置信区间有很大的影响。理想的情况是获得很小的置信区间和很大的置信度。但鱼与熊掌不可兼得若固定置信度（如 95%），则样本量越大，置信区间越小若固定置信区间的宽度，则样本量越大，置信度就越大可以从需要的置信区间的宽度和置信度求出需要多大的样本量当然，要指明的是，在固定置信度时，置信区间宽度的减少并不是和样本量 n 成反比，而是和成反比：当样本量

15、增加一倍（即 2n ）时，置信区间的宽度为原先的,一个总体参数的区间估计方法,总体均值的区间估计正态分布、方差已知或非正态分布、大样本（Z 检验）正态分布、方差未知、小样本（t 检验）总体比例的区间估计（Z 检验）总体方差的区间估计（x2检验）,两个总体参数的区间估计,不仅可以构造一个总体均值（或比例）的置信区间，还可以构造两个总体的均值（或比例）之差的置信区间。比如，若想知道城乡之间少年教育成就的差异，可以构造两个地区教育年限均值之差的置信区间若想比较一个候选人在不同阶段支持率的差异，那就可以构造两个比例之差的置信区间这就是两个总体参数的区间估计,两个总体参数的区间估计（续

16、）,两个总体均值之差的区间估计两个总体均值之差的估计：独立样本一个样本中的元素与另一个样本中的元素相互独立大样本（Z 检验）小样本（t 检验）两个总体均值之差的估计：匹配样本一个样本中的数据与另一个样本中的数据相对应两个总体比例之差的区间估计两个总体方差之差的区间估计,参数估计的窗口路径,Statistics Summaries，tables & tests Summary statistics 在该窗口下，有与点估计和区间估计相关的多种选择,使用命令进行参数估计,基本命令 . ci . mean . ttest . prtest . sdtest,1. 使用ci命令进行参数估计,基本命令有三种

展开阅读全文