统计学重点部分归纳要点

资源描述

《统计学重点部分归纳要点》由会员分享，可在线阅读，更多相关《统计学重点部分归纳要点（57页珍藏版）》请在金锄头文库上搜索。

1、第三章全距也称极差，是一组数据的最大值与最小值之差。R二最大值-最小值组距分组数据可根据最高组上限-最低组下限计算。四分位数：数据按大小顺序排序后把分割成四等分的三个分割点上的数值SPSS 中四分位数的位置为（n+1）/4, 2（n+1）/4, 3 （n+1）/4。Excel中四分位数的位置分别为（n+3）/4 , 2（n+1）/4 , （3 n+1）/4。如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。四分位品E等于上四分位数与下四分位数之差IQR=Q3-Q1反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。方差是

2、一组数据中各数值与其算术平均数离差平方的平均数, 的最常用的指标。标准差是方差正的平方根。是反映定量数据离散程度总体方差N样本方差未分组数据样本方差用（口-1）去除，从数学角度看是因为它是总体方差加的无偏估计量.（七与n-分组数据1=1】二】kEK1?=1离散系数：标准差与其相应的均值之比，表示为百分数。CV = （总体）或“二样本）特点：（1）反映了相对于均值的相对离散程度；（2）可用于比较计量单位不同的数据的离散程度;（3）计量单位相如果两组数据的均值相差悬殊，离散系数可能比标准差等绝对指标更有意义对30名经理人员的调查表明年平均收入=S500,000, 标准差=S50r000o对3

3、0名工人的调查表明平均收入=$32,000,标准岁=$5,000离散系数：经理人员:50000cv=x 100% = 10%500000工人:-x 100%=15.625% 32000虽然经理人员收入的绝对离散程度远远大于工人，但经理人员收入的相对离散程度小于工人e匚= 对称分布:偏态系数=0.右偏分布（也称正偏分布）：偏态系数SK0；偏态系数的绝对值越大，偏斜越严重。峰度：数据分布的扁平或尖峰程度。峰度系数：数据分布峰度的度量值，对数据分布尖峰或扁平程度的测度，一般用 K表示。尖峰分布均值和方差相同的正态分布扁平分布峰度系数K0,与正态分布相比该分布一般为尖峰、肥尾，肩部较瘦

4、.箱线图用于描述数据分布特征的一种图形。最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的：先根据三个四分位数Q1、Q2、Q3画出中间的盒子，然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的：先根据三个四分位数 Q1、Q2、Q3画出中间的盒子；由Q3至Q3+1.5*IQR区间内的最大值向盒子的顶端连线，由Q1至Q1-1.5*IQR区间内的最小值向盒子的底部连线；处于Q3+1.5*IQR至Q3+3*IQR或者 Q1-1.5*IQR至Q1-3*IQR 范围内的数据用圆圈标出；大于Q3+3*IQR或者小于 Q1-3*IQR的用星号标出。数据分布的不对称性称作

5、偏态。偏态系数就是对数据分布的不对称性（即偏斜程度）的测度。左偏分布（也称负偏分布）士偏态系数SK0说明观测值大于均值。z0说明观测值小于均值。z=1.2说明观测值比均值大1.2倍的标准差第四章假设检验推断统计：在搜集、整理观测样本数据的基础上，对有关总体作出推断特点：随机性的观测样本数据以及问题的条件和假定，对未知事物作出以概率形式表述的推断参数估计总体样本TT参数统计量=？,算术平均数无用来推断总体参数的统计量称为估计量(-timator).其取值称为估计值(estimate) D同一个参数可以有多个不高的估计量0 参数是唯一的，但估计量(统计量)是随机变量，取值是不确定的。(1)基本

6、概念:点估计：用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。例如，在估计总体方差时,点估计量常用的评价准则:门n工以一寸-工丫f=l 1=1n竹T和都可作为估计量。a无偏性:估计量的数学期望与总体待估参数的真值相等:b有效性:在两个无偏估计量中方差较小的估计量较为有效。c一致性:指随着样本容量的增大，估计量越来越接近被估计的总体参数。区间估计：根据事先确定的置信度1- a给出总体参数的一个估计范围。置信度1- a的含义是：在同样的方法得到的所有置信区间中，有区0(1- a)%的区间包含总体参数。置信区间置信下限估计值（点估计）置信上限置信是什么?抽样分布：区间估计的理论基

7、础。从总体中抽取一个样本量为 n的随机样本，我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为 n的样本，就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。抽样分布的要点：抽样分萩字计量的分布而不是总体或样本的分布。在统计推断中总体的分布一般是未知的，不可观测的（常常被假设为正态分布）。样本数据的统计分布是可以直接观测的，最直观的方式是直方图，可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出，在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。.样本均值的均值（数学期望）等于总体均值.样本均值的方差等于总体方差的1

8、/n样本均值抽样分布结论：一般的，当总体服从 N（艮，b 2 ）时，来自该总体的容量为n的样本的均值_x也服从正态分布，X的期望为 P，方差为o2/n。即xN（ . , b 2/n）。2=10/4=2.5中心极限定理：从均值为小，方差为仃2的一个任意总体中抽取容量为样本均值的抽样分布近似服从均值为小、方差为仃2/n的正态分布。分布=an的样本，当n充分大时,简单随机抽样、重复抽样时.样本均俏抽样分布的标准差等于仃/布，这个指标在统计上称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果二二二，称为有限总体校正系数，当抽样比（n N -1总体均值和比例的区间估计总体均值区间是估计相关

9、理第一二=3体正态?一厂5 2已知？一是厂n/N） 0.05时可以忽略有限总体校正系数否：， B30?R否旦I简单随机抽样、不重复抽样时，样本均值抽样分布的方差略小于重复抽样的方差,等于总体比例的区间估计:当而之& 一向共*间估计。（样本比例记为p，总体比例记为冗）时总体比例的置信区间可以使用正态分布来进行区pZa/2 木（1 一方）力（1 一 P）置信区间的补充说明：P=1- a置信度含义的说明E2在所有的置信区间中，有(1-Q)*100%的区间包含总体真实值。对于计算得到的一个具体区间，“这个区间包含总体真实值”这一结论有可能是正确的E说“总体均值有95%的概率落入某一区间是

10、不严格的,因为总体均值是非随机的.必要样本容量的确定：(1)实际抽样误差：总体参数估计值与真实值之间的绝对离差称为实际抽样误差，是一个随机变量。(2)抽样平均误差：样本均值的标准差，也就是前面说的标准误。它反映样本均值(或比例)与总% = Je(1-6)2体均值(比例)的平均差异程度。例如对简单随机抽样中的样本均值有：，或%=6府I (不重复抽样)我们通常说“抽样调查中可以对抽样误差进行控制”，就是指的抽样平均误差。影响因素：1.总体内部的差异程度；2.样本容量的大小；3.抽样的方式方法(3)最大允许误差：在确定置信区间时样本均值(或样本比例)加减的量，一般用 E来表示，等于置信区

11、间长度的一半。置信区间二五土是人为确定的、是调查者在相应的置信度下可以容忍的误差水平。必要样本量受以下几个因素的影响；(1)总体标准差。总体的变异程度越大，必要样本量也就越大。(2)最大允许误差。最大允许误差越大，需要的样本量越小。(3)置彳S度1-a。要求的置信度越高，需要的样本量越大。(4)抽样方式。其它条件相同，在重复抽样、不重复抽样；简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。简单随机抽样时的必要样本量(计算题)：估计总体比例时样本容量的确定:上式中的总体比例上可以通过以下方式估计:根据历史资料确定通过试验性调查估计取为0.5估计总体均值时样本容量的确定:E2

12、上式中的总体方差6可以通过以下方式估计:根据历史资料确定通过试验性调查估计不重复抽样时的必要样本量比重复抽样时的必要样本量要小。n0是重复抽样时的必要样本容量例子需要多大规模的样本才能在90%的置信水平上保证均值的误差在 5之内？前期研究表明总体标准差为45.(1.645f(45f”人-V- =219,2220/向上取整95%置信度时，Z2o2/2=1.96 ,冗未知时取为0.5假设检验：事先作出关于总体参数、分布形式、相互关系等的命题(假设)，然后通过样本信息来判断该命题是否成立(检验)。利用假设检验进行推断的基本原理是：小概率事件在一次试验中几乎不会发生。假设检验的步骤：(1)根据实际问题

13、提出一对假设(零假设和备择假设)；(2)构造某个适当的检验统计量，并确定其在零假设成立时的分布；(3)根据观测的样本计算检验统计量的值；(4)根据犯第一类错误的损失规定显著性水平 a ;(5)确定决策规则：根据确定检验统计量的临界值并进而给出拒绝域，或者计算p值等；下结论:根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。双侧检验左侧检验右侧检验耳珥零假设和备择假设是互斥的，它们中仅有一个正确；等号必须出现在零假设中；单侧检验时零假设和备择假设的选择(1)通常把研究者要证明的假设作为备择假设；(2)将所作出的声明作为原假设；(3)把现状作为原假设；(4)把不能轻易否定的假设作为原假设；检验统计量：用来决策(拒绝或不能拒绝零假设)时依据的样本统计量。不同的总体参数适用的检验统计量不同。拒绝域：检验统计量取值的集合，当根据样本得到的检验统计量的值属于该集合时，拒绝零假设。假设检验中的两类错误与显著性水平决束

展开阅读全文