统计学重点整理－金锄头文库

资源描述

《统计学重点整理》由会员分享，可在线阅读，更多相关《统计学重点整理（8页珍藏版）》请在金锄头文库上搜索。

1、参数(parameter)：描述总体特征的概括性数字度量，是研究者想要了解的总体的某种特征值。所关心的参数主要有总体均值、标准差、总体比例等。总体参数通常用希腊字母表示统计量(statistic)：用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一些量，是样本的函数。所关心的样本统计量有样本均值(x)、样本标准差(s) 、样本比例 (p)等。样本统计量通常用小写英文字母表示1、概率抽样：简单随机抽样（SRS）、系统抽样（SYS ）、分层抽样（STS）、整群抽样（STS ）、多阶段抽（MSS）简单随机抽样（SRS）特点：总体中每一个样本点均有相同机率被抽中、抽出某个样本后不影响另

2、一个样本抽出的机率（独立性）、经常先列样本名册后用计算机产生随机数或随机表抽选放回和不放回：放回（重复）抽样；无放回（不重复）抽样系统抽样（SYS）等距抽样：将所有样本列册以序号排列，先随机抽取第一个样本，接着每隔个样本抽取下一个样本；间隔 K的求法：Population size/ Sample size；常用于电话抽样（类似于简单随机抽样）分层抽样（STS）将总体区分为数个层（strata）：层之间互斥且周延、层内性质相近、层与层之间差异明显从每一层中简单随机抽取若干样本作为该层的代表，再将所有层总结集合整群抽样（STS）将总体区分为多个群集 clusters：群集间互斥且周延、群集与

3、群集间差异小、群集内类似总体随机抽取数个 clusters将抽中的群集内每个样本均调查多阶段抽样（MSS）第一阶段：分群整群抽样第二阶段：分层分层抽样第三阶段整群抽样的优点是实施方便、节省经费；整群抽样的缺点是往往由于不同群之间的差异较大，由此而引起的抽样误差往往大于简单随机抽样。2、抽样所产生的误差：抽样误差(sampling error)和非抽样误差(non-sampling error)抽样误差（理论上不可避免）：由于抽样的随机性所带来的误差（偶然性）所有样本可能的结果与总体真值之间的平均性差异影响抽样误差大小的因素：样本量的大小、总体的变异性普查无抽样误差，但是普查误差可能比抽样

4、误差大非抽样误差：除抽样误差之外的，由于其他原因造成的样本观察结果与总体真值之间的差异存在于所有的调查之中：概率抽样，非概率抽样，全面性调查包括：抽样框误差、回答误差、无回答误差、调查员误差、测量误差回答误差：理解误差、记忆误差、有意识误差无回答误差：应答率的问题：酒吧打架致死事件，90%是被打死的那个人先动手的误差的控制抽样误差可计算和控制抽样方法优点缺点简单随机抽样操作简便易行，总体个数多时，工作量太大系统抽样操作便简易行，可以提高效率如不了解样本总体，抽出的样本有

5、偏差分层抽样充分保证样本结构与总体的一致整体差异不明显时不适用，在使用时提高样本的代表性需要与其他抽样方法综合使用。非抽样误差的控制：合理选择抽样框、改良问卷、调查过程控制（调查结果进行检验、评估；现场调查人员进行奖惩的制度）茎叶图 Stem-and-leaf plot for YEAR(结婚年龄)（唯一一个没有丢失原始数据的统计表）3、画表的一般原则：合理安排统计表的结构、总标题内容应满足 3W 要求、数据计量单位相同时，可放在表的右上角标明，不同时应放在每个指标后或单列出一列标明

6、、表中的上下两条横线一般用粗线，其他线用细线、通常情况下，统计表的左右两边不封口、表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一、对于没有数字的表格单元，一般用“”表示、必要时可在表的下方加上注释4、集中趋势表示：均值、中位数、众数、几何平均数众数：出现次数最多的变量值不受极端值的影响、一组数据可能没有众数或有几个众数、主要用于定性数据，也可用于定量数据未分组数据：无众数（原始数据: 1 2 3 4 5 6 7 ）、一个众数（原始数据: 1 2 3 3 3 4 5 ）、多于一个众数(原始数据: 1 2 3 3 4 4 5 ，此时众数为二者平均 3.5)分组数据：先在次

7、数表中找出次数最多的那一组，称为众数组，一般以 Mo 来表示。若取众数组的组中点为众数，则称为粗众数。Czuber 插补法中位数(median)：将一组数字由大排至小，位居中间的数值为该组数字的中位数。一般以 Me 来表示各观察值与中位数差异的绝对值总和为最小。以下列公式求出中位数：均值(mean) ：集中趋势的最常用测度值、一组数据的均衡点所在事实上，各个观察值与平均数差的总和为 0、各个观察值与平均数差的平方和为最小几何平均数(geometric mean)：n 个变量值乘积的 n 次方根数据必须为正值才能计算几何平均数主要用于计算平均百分比(percentages)、比率(ratios)

8、、指数(indexes) 、成长率(growth rates)的计算分位数：除了将数据作半切割外，我们也可以将数据切成四等分、十等分、或一百等分切尾均值(trimmed Mean)：去掉大小两端的若干数值后计算中间数据的均值离散趋势：极差（四分位距）、方差（总体方差样本方差）、标准差（总体标准差、样本标准差）、离散系数四分位距（Interquartile Range）：也称为内距。上四分位数与下四分位数之差（ IQR = Q3 Q1）反映了中间 50%数据的离散程度。不受极端值的影响离散系数(coefficient of variation )：标准差与其相应的均值之比分布偏度与峰度的测度偏度

9、(skewness)：Pearson 于 1895 年首次提出。数据分布偏斜程度的测度：偏态系数=0 为对称分布偏态系数 0 为右偏分布峰度(kurtosis) ：Pearson 于 1905 年首次提出。数据分布扁平程度的测度峰态系数=0 扁平峰度适中峰态系数0 为尖峰分布统计量的分布就是抽样分布标准误（error）：统计量的标准差.样本均数的标准差。5、影响区间宽度的因素总体数据的离散程度，用 s 来测度样本容量置信水平 (1 - a) ，影响 z 的大小抽样组织形式抽样方法计算题6、如何正确理解置信区间由样本估计量所构造的总体参数的估计区间称为置信区间。统计学家在某种程度上确信这

10、个区间会包含真正的总体参数，所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值。我们只能是希望这个区间是大量包含总体参数真值的区间中的一个，但它也可能是少数几个不包含参数真值的区间中的一个。置信区间又称为估计区间，是用来估计参数的适用范围的。其值是一个变量本身所具有的真实值。置信区间展现的是这个参数真值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。7、抽样 n 需要考虑的因素（1）研究对象的变化程度、（2）所要求或允许的误差大小（即精度要求）、（3）要求推断的置信程度。也就是说，当所研

11、究的现象越复杂，差异越大时，样本容量要求越大；当要求的精度越高，可推断性要求越高时，样本量越大。样本容量 n 与总体方差2 、边际误差 E、可靠性系数 Z 或 t 之间的关系为8、第一类错误（弃真错误）：原假设为真时拒绝原假设。第一类错误的概率为 a，即显著性水平；（ a ）则置信水平第二类错误（取伪错误），原假设为假时没有拒绝原假设。第二类错误的概率为 b(Beta) 在其他条件不变的情况下，减少犯第一类的可能性势必增加犯第二类错误的可能性，反之必然。原假设：研究者想收集证据予以反对的假设。总是有等号 =, = 备择假设：研究者想收集证据予以支持的假设。总是有不等号 : , 9、P 值：如果

12、原假设为真，P-值是抽样分布中大于或小于样本统计量的概率左侧检验时，P-值为曲线上方小于等于检验统计量部分的面积右侧检验时，P-值为曲线上方大于等于检验统计量部分的面积P 值常常作为观察到额数据域原假设不一致程度的度量。统计量检验采用事先确定显著性水平 a，来控制犯第一类错误的上限，P 值可以有效的补充 a 提供的关于检验可靠性的有限信息。P 值检验的优点在于，他提供了更多的信息，让人们可以选择一定的水平来评估结果是否具有统计上的显著性。如果 P 值越小，则我们可以拒绝原假设计算题10、相关与回归的关系相关分析与回归分析区别：（1）相关分析中，变量 x 变量 y 处于平等的地位；回归分析中，变

13、量 y 称为因变量，处在被解释的地位，x 称为自变量，用于预测因变量的变化（2）相关分析中所涉及的变量 x 和 y 都是随机变量；回归分析中，因变量 y 是随机变量，自变量 x 可以是随机变量，也可以是非随机的确定变量（3）相关分析主要是描述两个变量之间线性关系的密切程度；回归分析不仅可以揭示变量 x 对变量 y 的影响大小，还可以由回归方程进行预测和控制相关分析与回归分析联系（1）理论和方法具有相似性；（2）无相关就无回归，相关程度越高，回归越好（3）线性回归时，相关系数和回归系数方向一致，可以互相推算回归系数含义是说当其他因素不变时自变量的以单位变化引起的因变量的变化程度计算题可决系数

14、（coefficient of determination）可决系数越大，说明在总变差中由模型作出了解释的部分占的比重越大，模型拟合优度越好。反之可决系数小，说明模型对样本观测值的拟合程度越差。可决系数是测定多个变量间相关关系密切程度的统计分析指标,它也是反映多个自变量对因变量的联合的影响程度。可决系数越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百分比高。判定系数为可解释变异量占总变异量的比例，表示 X 对 Y 的变异之解释能力。R2 愈大，表示 X 对 Y 的解释能力愈强可决系数有如下特点：1.可决系数是非负的统计量2.可决系数的取值范围：0=R2=13.可决系数是样本观测

15、值的函数，可决系数 R2 是随机抽样而变动的随机变量。为此，对可决系数的统计可靠性也应进行检验。未知数，可用样本 s 代替，从而得到 t 分布t 检验总体斜率时间数列的基本要素：时间和指标数值发展速度：环比发展速度、定基发展速度关系：定期发展速度（总速度）相应时期的环比发展速度之积。两个相邻的定基发展速度，用后者除以前者，等于相应的环比发展速度。增长速度：环比增长速度=环比发展速度1定基增长速度=定基发展速度1平均增长速度 = 平均发展速度 1平均发展速度的计算几何平均法（水平法）以 xi 表示环比发展速度，根据环比发展速度与总速度的关系，计算平均发展速度应该采用几何平均法：时间序列及其的构成要素（1）长期趋势 T (A 图)现象在较长时期内持续发展变化的一种趋向或状态；由影响时间序列的基本因素作用形成；是时间序列中最基本的构成要素；可分为上升趋势、下降趋势、水平趋势（2）季节变动 S (B 图)是一种使现象以一定时期（如一年、一月、一周等）为一周期呈现较有规律的上升、下降交替运动的影响因素。通常表现为现象在一年内随着自然季节的更替而发生的较有规律的增减变化，有旺季和淡季之分；是一种周期性的变化；周期长度小于一年；形成原因有自然因素，也有人为因素（3）循环变动 C (C 图) 这种因素

展开阅读全文

统计学重点整理

最新文档