2015bigc统计学总复习剖析

资源描述

《2015bigc统计学总复习剖析》由会员分享，可在线阅读，更多相关《2015bigc统计学总复习剖析（69页珍藏版）》请在金锄头文库上搜索。

1、课程内容,绪论统计数据的收集、整理与显示数据分布特征的描述抽样分布与参数估计假设检验方差分析相关与回归分析时间序列分析统计指数,第一章绪论,统计工作过程统计设计、统计调查、统计整理、统计分析统计分类描述统计（收集、整理和展示数据）推断统计（参数估计、假设检验）基本术语（概念、分类等）总体、总体单位（个体）、样本标志、指标、变量（分类、顺序、数值）注意：区分标志和指标；变量可能是标志，也可能是指标。,指标和标志的关系,区别： 1、指标是说明总体特征的，而标志则是说明总体单位特征的。 2、标志有不能用数值表示的品质标志和能用数值表示的数量指标；而指标都使用数值表

2、示的，没有不能用数值表示的指标。,联系： 1、汇总关系：统计指标的数值是由总体单位的标志或个数汇总而来的。 2、转化关系：随着研究目的不同，总体和总体单位可以互相转化，相应地，指标和数量标志具有相对性，可以相互转化。,指标按其说明的总体内容不同，可以分为数量指标和质量指标。数量指标是反映总体范围、总体规模、总体水平的指标，又称为外延指标。一般表现为绝对数。如投资总额、企业总数、销售总额等。质量指标是反映总体内部数量关系或发展变化的指标，又称为内涵指标。一般表现为相对数或平均数。如劳动效率、费用水平、增长速度等。,第二章统计数据的收集、整理与显示,数据收集统计调查方式：普查、抽样调查、重

3、点调查、典型调查注意区分各种调查方式及其适用场合数据整理（数据录入后的分组整理）分类变量整理：利用数据透视表按类分组顺序变量整理：利用数据透视表按类分组数值型变量整理单变量分组：利用数据透视表按类分组组距式分组：利用直方图工具按区间分组注意：区分数值型变量分组时如何选择分组方法1+3.3lgN 组距式分组中变量值所属区间的确定以及组中值计算（上限不在内原则，开口组组中值确定等）,6,（1）为特定目的专门组织的非经常性全面调查; （2）通常是一次性或周期性的; （3）一般需要规定统一的标准调查时间；（4）数据的规范化程度较高; （5）应用范围比较狭窄.,普查,7,（1）从总体

4、中抽取一部分单位（样本）进行调查；（2）目的是推断总体未知信息；（3）具有经济性、时效性强、适应面广、准确性高等特点。,抽样调查,8,重点调查是从调查对象的全部单位中选择少数重点单位进行调查。所谓重点单位是着眼于“量”的方面而言的，尽管这些单位在全部单位中只是一部分，但是在所要调查的数量特征上占有较大的比重。,补充：重点调查与典型调查,9,典型调查是从调查对象的全部单位中选择一个或几个有代表性的单位进行全面深入的调查。它的特点是根据调查目的任务，在对观察总体进行全面分析的基础上有意识的选取的，带有一定的主观性。注意：重点调查和典型调查都不能用来推断总体。,补充：重点调查与典型调查,10

5、,定量数据的分组方法有单变量分组和组距分组两种。单变量分组（单项式分组）就是按每一个具体变量值对现象总体所进行的分组。即把每个变量值分别作为一组的分组方式。组距分组是将全部变量值依次划分为若干个区间，并将这一区间的变量值作为一组的分组方式。,11,说明：单变量分组适合于变量值不多且变动范围有限的离散变量。组距分组适合于连续变量和变量值较多或变动幅度较大的离散变量。,12,组距分组步骤,1. 确定组数：组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时，可以按 Sturges 提出的经验公式来确定组数K,确定各组的组距：组距(Class Width)是一个组的上限与下限之差，

6、可根据全部数据的最大值和最小值及所分的组数来确定，即组距( 最大值 - 最小值）组数,根据分组整理成频数分布表实例,注意：以上用于无法确定如何分组，或作试分组时常用,第三章数据分布特征的描述,集中趋势测度（平均指标）寻找集中点、代表值，决定分布的位置位置平均数：众数、中位数数值平均数：算术平均数、调和平均数、几何平均数离散程度测度（变异指标）辨别分散、稳定状况，分析集中趋势代表值的代表性，决定分布的高矮胖瘦极差、方差和标准差、离散系数举例：两个班学生高数成绩分布,众数的特点,出现次数最多的变量值不受极端值的影响，属于位置代表值可能没有众数或有多个众数主要用于分类数据，

7、也可用于顺序数据和数值型数据,众数计算及特点,未分组数据先分组并制作频数分布表，依据定义确定（分类变量、顺序变量、数值型变量的单变量分组）组距式分组数据确定众数组，找次数或频数最大的组；利用如下公式计算（任选其一即可）,二、中位数(Median),中位数是一组数据按大小排序后，处于正中间位置上的变量值。用Me表示。,未分组与单变量分组数据：,组距分组数据：,中位数位置,中位数位置,未分组与单变量分组数据的中位数,对于未分组与单变量分组数据，其中位数的计算公式为：,N为奇数,N为偶数,未分组数量数据中位数举例,原始数据: 24 22 21 26 20,中位数=22,原始数据: 10 5

8、 9 12 6 8,排序: 20 21 22 24 26,排序: 5 6 8 9 10 12,位置,位置,中位数=,中位数计算及特点,未分组数据排序后按定义确定（中位数位置：(N+1)/2）顺序变量分组数据、数值型单变量分组依据向上累积频数（或向下累积频数）确定（中位数位置：(N+1)/2）数值型变量组距式分组数据根据位置公式确定中位数所在的组（中位数位置：N/2）采用下列近似公式计算（任选其一）,中位数的特点,1. 排序后处于中间位置上的值 2. 不受极端值的影响，属于位置代表值 3. 主要用于顺序数据，也可用数值型数据，但不能用于分类数据 4. 各变量值与中位数的离差绝对值

9、之和最小，即：,算术平均数计算及特点,变量值的总和与总体单位总数之比未分组数据（简单算术平均数）,分组数据（加权算术平均数）单变量分组（直接使用加权算术平均数公式）组距式分组（先确定组中值，再使用加权算术平均数公式）,调和平均数计算,变量值的总和与总体单位总数之比未分组数据（简单调和平均数）,分组数据（加权调和平均数）单变量分组（直接使用加权调和平均数公式）组距式分组（先确定组中值，再使用加权调和平均数公式）,几何平均数计算,适用于特殊数据，一般反映平均动态变化计算比率或速度的平均各比率或速度的连乘积等于总比率或总速度主要用来计算平均发展速度,离散程度测度（变异指标）,异众比

10、率（衡量众数代表性）（不考察）四分位差（衡量中位数代表性）（不考察）极差（粗略衡量算术平均数代表性）方差和标准差（衡量算术平均数代表性，常用）离散系数（用于比较两总体的离散程度）,方差和标准差计算,方差实质上也是一种平均数，各变量值与其均值离差平方的平均数。未分组数据：简单平均分组数据：加权平均,区分总体方差和样本方差,总体方差：利用总体全部数据计算所得样本方差：利用来自总体的样本数据计算所得，目的是用于推断总体方差。为使样本方差是总体方差的优良估计量，常用的样本方差公式是修订后的公式。,第四章参数估计,点估计区间估计总体均值总体比例总体方差（不考）样本容量确定,置信

11、区间求解思路,确定推断所用的分布形式构造上述分布形式所属变量的概率为置信度的区间范围利用已知分布形式的变量与待估总体参数之间的关系求解总体参数的置信区间,总体均值置信区间注：重复抽样公式，不重复抽样时要使用修正因子调整。,小样本：正态总体总体方差已知总体方差未知,大样本（对总体分布形式没有限定）总体方差已知、未知（用样本方差估计）均使用标准正态分布（z分布）,总体均值置信区间注：重复抽样公式，不重复抽样时要使用修正因子调整。,32,总体均值区间估计总结,大样本可将比例视为是非标志的均值，采用大样本情况下总体均值的置信区间公式,总体比例置信区间注：重复抽样公式，不重复抽样时要使

12、用修正因子调整。,估计总体均值时样本容量的确定,1.总体方差已知，重复抽样时,*2.总体方差已知，不重复抽样时,估计总体比例时样本容量的确定,1.重复抽样时,*2.不重复抽样时,影响样本容量的因素,（1）总体方差（2）允许误差范围（3）置信度（4）抽样方法（5）抽样组织方式,第五章假设检验,假设检验基本原理假设检验的两类错误总体参数假设检验总体均值总体比例总体方差（不考）假设检验其他问题区间估计和假设检验的变通检验P值（不考）,假设检验的步骤,1. 提出原假设和备择假设 2. 确定适当的检验统计量 3. 选择显著性水平，确定临界值与拒绝域 4. 计算检验统计量的值，作

13、出统计决策,假设,统计值落入大概率范围，大概率事件发生,与假设矛盾不大,不能拒绝,统计值落入小概率范围，小概率事件发生,与假设矛盾大,拒绝,假设检验的步骤,假设的三种形式双侧检验：左侧检验：右侧检验：,假设检验中的两类错误,第类错误（弃真错误：以真为假）原假设为真时而拒绝原假设犯第类错误的概率为，即显著性水平第类错误（纳伪错误：以假为真）原假设为假时而没有拒绝原假设犯第类错误的概率为第一类错误和第二类错误概率的关系,总体均值假设检验,小样本：正态总体总体方差已知总体方差未知,总体均值假设检验,大样本（对总体分布形式没有限定）总体方差已知、未知（用样本方差估计）均使用标准

14、正态分布（z分布）,总体比例假设检验,大样本可将比例视为是非标志的均值，采用大样本情况下总体均值的假设检验统计量公式,第六章方差分析,方差分析的基本概念单因素方差分析步骤提出假设构造检验统计量做出决策利用软件进行方差分析，会解释分析结果,方差分析的基本概念,检验多个总体的均值是否相等通过对各观察数据误差来源(方差)的分析变量类型分类自变量 2个或多个 (k 个) 处理水平或分类数值型因变量研究分类自变量是否是数值型因变量变化的原因,第一步：建立假设 H0: 1=2=k （因素有k个水平） H1: 1，2，k不全相等转化： H0:组间方差=组内方差 H1:组间方差组内方

15、差进一步转化： H0:F=组间方差/组内方差=1 H1: F=组间方差/组内方差1 右侧F检验,单因素方差分析的步骤,第二步：构造检验统计量,单因素方差分析的步骤,第三步：做出决策若F F ，则拒绝原假设H0 ，表明均值之间的差异是显著的若F F ，则不能拒绝原假设H0 ，表明所检验的因素（A）对观察值没有显著影响,单因素方差分析的步骤,单因素方差分析表之间的关系,均方=平方和/自由度,F值=组间均方/组内均方,注：表格中的均方实际上就是方差,第七章相关与回归分析,变量之间关系（两种）：函数？相关？相关关系类型相关关系的测定回归分析的概念与内容回归分析与相关分析的区别和联系,相

16、关关系的类型汇总,相关关系的图示,相关关系的测定,画图：散点图线性相关系数的计算（线性相关）相关系数取值及其意义,r 的取值范围是 -1,1 |r|=1，为完全相关 r =1，为完全正相关 r =-1，为完全负相关 r = 0，不存在线性相关关系 -1r0，为负相关 0r1，为正相关 |r|越趋于1表示线性关系越密切；|r|越趋于0表示线性关系越不密切,回归分析的概念和内容,回归分析是根据相关关系的具体形态，选择合适的数学模型，来近似表达变量之间的平均变化关系。当现象之间存在显著的相关关系时就可以配合数学模型进行回归分析；回归分析要求变量之间具有因果关系。,一元线性回归分析,建立回归模型：线性部分反映了由于X的变化而引起的Y的变化误差项是随机变量反映了除 X和 Y之间的线性关系之外的随机因素对Y的影响是不能由X和Y之间的线性关系所解释的变异性是回归直线在 y 轴上的截距，是当x=0 时y的期望值

展开阅读全文

2015bigc统计学总复习剖析

最新文档