统计学(第六版)期末考试考点梳理

资源描述

《统计学(第六版)期末考试考点梳理》由会员分享，可在线阅读，更多相关《统计学(第六版)期末考试考点梳理（14页珍藏版）》请在金锄头文库上搜索。

1、统计学（第六版）期末考试考点梳理统计学（第六版）期末考试考点梳理第一章第一章导论导论1.1.1 什么是统计学什么是统计学统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。数据分析所用的方法分为描述统计方法和推断统计方法。1.2 统计数据的类型统计数据的类型1.2.1 分类数据、顺序数据、数值型数据分类数据、顺序数据、数值型数据按照所采用的计算尺度不同，可以将统计数据分为分类数据、顺序数据、数值型数据。分类数据：分类数据：只能归于某一类别的非数字型数据，它是对事物进行分类的结果，数据表现为类别，是用文字来表示。例如：支付方式、性别、企业类型等。顺序数据：顺序数据：只能归于某一有序类别的

2、非数字型数据。例如：员工对改革措施的态度、产品等级、受教育程度等。数值型数据：数值型数据：按数字尺度测量的观测值，其结果表现为具体的数值。例如：年龄、工资、产量等。统计数据大体上可分为品质数据（定性数据）和数量数据（定量数据、数值型数据）。1.2.2 观测数据和实验数据观测数据和实验数据按照统计数据的收集方法，可以分为观测数据和实验数据。观测数据：观测数据：通过调查或观测而收集的数据。例如：降雨量、GDP、家庭收入等。实验数据：实验数据：在实验中控制实验对象而收集到的数据。例如：医药实验数据、化学实验数据等。1.2.3 截面数据和时间序列数据截面数据和时间序列数据按照被描述的现象与时间的关系

3、，可分类截面数据和时间序列数据。截面数据：截面数据：在相同或近似相同的时间点上收集的数据。例如：2012 年我国各省市的 GDP。时间序列数据：时间序列数据：同一现象在不同的时间收集的数据。例如：2000-2012 年湖北省的 GDP。1.3.1 总体和样本总体和样本总体：总体：包含所研究的全部个体（数据）的集合。样本：样本：从总体中抽取的一部分元素的集合。1.3.2 参数和统计量参数和统计量参数：参数：用来描述总体特征的概括性数字度量。统计量：统计量：用类描述样本特征的概括性数字度量。例如：某研究机构准备从某乡镇 5 万个家庭中抽取 1000 个家庭用于推断该乡镇所有农村居民家庭的年人均纯收

4、入。这项研究的总体是 5 万个家庭；样本是1000 个家庭；参数是 5 万个家庭的人均纯收入；统计量是 1000 个家庭的人均纯收入。第二章第二章数据的搜集数据的搜集2.1 数据的来源数据的来源2.1.1 数据的间接来源数据的间接来源间接来源的数据：间接来源的数据：如果与研究内容有关的原信息已经存在，我们只是对这些原信息重新加工、整理，使之成为我们进行统计分析可以使用的数据。例如：统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。二手数据的优缺点：二手数据的优缺点：优点：优点：搜集方便，采集成本低，数据采集快，作用广泛等。缺点：缺点：

5、针对性不够。2.1.2 数据的直接来源数据的直接来源普查：普查：调查针对总体中的所有个体单位进行。普查数据的优缺点：普查数据的优缺点：优点：优点：调查范围广，被调查单位多，信息全面，完整。缺点：缺点：调查费时，费力，费钱。2.2 调查数据调查数据2.2.1 概率抽样和非概率抽样概率抽样和非概率抽样重复抽样：重复抽样：从总体中抽取一个元素后，把这个元素放回到总体中再抽取第二个元素，直至抽取 n 个元素为止的抽样方法。简单随机抽样：简单随机抽样：从含有 N 个元素的总体中，抽取 n 个元素作为样本，使得总体中的每一个元素都有相同的概率被抽中的抽样方式。分层抽样：分层抽样：在抽样时，将总体分成互不交

6、叉的若干个层级，然后按一定的比例，从各层次独立地随机抽取一定数量的个体，将各层次取出的个体合在一起作为样本。整群抽样：整群抽样：先将总体划分为若干群体，然后以群作为抽样单位从中抽取部分群，再对抽中的各个群中所包含的所有元素进行观察的抽样方式。方便抽样：方便抽样：调查过程中由调查员依据方便原则，自行确定入样单位。滚雪球抽样：滚雪球抽样：调查时首先选择一组调查单位，对其实施调查后，再请他们提供另外一些属于研究总体的调查对象，调查人员根据所提供的线索，进行此后的调查的调查方式。2.4.12.4.1 抽样误差抽样误差样本量与抽样误差成反比。随着样本量的逐渐增大，抽样误差就越小。2.4.32.4.3 误

7、差的控制误差的控制通过样本量的大小控制可以改变误差大小，要求的抽样误差越小，所需要的样本量就越大。第三章第三章数据的图表展示数据的图表展示3.2.1 分类数据的整理与图示分类数据的整理与图示（3）饼图）饼图主要用于表示一个样本（或总体）中各组成部分的数据占全部数据的比例。适合于描述结构性问题。（4）环形图）环形图显示多个样本各部分所占的相应比例。适合于比较研究两个或多个样本或总体的结构性问题。3.3.1 数据分组数据分组为解决数据分组不重的问题，统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下一组。（axb）3.3.2 数值

8、型数据的图示数值型数据的图示1.分组数据：直方图分组数据：直方图用于展示分组数据分布的一种图形。直方图与条形图区别：直方图与条形图区别：条形图：条形长度表示频数；宽度固定不变；矩形分开排列；展示分类数据直方图：面积表示频数；宽度表示组距；矩形连续排列；展示数值型数据3.时间序列数据：线图时间序列数据：线图主要用于反映现象随时间变化的特征，描述其变化趋势。4.多变量数据的图示多变量数据的图示（1）散点图适合用于描述两变量之间是否存在某种关系。数据图示的原则：适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章第四章数据的概率性度量

9、数据的概率性度量4.1 集中趋势的度量集中趋势的度量集中趋势：一组数据向其中心值靠拢的倾向和程度，它反映了一组数据中心点的位置所在。原则：低层次数据的测度值适用于高层次的测量数据，但高层次数据的测度值并不适用于低层次的测量数据4.1.1分类数据：众数分类数据：众数一组数据中出现次数最多的变量值。适合于数据量较多时使用。主要用于分类数据，也可用于顺序数据和数值型数据。4.1.2 顺序数据：中位数和分位数顺序数据：中位数和分位数1.中位数中位数一组数据排序后处于中间位置上的变量值，用 Me表示。中位数将全部数据平分为两部分，各占 50%数据。适用范围：顺序数据、数值型数据的集中趋势测度，不适用于分

10、类数据测量。中位数计算步骤：中位数计算步骤：1.数据排序；2.确定中位数位置；3.确定具体值中位数位置计算：(n+1)/2中位数值的计算：奇数时，X（n+1）/2；偶数时，1/2X(n/2)+X(n/2+1)2.四分位数四分位数将一组数据数据排序后四等份（各占 25%数据），处于 25%位置点（下四分位）和 75%位置点（上四分位）上的值。四分位数计算步骤：1.数据排序；2.确定四分位数位置；3.确定具体值四分位数位置确定方法：（不同确定方法，不同四分位数值）QL=n/4； QU=3n/4整数位置：整数对应值0.5 的位置：两侧值得平均值0.25 或 0.75 的位置：下侧值+（上侧值下侧值

11、）*0.25 或者 0.754.1.3 数值型数据：平均数数值型数据：平均数一组数据相加之后除以数据个数得到的数值，是集中趋势的最主要测度值适用范围：数值型数据，不适用于顺序数据和分类数据。4.1.4 众数、中位数和平均数的比较众数、中位数和平均数的比较1. 众数、中位数和平均数的关系众数、中位数和平均数的关系众数：一组数据分布的最高峰中位数：处于一组数据的中间位置的值平均数：全部数据的算术平均对称分布情况：众数=中位数=平均数左偏分布情况：存在较小值，平均数中位数众数右偏分布情况：存在极大值，众数中位数平均数4.2 离散程度的度量离散程度的度量反映各变量值远离中心值的程度远离中心值的程度。离

12、散程度越大，集中趋势测度值的代表性越差。4.2.3 数值型数据：方差和标准差数值型数据：方差和标准差1.极差（全距）极差（全距）一组数据的最大值与最小值的差。3.方差和标准差方差和标准差方差方差是各变量值与平均数离差平方平均数离差平方的平均数平均数（通过平方消去正负号）。标准差标准差是方差的平方根平方根。方差和标准差能较好地反映出数据的离散程度，是实际中应用最广的离散程度测度值。4.2.4 相对离散程度：离散系数相对离散程度：离散系数离散系数是一组数据的标准差与平均数的比值比值，是离散程度的相对相对统计量。适用于比较不同样本数据的离散程度。离散系数越大，离散程度越大（正比正比）。练习题：练

13、习题：4.1（P94）、4.2（P95）第六章第六章统计量及其抽样分布统计量及其抽样分布 6.4 样本均值的分布于中心极限定理样本均值的分布于中心极限定理当总体服从正态分布 N(,2)时，来自该总体的所有容量为 n 的样本的均值x 也服从正态分布，x 的数学期望为，方差为 2/n。即xN(,2/n)中心极限定理：中心极限定理：从均值为，方差为 2的一个任意总体中抽取容量为 n 的样本，当 n 充分大时，样本均值的抽样分布近似服从均值为、方差为 2/n的正态分布。经验法则是 n30 时算是充分大，满足中心极限定理要求。关于大样本和小样本：关于大样本和小样本：理论而言，小样本：样本量固

14、定，不论样本量多少；大样本：样本量 n经验做法，大样本：n30小样本：n30第七章第七章参数估计参数估计7.1.2 点估计与区间估计点估计与区间估计当置信水平固定时，置信区间的宽度随着样本量的增大而减小。95%的置信水平是指在用同样方法构造的总体参数的多个区间中，包含该总体参数的区间的比例为 95%。这个概率不是用来描述某个特定区间包含真值的可能性，一个特定的特定的区间总是总是包含或者绝不绝不包含真值，不存在一会包含，一会不包含的问题。用概率概率可以知道在多次抽样得到的区间中大概有多少多少个包含了参数的真值。7.1.3 评估估计量的标准评估估计量的标准无偏性无偏性是指估计量抽样分布的数学期

15、望等于被估计的总体参数。有效性较小标准误差的点估计量比其他点估计量相对有效。一致性一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。第八章第八章假设检验假设检验8.1 假设检验的基本问题假设检验的基本问题假设检验的基本思想：假设检验的基本思想：假设检验推断过程所依据的基本思想是小概率反证法思想。小概率思想是指发生概率很小的随机事件，在某一次特定的实验中是几乎不可能发生的。若小概率事件在一次实验中发生了则假设可能错误。反证法思想是首先对总体参数值提出假设，然后再利用样本提供的信息去验证先前提出的假设是否成立。如果样本数据不能够充分证明和支持假设，则在一定概率条件下，应该拒绝该假

16、设；相反，如果样本数据不能够充分证明和支持假设是不成立的，则不能推翻假设成立的合理性和真实性。8.1.2 假设的表达式假设的表达式原假设假定两个或多个事物之间是等同的或没有关系的，是变量之间无关的陈述。原假设表示否定的意义。备择假设假定变量间存在一定的关系。零假设是变量之间无关的陈述，而研究假设是变量有关系的明确陈述。在逻辑上与原假设内容完全对立的假设成为备择假设。原假设与备择假设在逻辑上是互斥的，肯定原假设，则备择假设就必须放弃；否定原假设，则接受备择假设。8.1.3 两类错误两类错误根据所犯错误的类型，我们分为两种类型：（举例见教材 P188）第一类：原假设为真，拒绝真假设，犯此类错误的概率为，称为错误或弃真错误。第二类：原假设为伪，接受伪假设，犯此类错误的概率为，称为错误或取伪错误。对原假设为真的判断与概率：（1）拒绝原真假设的概率为，也称为显著性水平。（2）接受原真假设，做出正确判断的概率为 1-。在实践中，由进行假设检验的人设定显著性水平，一般取为 0.05 和 0.01.通过选择，控

展开阅读全文