478编号统计学原理贾俊期末考试重点

上传人:玩*** 文档编号:145835868 上传时间:2020-09-24 格式:PDF 页数:14 大小:2.72MB
返回 下载 相关 举报
478编号统计学原理贾俊期末考试重点_第1页
第1页 / 共14页
478编号统计学原理贾俊期末考试重点_第2页
第2页 / 共14页
478编号统计学原理贾俊期末考试重点_第3页
第3页 / 共14页
478编号统计学原理贾俊期末考试重点_第4页
第4页 / 共14页
478编号统计学原理贾俊期末考试重点_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《478编号统计学原理贾俊期末考试重点》由会员分享,可在线阅读,更多相关《478编号统计学原理贾俊期末考试重点(14页珍藏版)》请在金锄头文库上搜索。

1、统计学期末 (单选、10 个填空、5 个判断、三个计算、一道论述) 第一章 导论 1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。 分析数据:分为描述统计方法和推断统计方法两种方法。 描述统计:研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。 推断统计:是研究如何利用样本数据来推断总体特征的统计方法。 推断统计内容包含参数估计和假设检验 2、统计数据的类型: (1)按照采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据与数值型数据。 注意:分类数据和顺序数据都是表现事物的品质特征,通常是用文字来表述的,其结果均表 现为类别,因此可以通称为定性数据或品质数据(

2、qualitative data)。 数值型数据说明的是现象的数量特征, 通常用数值来表现, 因此可以统称为定量数据或 数量数据(quantitative data)。 (2)按照统计数据的收集方法,可以将统计数据分为观测数据和实验数据。 (3)按照被描述的现象与时间的关系,可以将统计数据分为截面数据、时间序列数据(和 面板数据? panal data) 。 3、抽样独立性问题:总体区分为有限总体和无限总体,目的是为了判别在抽样中每次抽取 是否独立(类似抽小球是否放回的问题) 。 在统计推断中,通常是针对无限总体的,因而通常把总体看做随机变量(random variable) 。统计上的总体通

3、常是一组观测数据,而不是一群人或者一些物品的简单集合。 4、统计指标按其所反映的数量特点和作用不同,分为数量指标、质量指标数量指标、质量指标。 样本(sample)是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量 (sample size) 。抽样的目的是根据样本提供的信息推断总体的特征。 5、总体参数(parameter)是用来描述总体特征的概括性数字度量,是研究者想要了解的某 种特征值。样本统计量(statistic)是用来描述样本特征的概括性数字度量,是根据样本数 量计算出来的一个量。 1 2 6、变量(variable)是说明现象某种特征的概念,特点是从一次观察到下一次

4、观察会呈现出 差别或变化。例如:受教育程度,植株高度,年收入,宗教信仰,产品等级等都是变量。 变量可以分为分类变量、顺序变量和数值型变量分类变量、顺序变量和数值型变量。 数值型变量根据取值不同,可以分为离散变量(只能取可数值的变量,只能取有限个值,取 值都是以整位数断开,如:产品产量、各位候选人得票数,企业数量等。 )和连续变量(可 以在一个或多个区间取任何值的变量,取值是连续不断的,不可一一列举,如:植株高度, 毕业生年收入,温度,零件尺寸误差等。 ) 。 变量也可以分为随机变量和非随机变量(抽取方法随机性不同) ,经验变量(empirical variable)和理论变量(theoreti

5、cal variable) 。经验变量描述的是周围环境中可以观察到的事 物, 理论变量理论变量则是统计学家采用数学方法构造出来的一些变量, 比如 z 统计量、 t 统计量、 2 统计量、F 统计量 z 统计量、 t 统计量、 2 统计量、F 统计量等都是理论变量。 第二章 数据的搜集 本章小结 1、数据的来源:直接来源与间接来源 2、调查数据调查数据:概率抽样(简单随机抽样,分层抽样,系统抽样,整群抽样,多阶段抽样多阶段抽样) 和非概率抽样(方便抽样,判断抽样,自愿样本,滚雪球抽样,配额抽样) ,搜集数据的方 法(自填式,面访式,电话式)的抽样方式和特点 3、实验数据:实验组和对照组,大量观察

6、法 4、数据的误差:抽样误差和非抽样误差(抽样误差和非抽样误差(抽样框误差,回答误差,无回答误差,调查员误 差,测量误差) ,误差的控制 5、参数估计和假设检验所依据的主要是简单随机样本 3 第三章 数据整理与显示 1、直方图和条形图的区别:直方图用面积表示数据,条形图用高度表示数据;直方图主要 展示数值型数据,具有连续性;条形图主要展示分类数据,分开排列。 帕累托图:按照各类别数据出现的频数多少排序后绘制的条形图 。 2、累积频数和累积频率(顺序数据统计量) 累积频数(cumulative frequencies):各类别频数或组的频数逐级累加起来得到的频数。频数 累积方法 频数 累积方法有

7、两种:向上累积向上累积(顺序数据从开始到最后,数值数据从小到大)和向下累积和向下累积。 累积频率(cumulative percentages)或累计百分比:各有序类别或组的百分比逐级累加起来, 也有向上累积和向下累积之分。 3、数据分组有 2 种方法:单变量值分组和组距分组 单变量值分组:把每一个变量作为一组,只适合离散变量,且在变量值较少的情况下使 用。 组距分组:全部变量划分为若干个区间,将一个区间的变量值作为一组。A.适用于连续变量 或变量值较多的情况 B.一组的最小值称为下限(lower limit) ,一个组的最大值称为上限 (upper limit) 。上限与下限的差称为组距,每

8、组的中点值称为组中值(=(上限+下限)/2) 。组中值(=(上限+下限)/2) 。 为了解决不重问题,习惯上规定“上组限不在内” ,即。 首组假定下限=该组上限 - 邻组组距 末组假定上限=该组下限 + 邻组组距 首组组中值的确定: 如, 2000 以下, 20003000, 30004000, 则为, 2000- (3000-2000/2 4、分类数据的图示:分类数据的图示:条形图、帕累托图、饼图、环形图条形图、帕累托图、饼图、环形图。 顺序数据的图示:顺序数据的图示:除了上述外还有可以绘制累积频数分布或频率图。 数值型数据的展示:数值型数据的展示:a.分组数据:直方图 b.未分组数据:茎叶

9、图和箱线图 c.时间序列数据:线图 d.多变量数据的图示:散点图、气泡图和雷达图 第四章 数据的概括性度量 1、数据的分布特征可以从三个方面进行概括性测度和描述: (1)集中趋势; (2)离散程度; (3)峰态和偏态(1)集中趋势; (2)离散程度; (3)峰态和偏态 4 2、集中趋势的度量: 众数,用 M0表示,一组数据可能没有众数,也可能有两个或多个众数 中位数,不能用于分类数据,中位数只有一个(偶数时取均) 中位数四分位数 百分位数:是有 P%的数据项小于或等于第 P 百分位数的值;有(100 - P)%的数据项大于 或等于这个值。 求第 P 百分位数的值 1) 、由小到大排序。 2)

10、、计算 P 百分位数所在的位置 i =( p%) n,n 是总项数。 3) 、若 i 不是整数,将之向上取整,得到的整数即是第 P 百分位数所在的位置,相对应的数 即是第 P 百分位数; (后面样本量 n 的确定也是向上取整的圆整法则) 若 i 是整数,则第 P 百分位数是第 i 项与第 i+1 项数据的算术均数。 均数:适用于数值型数据,不适用与分类数据和顺序数据。 几何均数:主要用于计算均比率均比率,均增长率均增长率。 如计算股票的均收益率如计算股票的均收益率 调和均数: 均数、中位数、众数的比较: 均数包含的信息最丰富,代表性最好。当数列不是偏态分布的时候,均数是集中趋 势的最佳选择。但

11、均数要受数列中离群值的影响。 中位数的适用范围比均数宽,而且不受离群值的影响。当数列的分布是偏态时,中位 5 数是最有用的集中趋势代表值,因为它位于均数和众数之间。 众数的适用范围比均数和中位数都宽,也不受离群值的影响。而且,在图上它很容易 被观察到。但由于众数提供的信息很少,因此它是用途最小的集中趋势代表值。 3、离散程度的度量 (1) 分类数据。 异众比率(variation ratio)是指非众数组的频数占总频数的比例, 用 Vr 表示。 计算公式为: (2) 顺序数据。 四分位差( (quartile deviation)也称为内距或四分间距 (inter-quartile range

12、) , 上四分位数与下四分位数之差, 用 Qd 表示: Qd = QU QL。反映了中间 50%数据的离散程度, 其数值越小,说明数据越集中,反之说明数据越分散。 (3)数值型数据 极差(range)是一组数据的最大值与最小值之差,也称全距全距,用 R 表示。计算公式: R = max(x i) - min() 均差(mean deviation)也称均绝对离差(mean absolute deviation),是各变量值与其均 数离差绝对值的均数,用 Md 表示,计算公式: 方差和标准差 样本方差和标准差的计算公式 总体方差和标准差的计算公式 (4)相对位置的度量 1)标准分数(standa

13、rd score)是变量值与其均数的离差除以标准差后的值,也称标准化值 或者 z 分数。 给出了一组数据中各个数值的相对位置。比如:某个数值的标准分数为-1.5,则该数值低于 均数 1.5 倍的标准差。 2)经验法则:当一组数据对称分布时, 约有 68%的数据在均数加减 1 个标准差的范围之内 约有 95%的数据在均数加减 2 个标准差的范围之内 约有 99%的数据在均数加减 3 个标准差的范围之内 3)切比雪夫不等式(Chebyshevs inequality ) 至少有(1-1/k2)的数据落在均数加减 k 个标准差之内。其中 k 是大于 1 的任意值, 但不一定是整数。 (k2表示k方)

14、 对于 k=2,3,4,切比雪夫不等式的含义是: 至少有 75%的数据落在均数加减 2 个标准差的范围之内 至少有 89%的数据落在均数加减 3 个标准差的范围之内 至少有 94%的数据落在均数加减 4 个标准差的范围之内 (4)离散系数(coefficient of variation)也称变异系数,是一组数据标准差与其相应的均值之 比。计算公式: 4、偏态与峰态 偏态是对数据分布对称性(偏斜程度)的测度,统计量是偏态系数(coefficient of skewness) ,记做 SK.(如偏态系数为 0.4 表示轻微又偏) 偏态系数=0 为对称分布; 偏态系数 0 为右偏分布; 偏态系数0

15、 为尖峰分布,数据分布更集中 峰态系数30)则会得到一个较准确(较窄)的区间。 显著性水:原假设为真时,拒绝原假设的最大概率,被称为抽样分布的拒绝域。 () 2、估计量的三大评价标准:无偏性、有效性、一致性 3、总体参数的区间估计 双侧检验 z/2 的值 置信水? 90%,1.645 置信水? 95%,1.96 单侧检验 置信水 90%,1.282 置信水 95%,1.645 8 两个总体参数的区间估计(除匹配样本外,其余了解分布类型即可) 两个总体均值之差的估计,匹配大样本 匹配小样本 4、样本量? n? 的确定(非整数时圆整法则,同百分位数i的确定) 估计总体均值时样本量? n: 估计总体

16、比例时样本量 E 均为希望达到的估计误差,做题时题目会给 第八章 假设检验 1、双侧检验:I 统计量 I 临界值,拒绝 H0 左侧检验:统计量 临界值,拒绝 H0 2、什么是 P 值?(P-value) P 值就是当原假设为真时所得到的样本观 察结果或更极端结果出现的概率。 如果 P 值很小,说明这种情况发生的概率 很小,而如果出现了,根据小概率原理,我们 就有理由拒绝原假设,P 值越小,我们拒绝原 假设的理由就越充分。 1.单侧检验:单侧检验 若 p 值 ,不拒绝 H0 若 p 值 /2, 不拒绝 H0 若 p 值 /2, 拒绝 H0 拒绝原假设,结果显著。不拒绝原假设,不显著。 9 3、双侧检验与单侧检验(假设的形式) 选择分布或检验类型总结:除了小样本且未知用? t 检验,其余均用? Z 检验。区间估计中 两个总体的方差比用 F 分布,方差检验和方差的区间一个总体区间估计用卡方分布。 第十一章 一元线性回

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 办公文档 > 总结/报告

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号