统计学复习提纲终极版

上传人:M****1 文档编号:494124801 上传时间:2022-08-04 格式:DOC 页数:17 大小:920.51KB
返回 下载 相关 举报
统计学复习提纲终极版_第1页
第1页 / 共17页
统计学复习提纲终极版_第2页
第2页 / 共17页
统计学复习提纲终极版_第3页
第3页 / 共17页
统计学复习提纲终极版_第4页
第4页 / 共17页
统计学复习提纲终极版_第5页
第5页 / 共17页
点击查看更多>>
资源描述

《统计学复习提纲终极版》由会员分享,可在线阅读,更多相关《统计学复习提纲终极版(17页珍藏版)》请在金锄头文库上搜索。

1、第一章1.1什么是统计学统计学是收集,处理,分析,解释数据并从数据中得出结论的科学。1.2 解释描述统计和推断统计描述统计:研究数据收集,处理,汇总,图表描述,概括与分析等统计方法。推断统计:研究如何利用样本数据来推断总体特征的统计方法。1.3 统计学的类型和不同类型的特点统计数据的分类:1、按计量层次分:分类数据(只能归于某一类别的非数字型数据,是对事物进行分类的结果,数据表现为类别,用文字来表述)顺序数据(只能归于某一有序类别的非数字型数据。对事物类别顺序的测度,数据表现为类别,用文字来表述)数值型数据(按数字尺度测量的观察值,其结果表现为具体的数值,对事物的精确测度)2、按收集方法分:观

2、测数据(是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制的条件下得到的,有关社会经济现象的统计数据几乎都是观测数据)实验数据(在实验中控制实验对象而收集到的数据。自然科学领域的数据大多为实验数据)3、按时间状况分:截面数据(在相同或近似相同的时间点上收集到的数据,也叫静态数据。描述现象在某一时刻的变化情况)时间序列数据(在不同时间上收集到的数据,描述现象随时间变化的情况,也叫动态数据)1.4 解释分类数据,顺序数据和数值型数据 答案见1.31.5 统计学中的几个基本概念 1、总体:是包含所研究的全部个体(数据)的集合,其中的每一个个体称为元素。分为有限总体和无限总体。 2、样本:

3、从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量或样本量。 3、参数:描述总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。 4、统计量:用来描述样本特征的概括性数字度量,是根据样本数据计算出来的一些量,是样本的函数 5、变量:说明现象某种特征的概念。1.6 变量的分类变量可以分为分类变量,顺序变量,数值型变量。变量也可以分为随机变量和非随机变量。经验变量和理论变量。第二章2.1什么是二手资料?使用二手资料应注意什么问题与研究内容有关,由别人调查和试验而来已经存在,并会被我们利用的资料为“二手资料”。使用时要进行评估,要考虑到资料的原始收集人,收集目的,收集途径,收

4、集时间使用时要注明数据来源。2.2 比较概率抽样和非概率抽样的特点以及常用的抽样方法比较:概率抽样:遵循随机原则进行抽样,可以据以对总体参数进行估计;它的特点是更精确、技术含量高、调查成本高非概率抽样:遵循非随机原则,统计量的分布不稳定,无法进行参数估计;它的特点是操作简单,时效快,成本低,适合探索性的研究常用的抽样方法概率抽样方法:简单随机抽样、分层抽样、整群抽样、系统抽样、多阶段抽样非概率抽样方法:方便抽样、判断抽样、自愿抽样、滚雪球抽样、配额抽样2.3 除了自填式,面访式和电话式还有什么搜集数据的办法 观察式2.4 自填式,面访式和电话式各自的长处和弱点自填式优点:1、调查组织者管理容易

5、 2、成本低,可进行大规模调查3、对被调查者,可选择方便时间答卷,减少回答敏感问题压力。缺点:1、回收率低2、不适合结构复杂的问卷,调查内容有限3、调查周期长4在数据搜集过程中遇见问题不能及时调整。面访式优点:1、回答率高2、数据质量高3、在调查过程中遇见问题可以及时调整。缺点:1、成本比较高2、搜集数据的方式对调查过程的质量控制有一定难度3、对于敏感问题,被访者会有压力。电话式优点:1、速度快2、对调查员比较安全3、对访问过程的控制比较容易。缺点:1、实施地区有限2、调查时间不能过长3、使用的问卷要简单4被访者不愿回答时,不易劝服。提纲第五点:抽样误差和非抽样误差的概念 抽样误差:指由于抽样

6、的随机性引起的样本结果与总体真值之间的误差非抽样误差:指除抽样误差以外的所有误差的总和2.6如何控制调查中的回答误差抽样误差是不可避免的,能够在调查过程中进行控制的只有非抽样误差。抽样误差可以计算,因此可以通过统计学专业知识根据允许误差来确定样本量,以控制抽样误差。费抽样误差控制的重要方面是调查过程的质量控制。包括:调查员的挑选,调查员的培训,督导员的调查专业水平,对调查过程进行控制的具体措施(包括对调查结果进行检验、评估,对现场调查人员进行奖惩制度等)第三章3.1 数据预处理内容:数据审核(完整性和准确性;适用性和时效性),数据筛选和数据排序。3.2分类数据和顺序数据的整理和图示方法各有哪些

7、分类数据的整理(基本过程): 1、列出各类别 2、计算各类别的频数 3、制作频数分布表 4、用图形显示数据分类数据:制作频数分布表,用比例,百分比,比率等进行描述性分析。可用条形图,对比条形图,帕累托图和饼图进行图示分析。顺序数据:制作频数分布表,用比例,百分比,比率。累计频数和累计频率等进行描述性分析。可用条形图,帕累托图和饼图,累计频数分布图和环形图进行图示分析。提纲第五点:数值型数据的整理与展示 图示:分组数据直方图和折线图 未分组数据茎叶图和箱线图 时间序列数据线图 多变量数据两个变量间的关系:二维散点图 三个变量间的关系:气泡图 多变量数据:雷达图(蜘蛛图)3.3数值型数据的分组方法

8、和步骤分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:1确定组数2确定各组组距3根据各组频数整理成频数分布表3.4直方图和条形图的区别1、 条形图使用条形的长度表示各类别频数的多少,其宽度固定,直方图用面积表示各组频数,矩形的高度表示每一组的频数或百分比,宽度表示组距,2、直方图各矩形连续排列,条形图分开排列,3条形图主要展示分类数据,直方图主要展示数值型数据。3.5绘制线图应注意问题时间在横轴,观测值绘在纵轴。图形长宽比例为10:7,纵轴下端一般从0开始,数据与0距离过大时,采用折断符号将纵轴折断。3.6饼图和环形图的不同饼图只能显示一个样本或总体各部分所占比例

9、,环形图可以同时绘制多个样本或总体的数据系列,其图形中间有个“空洞”,每个样本或总体的数据系列为一个环。3.7茎叶图比直方图的优势,他们各自的应用场合直方图可观察一组数据的分布状况,但没有给出具体的数值。茎叶图既能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据的信息。在应用方面,直方图通常适用于大批量数据,茎叶图适用于小批量数据。3.9制作统计表应注意的问题1、合理安排统计表结构 2、标题内容应满足3W(数据的时间、地点以及何种数据)要求3、数据计量单位相同时,可放在表的右上角标明,不同时应放在每个变量后或单列出一列标明4、表中的上下两条横线一般用粗线,其他用细线5、通常情况下,

10、统计表的左右两边不封口。表中的数据一般右对齐,有小数点时以小数点对其,而且小数点位数统一。对于没有数据的表格单元用“”表示提纲:数据透视表的应用 1、可以从复杂的数据中提取有用的信息 2、可以对数据表的重要信息按使用者的习惯或分析要求进行汇总和作图 3、形成一个符合需要的交叉表(列联表) 4、在利用数据透视表时,数据源表中的首行必须有列标题第4章数据的概括性度量4.1 一组数据的分布特征可以从哪几个方面进行测度?三个方面:一、分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; 二、分布的离散程度,反映各数据远离其中心值的趋势; 三、分布的形状,反映数据分布的偏态和峰态。4.2 怎样理解平均

11、数在统计学中的地位?平均数:1、平均数也称为均值,是一组数据相加后除以数据的个数得到的结果 2、是集中趋势的最主要测度值,它主要适用于数值型数据 3、是一组数据的均衡点所在 4、体现了数据数据的必然性特征 5、易受极端值影响 6、有简单平均数和加权平均数地位:平均数在统计学中具有重要地位,它是进行统计分析和统计推断的基础。从统计思想上看,平均数是一组数据的中心所在,是数据误差相互抵消后的必然结果4.3简述四分位数的计算方法。四分位数是一组数据排序后处于25%和75%位置上的值。根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置,该位置上的数值就是四分位数。4.4对于比

12、率数据的平均为什么采用几何平均? 几何平均数是指n个变量值乘积的n次方根,用G表示, 计算公式为 比率数据属于相对数,它不能如绝对数那样对其进行累加,而只能对其进行连乘,因此对于比率数据,在对其计算平均数的时候,我们不能像计算一般的平均数那样计算,而要用几何平均数的计算公式计算。4.5简述众数、中位数和平均数的特点和应用场合。众数是一组数据分布的峰值,不受极端值的影响,缺点是具有不唯一性。众数只有在数据量较多时才有意义,数据量较少时不宜使用。主要适合作为分类数据的集中趋势测度值。中位数是一组数据中间位置上的代表值,不受极端值的影响。当数据的分布偏斜程度较大时,使用中位数也许是个好的选择。主要适

13、合作为顺序数据的集中趋势测度值。平均数是针对数值型数据计算的,而且利用了全部数据信息,在实际应用中最广泛。当数据呈对称分布或近似对称分布时,三个代表值相等或相近,此时应选择平均数作为集中趋势的代表值。但平均数易受极端值的影响,对于偏态分布的数据,平均数的代表性较差,此时应考虑中位数或众数。4.6简述异众比率、四分位差、方差或标准差的适用场合异众比率主要用于衡量众数对一组数据的代表程度,主要适合测度分类数据的离散程度;四分位差主要用于来测量顺序数据的离散程度;方差或标准差主要用来测量数值型数据的离散程度。4.7标准分数有哪些用途?标准分数给出了一组数据中各数值的相对位置。在对多个具有不同量纲的变

14、量进行处理时,常需要对各变量进行标准化处理。它还可以用来判断一组数据是否有离群数据。4.9测度数据分布形状的统计量有哪些?对分布形状的测度有偏态和峰态,测度偏态的统计量是偏态系数,测度峰态的统计量是峰态系数。1、 数据集中趋势度量的各统计量的计算、特点和应用场合; 众数:M0 = 一个一个数啊 中位数: (n为数据个数 ,(n为奇数) Me= ,(n为偶数) 设下四分位数为QL,上四分位数为QU,根据四分位数的定义有: QL位置= QU位置= 平均数 其中n为样本量 设原始数据被分为k组,组中值为M1,M2Mk ,各组变量出现的频数为f1,f2fk几何平均数2、 数据离散程度的度量的各统计量的计算、特点和应用场合;分类数据: 异众比率 其中为变量值的总频数;为众数组的频数( 比率越大,非众数组的频数占总频数的比重越大,众数的代表性越差;反之顺序数据: 四分位差 =上四分位数与下四分数之差 (数值越小,说明中间的数据越集中;反之数值型数据: 极差R=max(xi)-min(xi) (一组数据最大值-最小值 方差 :

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 中学教育 > 试题/考题 > 初中试题/考题

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号