统计学考试笔记

上传人:小尾****头 文档编号:135870803 上传时间:2020-06-19 格式:DOC 页数:14 大小:1.03MB
返回 下载 相关 举报
统计学考试笔记_第1页
第1页 / 共14页
统计学考试笔记_第2页
第2页 / 共14页
统计学考试笔记_第3页
第3页 / 共14页
统计学考试笔记_第4页
第4页 / 共14页
统计学考试笔记_第5页
第5页 / 共14页
点击查看更多>>
资源描述

《统计学考试笔记》由会员分享,可在线阅读,更多相关《统计学考试笔记(14页珍藏版)》请在金锄头文库上搜索。

1、第一章1.2.1 分类数据、顺序数据、数值型数据按照所采用的计量尺度的不同,可以将统计数据分为分类数据、顺序数据和数值型数据。 分类数据是:只能归于某一类别的非数字型数据、它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。例如:人口按照性别分为男、女两类:企业按行业属性分为医药企业、家电企业、纺织品企业等,这些均属于分类数据。为便于统计处理,对于分类数据,可以用数字代码来表示各个类别,比如,用表示“男性”,0表示“女性”;用1表示“医药企业”,2表示“家电企业”,3表示“纺织品企业”:等等。顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的 比如将

2、产品分为一等品、二等品、三等品、次品等;考试成绩可以分为优、良、中、及格、不及格等;一个人的受教育程度可以分为小学、初中、高中、大学及以上;一个人对某一事物的态度可以分为非常同意、同意、保持中立、不同意、非常不同意;等等。同样,顺序数据也可以用数字代码来表示。比如,1非常同意,2同意,3保持中立,4不同意,5非常不同意。数值型数据是按数字尺度测量的观察值 其结果表现为具体的数值。现实中所处理的大多数是数值型数据。 例如:身高:165cm.特点:分类数据和顺序数据说明的是事物的品质特征 通常是用文字来表述的,其结果均表现为类别,因而也可统称为定性数据或品质数据。 数值型数据说明的是现象的数量特征

3、,通常是用数值来表现的,因此也可成为定量数据或数量数据。1.2 2观测数据和实验数据按照统计数据的收集方法, 可以将其分为观测数据和实验数据。观测数据是通过调查或观测收集到的数据 ,这类数据是在没有对事物人为控制的条件得到的;有关社会经济现象的统计数据几乎都是观测数据。实验数据则是在实验中控制实验对象而收集到的数据。 比如,对一种新药疗效的实验数据,对一种新的农作物品种的实验数据。自然科学领域的大多数数据为实验数据1.2.3截面数据和时间序列数据 按照被描述的现象与时间的关系。 可以将统计数据分为截面数据和时间序列数据。截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同的空间

4、获得的,用于描述现象在某一时刻的变化情况。此如,2010年我国各地区的国内生产总值就是截面数据。时间序列数据是在不同时间收集到的数据,这类数据是按时间顺序收集到的,用于描述现象随时间变化的情况 比如2010-2012 年我国的国内生产总值就是时间序列数据。1.3统计中的几个基本概念1.3.1总体和样本总体是包含研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,组成总体的每个元素称为个体总体根据其所包含的单位数目是否可数可以分为有限总体和无线总体。有限总体是指总体的范围能够明确确定,而且元素是有限可数的。无限总体是指总体所包括的元素是无限的、不可数的。样本是从总体中抽取的一部分元素的集

5、合,构成样本的因素的数目称为样本量。抽样的目的是根据样本提供的信息推断总体的特征。参数是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值。通常有:总体平均数()、总体标准差()、总体比例()等。通常用希腊字母表示统计量是用来描述样本特征的概括性数字度量。它是根据样本数据计算出来的一个统计量,由于抽样是随机的,因此统计量是样本的函数。研究者关心的统计量主要有样本平均数(x)、样本标准差(s)、样本比例(p)等。用英文小写字母来表示。第二章2.1.1概率抽样和非概率抽样1.概率抽样概率抽样也称随机抽样,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。特点:

6、抽样时按一定的概率以随机原则抽取样本,使每个单位都有一定的机会被抽中;其次,每个单位被抽中的概率是已知的,或是可以计算出来;最后,当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。(1)简单随机抽样特点:总体的数目有限;从总体中逐个抽取;不放回抽样;是等可能抽样。最常用的简单随机抽样方法有抽签法和随机数法。优点:简单直观,在抽样框完整时可以直接从中抽取样本。由于抽选的概率相同,用样本统计量对目标量进行估计及计算估计量误差都比较方便。缺点:当N很大时,构造这样的抽样框并不容易;采用这种方法抽出的单位很分散,给实施调查增加了困难;这种方法没有利用其他辅助信息以提高估计的效率。(2)

7、分层抽样将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机的抽取样本。(3)整群抽样讲总体中将若干个单位合并为组,这样的组称为群。抽样时直接抽取群,然后对中选群中所有单位全部实施调查。(4)系统抽样将总体中的所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后按事先制定好的规则确定其他样本单位。(5)多阶段抽样首先抽取群,但并不是调查群内的所有单位,而是再进一步抽样,从选中的群中抽取出若干个单位进行调查。2.非概率抽样是相对于概率抽样而言的,指抽取样本时不是依据随机原则,而是根据研究目的对数据的要求,采用某种方式从总体中抽出部分单位对其实施调查。(1)

8、方便调查调查过程中调查员依据方便的原则,自行确定作为样本的单位。(2)判断抽样是指研究人员根据经验、判断和对研究对象的了解,有目的的选择一些单位作为样本,实施时根据不同的目的有重点抽样、典型抽样、代表抽样等方式。(3)自愿抽样指被调查者自愿参加,成为样本中的一份子,向调查人员提供有关信息。(4)滚雪球抽样用于对稀少群体的调查。首先选择一组调查单位对其实施调查之后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,继续进行调查。(5)配额抽样它是首先将总体中的所有单位按一定的标志分为若干类,然后在每个类中采取方便抽样或判断抽样的方式选取样本单位。类似于概率抽样中的分层抽样,在

9、市场调查中有广泛的应用。2.4数据的误差2.4.1抽样误差由抽样的随机性引起的样本结果与总体真值之间的差异。误差大小的影响因素:样本量的大小,样本量越大抽样误差越小;总体的变异性,总体的变异性越大,抽样误差也越大。2.4.2非抽样误差相对抽样误差而言的,是指除抽样误差之外的,由其他原因引起的样本观察结果与总体真值之间的差异。1.抽样框误差2.回答误差(1)理解误差(2)记忆误差(3)有意识误差3.无回答误差4.调查员误差5.测量误差2.4.3误差的控制抽样误差是由抽样的随机性带来的,只要采用概率抽样,抽样误差就不可避免。非抽样误差控制的重要方面是调查过程的质量控制。包括:调查员的挑选,调查员的

10、培训,督导员的调查专业水平,对调查过程进行控制的具体措施,对调查结果进行的检验、评估,对现场调查人员进行奖惩的制度等等。第三章数据的图表展示分类数据的图示(品质数据)(1)条形图用宽度相同的条形的高度或长度来表示数据多少的图形。反应分类数据的频数分布。(2)帕累托图按各类别数据出现的频数多少排序后绘制的条形图。主要用于展示分类数据的分布。(3)饼图用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本中各组成部分的数据占全部数据的比例。(4)环形图环形图与饼图类似但又有区别。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中的每一部分数据用环中的一段表示。因此环形图可显示多个

11、样本各部分所占的相应比例,有利于对构成做比较研究。3.2.2顺序数据的整理与图示1.累计频数和累计频率累计频数:是将各有序类别或组的频数逐级累加起来得到的频数。方法有两种,一是从类别顺序的开始一方向类别顺序到最后一方累加频数,称为向上累积;二是从类别顺序的最后一方向类别顺序的开始累加频数,称为向下累积。累积频率或累积百分比是将各有序类别或组的百分比逐级累加起来,它也有向上累积和向下累积两种方法。数值型向上累积向下累计111945186111481983.3数值型数据的整理与图示3.3.数据分组单变量分组是把每个变量值作为一组,这种分组通常只适合离散变量,且在变量值较少的情况下使用。在连续变量或

12、变量值较多的情况下,通常采用组距分组。过程:确定组数(5-15)确定各组的组距(最大值-最小值)/组数根据分组编制频数分布表,需要遵循不重不漏的原则,可采用等距分组,也可采用不等距分组。3.3.2数值型数据的图示1.分组数据:直方图(大批量数据)2未分组数据(原始数据):茎叶图(小批量数据)和箱线图3.时间序列数据:线图主要用于反映现象随时间变化的特征。4.多变量数据的图示(1)散点图是用二维坐标展示两个变量之间关系的一种图形。(2)气泡图可用于展示三个变量之间的关系,将一个变量放在横轴,另一个变量放在纵轴,第三个变量则用气泡的大小来表示。(3)雷达图是显示多个变量的图示方法,也成为蜘蛛图。课

13、后思考题1.数据的预处理包括哪些内容?数据审核(对于原始数据:完整性和准确性;对于二手数据:实用性和实效性)、数据筛选和数据排序。2.分类数据和顺序数据的整理和图示方法各有哪些?分类数据:制作频数分布表,用比例、百分比和比率等进行描述性分析,可用条形图、帕累托图、饼图和环形图进行图示分析。顺序数据:制作频数分布表,用比例、百分比、比率、累计频数和累计频率等进行描述性分析,可用条形图、帕累托图、饼图、累计评书分布图和环形图进行分析。3.数值型数据的分组方法有哪些?简述组距分组的步骤。分组方法:单变量值分组和组距分组,组距分组又分为等距分组和异距分组。分组步骤:确定组数确定组距根据分组整理成频数分

14、布表。4.直方图与条形图有何区别?首先,条形图使用的长度表示各类别频数的多少,其宽度固定;直方图用面积表示各组频数,矩形的高度表示每一组的频数或频率,宽度表示组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图各矩形连续排列,而条形图分开排列。最后,条形图主要用于展示分类数据,而直方图主要展示数值型数据。5.绘制线图应注意哪些问题?时间在横轴,观测值在纵轴;一般是长宽比例10:7的长方形;纵轴下端一般从0开始,数据与0距离过大的话用折断符号折断。6.饼图和环形图有什么不同?环形图与饼图类似,但又有区别。饼图只能显示一个样本或总体各部分所占比例,环形图可以同时绘制多个样本或总体的

15、数据系列。7.茎叶图与直方图相比有什么优点?他们的应用场合是什么?茎叶图既能给出数据的分布情况,又能给出每个原始数据,即保留了原始数据的信息。而直方图虽然能很好的显示数据的分布,但不能保留原始的数据。茎叶图通常适用于小批量数据,直方图适用于大批量数据。8.鉴别图表优劣的准则有哪些?显示数据;有助于洞察问题的本质;使复杂的观点得到简明、确切、高效的阐述;快速高效地给读者提供大量的信息;多维的;表述数据的真实情况。9.制作统计表时应注意哪几个问题?合理安排统计表结构;表头一般包括表号、总标题和表中数据的单位等内容;再次,表中的上下两条横线,一般用粗线,中间的其他线用细线,这样看起来清楚醒目;在使用统计表时,必要时可在下方加注释注明数据来源。第四章数据的概括性度量4.1集中趋势的度量集中趋势:定义:指一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在;不同类型的数据用不同的集中趋势测度值;

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 高等教育 > 统计学

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号