统计学重点笔记第一章导论一、 比较描述统计和推断统计:数据分析是通过统计方法研究数据,其所用的方法可分为描述统计和推断统计1) 描述性统计:研究一组数据的组织、整理和描述的统计学分支,是社会科学实证研究中最常用 的方法,也是统计分析中必不可少的一步内容包括取得研究所需要的数据、用图表形式对数据进行加 工处理和显示,进而通过综合、概括与分析,得出反映所研究现象的一般性特征2) 推断统计学:是研究如何利用样本数据对总体的数量特征进行推断的统计学分支研究者所关 心的是总体的某些特征,但许多总体太大,无法对每个个体进行测量,有时我们得到的数据往往需要破 坏性试验,这就需要抽取部分个体即样本进行测量,然后根据样本数据对所研究的总体特征进行推断, 这就是推断统计所要解决的问题其内容包括抽样分布理论,参数估计,假设检验,方差分析,回归分 析,时间序列分析等等3) 两者的关系:描述统计是基础,推断统计是主体二、 比较分类数据、顺序数据和数值型数据:根据所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据1) 分类数据是只能归于某一类别的非数字型数据它是对事物进行分类的结果,数据表现为类别, 是用文字来表达的,它是由分类尺度计量形成的。
2) 顺序数量是只能归于某一有序类别的非数字型数据也是对事物进行分类的结果,但这些类别 是有顺序的,它是由顺序尺度计量形成的3) 数值型数据是按数字尺度测量的观察值其结果表现为具体的数值,现实中我们所处理的大多 数都是数值型数据总之,分类数据和顺序数据说明的是事物的本质特征,通常是用文字来表达的,其结果均表现为类 别,因而也统称为定型数据或品质数据;数值型数据说明的是现象的数量特征,通常是用数值来表现的, 因此可称为定量数据或数量数据三、 比较总体、样本、参数、统计量和变量:(1) 总体是包含所研究的全部个体的集合通常是我们所关心的一些个体组成,如由多个企业所 构成的集合,多个居民户所构成的集合总体根据其所包含的单位数目是否可数可以分为有限总体和无 限总体有限总体是指总体的范围能够明确确定,而且元素的数目是有限可数的,需要注意的是,统计 意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据2) 样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量例如我们 从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本3) 参数是用来描述总体特征的概括性数字度量。
有总体平均数、标准差、总体比例由于总体 参数通常是不知道的,所以参数是一个未知的常数所以才需要进行抽样,根据样本来估计总体参数(4) 样本量是用来描述样本特征的概括性数字度量统计量是根据样本数据计算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知 道的,抽样的目的就是要根据样本统计量推断总体参数5) 变量是说明现象某种特征的概念变量的特点是从一次观察到下一次观察会呈现出差别或变 化,分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量第二章数据收集一、调查方案的主要内容:(1)调查目的:是调查所要达到的具体目标,他所回答的是“为什么调查”“要解决什么样的问题”(2) 调查对象和调查单位:调查对象是根据调查目的的确定的调查研究的总体或调查范围调查单 位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体所要解决的是“向谁调 查”由谁来提供所需数据(3) 调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的具体内容,大多数 统计调查中,调查项目通常以表格的形式来表现,称为调查表二、 数据的误差:统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有 抽样误差和非抽样误差两类。
1) 抽样误差:主要是指在用样本数据进行推断时所产生的随机误差只存在于概率抽样中这类 误差通常是无法消除的,但事先可以进行控制和计算影响抽样误差大小的因素:(a) 抽样单位的数目在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;反之, 越大这是因为随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩 大到总体时,则为全面调查,也就不存在抽样误差了b) 总体背研究标志的变异程度在其他条件不变的情况下,总体标志的变异程度越小,抽样误 差越小,反之,越大抽样误差和总体标志的变异程度呈正比变化这是因为总体的变异程度小,表示 总体各单位标志值之间的差异小则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值 相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c) 抽样方法的选择重复抽样和非重复抽样的抽样误差大小不同采用不重复抽样比采用重复 抽样的抽样误差小(d) 抽样组织方式不同采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织 所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判断各种抽样组织方式 的比较标准。
2) 非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差;是调查过程中由 于调查者或被调查者的人为因素所造成的误差调查者所造成的误差主要有:调查方案中有关的规定或 解释不明确导致的填报错误、抄录错误、汇总错误等;被调查者所造成的误差主要有:因人为因素干扰 形成的有意虚报或瞒报调查数据非抽样误差理论上是可以消除的三、 简单随机抽样:(1) 概念:从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的;(2) 特点:a、简单、直观,在抽样框完整时,可直接从中抽取样本b、用样本统计量对目标量进行估计比较方便(3) 局限性■当N很大时,不易构造抽样框■抽出的单位很分散,给实施调查增加了困难■没有利用其它辅助信息以提高估计的效率第三章数据的整理与展示一、 数据排序的目的:(1) 数据排序是按一定顺序将数据排列,以发现一些明显的特征或趋势,找到解决问题的线索(2) 排序还有助于对数据检查纠错,以及为重新归类或分组等提供方便3) 在某些场合,排序本身就是分析的目的之一二、 数据分组.•是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别,分组后的数据成为分组数据。
数据经分组后再计算出各组中数据出现的频数,就形成了一张频数分布表,分组方法有单变量值分组和 组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情况下使用,在连续变量或变量 值较多情况下,通常采用组距分组三、 组距分组的步骤和原则:(1) 步骤:a、 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的在实际分组时,可以按Sturges提出的经验公式来确定组数K 叱1 lg(n)K = 1 + b、 确定组距:组距(Class Width)是一个组的上限与下限之理(2可根据全部数据的最大值和最小 值及所分的组数来确定,即组距=(最大值-最小值)小组数c、 统计出各组的频数并整理成频数分布表(2) 原则:采用组距分组时,需遵循“不重不漏”的原则,“不重”是指一项数据只能分在其中的某一组, 不能在其他组中重复出现;“不漏”是指组别能够穷尽,即在所分的全部组别中每项数据都能分在其中 的某一组,不能遗漏为解决不重的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的 上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下一组内当然,对于离散变量, 我们可以采用相邻两组组限间断的办法解决“不重”的问题。
也可以对一个组的上限值采用小数点的形 式,小数点的位数根据所要求的精度具体确定缺点:组距分组掩盖了各组内的数据分布状况四、 直方图和条形图的区别:首先,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度则是固定的;直方图是用 面积表示各组频数的多少,频数的高度表示每一组的频数或频率,宽度则表示各组的组距,因此高度与 宽度均有意义其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列最后,条形图主要用于展示各类数据,而直方图则主要用于展示数据型数据五、 绘制线图应注意的问题:(1) 时间一般绘在横轴,观测数据绘在纵轴(2) 图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10: 7.(3) 一般情况下,纵轴数据下端应从0开始,以便于比较,数据与0之间的间距过大,可以采取 折断的符号将纵轴折断六、 设计统计表注意的问题:首先,要合理安排统计表的结构,例如表号、行标题、列标题、数字资料的位置应安排合理其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明确切地概括出统计表 的内容再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可 以用竖线分开,而行标题之间通常不必用横线隔开。
最后,在使用统计表时,必要时可在表下方加上注释,特别注意标明数据来源七、 数据的审核:(1) 原始数据:a、 完整性审核:检查应调查的单位或个体是否有遗漏;所有的调查项目或指标是否填写齐全b、 准确性审核:检查数据是否真实反映客观实际情况,内容是否符合实际;检查数据是否有错误,计算是否正确等(2) 二手数据:a、 适用性审核:弄清楚数据的来源、数据的口径以及有关的背景材料;确定数据是否符合自己分析研究的需要b、 时效性审核:尽可能使用最新的数据八、 数据的整理与显示(基本问题)(1) 要弄清所面对的数据类型,因为不同类型的数据,所采取的处理方式和方法是不同的(2) 对分类数据和顺序数据主要是做分类整理(3) 对数值型数据则主要是做分组整理(4) 适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和 显示方法并不适合于低层次的数据第四章数据的概括性度量一、 集中趋势和离散趋势的度量:(1) 集中趋势是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在 描述集中趋势所采用的测度值分为:众数、中位数和分位数、平均数2) 离散趋势是数据分布的另一个重要特征,它所反映的各变量值远离其中心值得程度,因此 也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数据的代表性越差,反之,代表性越 好。
描述数据离散程度所采用的测度值,根据所依据的数据类型的不同主要有异种比率、四分位差、方 差和标准差此外还有极差、平均差以及测度相对离散程度的离散系数二、 众数、中位数和平均数:(1)三者的关系:从分布的角度看,众数始终是一组数据分布的最高峰值,中位数的处于一组数据 中间位置上的值,而平均数则是全部数据的算数平均因此,对于具有单峰分布的大多数数据而言,众 数、中位数和平均数之间具有以下关系:(a) 如果数据的分布是对称的,众数、中位数、平均数必定相等(b) 如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠近,而众数和 中位数由于是位置代表值,不受极值的影响,因此三者的关系为众数〉中位数 > 平均数(C)如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值的一方靠近,则众数 <中位数 < 平均数2)特点及应用场合(a) 众数是一组数据的峰值,是一种位置代表词,不受极端值的影响,具有不唯一性,对于一组 数据可能有一个众数,也可能有两个或多个众数,也可能没有众数虽然对于顺序数据以及数值型数据 也可以计算众数,但众数主要适合于作为分类数据的集中趋势测度值b) 中位数是一组数据中间位。