精品名师归纳总结统计学重点笔记第一章导论一、比较描述统计和推断统计:数据分析是通过统计方法讨论数据,其所用的方法可分为描述统计和推断统计 1)描述性统计:讨论一组数据的组织、整理和描述的统计学分支,是社会科学实证讨论中最常用的方法,也是统计分析中必不行少的一步内容包括取得讨论所需要的数据、用图表形式对数据进行加工处理和显示,进而通过综合、概括与分析,得出反映所讨论现象的一般性特点 2)推断统计学:是讨论如何利用样本数据对总体的数量特点进行推断的统计学分支讨论者所关怀的是总体的某些特点,但很多总体太大,无法对每个个体进行测量, 有时我们得到的数据往往需要破坏性试验,这就需要抽取部分个体即样本进行测量, 然后依据样本数据对所讨论的总体特点进行推断,这就是推断统计所要解决的问题 其内容包括抽样分布理论,参数估量,假设检验,方差分析,回来分析,时间序列分 析等等 3)两者的关系:描述统计是基础,推断统计是主体二、比较分类数据、次序数据和数值型数据:依据所采纳的计量尺度不同,可以将统计数据分为分类数据、次序数据和数值型数据 1)分类数据是只能归于某一类别的非数字型数据它是对事物进行分类的结果, 数据表现为类别,是用文字来表达的,它是由分类尺度计量形成的。
2)次序数量是只能归于某一有序类别的非数字型数据也是对事物进行分类的结果,但这些类别是有次序的,它是由次序尺度计量形成的 3)数值型数据是按数字尺度测量的观看值其结果表现为详细的数值,现实中我们所处理的大多数都是数值型数据总之,分类数据和次序数据说明的是事物的本质特点,通常是用文字来表达的,其结果均表现为类别,因而也统称为定型数据或品质数据数值型数据说明的是现象的数量特点,通常是用数值来表现的,因此可称为定量数据或数量数据三、比较总体、样本、参数、统计量和变量:可编辑资料 -- -- -- 欢迎下载精品名师归纳总结(1) )总体是包含所讨论的全部个体的集合通常是我们所关怀的一些个体组成,如由多个企业所构成的集合,多个居民户所构成的集合总体依据其所包含的单位数目是否可数可以分为有限总体和无限总体有限总体是指总体的范畴能够明确确定,而且元素的数目是有限可数的,需要留意的是,统计意义上的总体,通常不是一群人或一些物品的集合,而是一组观测数据2) )样本是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本容量例如我们从一批灯泡中随机抽取 100 个,这 100 个灯泡就构成了一个样本。
3) )参数是用来描述总体特点的概括性数字度量有总体平均数、标准差、总体比例由于总体参数通常是不知道的,所以参数是一个未知的常数所以才需要进行抽样,依据样原来估量总体参数(4) )样本量是用来描述样本特点的概括性数字度量统计量是依据样本数据运算出来的一个量,通常包括:样本平均数、样本标准差、样本比例等,由于样本是我们已经抽出来的,所以统计量总是知道的,抽样的目的就是要依据样本统计量推断总体参数5) )变量是说明现象某种特点的概念变量的特点是从一次观看到下一次观看会出现出差别或变化,分为分类变量、次序变量、数值型变量、离散型变量和连续型变量可编辑资料 -- -- -- 欢迎下载精品名师归纳总结一、调查方案的主要内容:其次章 数据收集可编辑资料 -- -- -- 欢迎下载精品名师归纳总结( 1)调查目的:是调查所要达到的详细目标,他所回答的是“为什么调查”“要解决什么样的问题”等( 2)调查对象和调查单位:调查对象是依据调查目的的确定的调查讨论的总体或调查范畴调查单位是构成调查队选中的每一个单位,它是调查项目和调查内容的承担着或载体所要解决的是“向谁调查”由谁来供应所需数据( 3)调查项目和调查表:调查项目要解决的问题是“调查什么”,也就是调查的详细内容,大多数统计调查中,调查项目通常以表格的形式来表现,称为调查表二、数据的误差 :统计数据的误差通常是指统计数据与客观现实之间的差距,误差的类型主要有抽样误差和非抽样误差两类。
1)抽样误差:主要是指在用样本数据进行推断时所产生的随机误差只存在于概率抽样中这类误差通常是无法排除的,但事先可以进行掌握和运算可编辑资料 -- -- -- 欢迎下载精品名师归纳总结影响抽样误差大小的因素:(a) )抽样单位的数目在其他条件不变的情形下,抽样单位的数目越多,抽样误差越小反之,越大这是由于随着样本数目的增多,样本结构越接近总体,抽样调查也就越接近全面调查,当样本扩大到总体时,就为全面调查,也就不存在抽样误差了b) )总体背讨论标志的变异程度在其他条件不变的情形下,总体标志的变异程度越小,抽样误差越小,反之,越大抽样误差和总体标志的变异程度呈正比变化这是由于总体的变异程度小,表示总体各单位标志值之间的差异小就样本指标与总体指标之间的差异也可能小假如总体各单位标志值相等,就标志变动度为零,样本指标等于总体指标,此时不存在抽样误差(c) )抽样方法的挑选重复抽样和非重复抽样的抽样误差大小不同采纳不重复抽样比采纳重复抽样的抽样误差小(d) )抽样组织方式不同采纳不同的组织方式,会有不同的抽样误差,这是由于不同的抽样组织所抽中的样本,对于总体的代表性也不同,通常,常利用不同的抽样误差,作出判定各种抽样组织方式的比较标准。
2)非抽样误差:主要包括:抽样框误差,回答误差、无回答误差、调查员误差 是调查过程中由于调查者或被调查者的人为因素所造成的误差调查者所造成的误差 主要有:调查方案中有关的规定或说明不明确导致的填报错误、抄录错误、汇总错误 等 被调查者所造成的误差主要有:因人为因素干扰形成的有意虚报或瞒报调查数据非抽样误差理论上是可以排除的三、简洁随机抽样:(1) )概念:从总体 N 个单位中随机的抽取 n 个单位作为样本,每个单位入抽样本的概率是相等的2) )特点: a、简洁、直观,在抽样框完整时,可直接从中抽取样本 b、用样本统计量对目标量进行估量比较便利(3) )局限性当 N 很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其它帮助信息以提高估量的效率可编辑资料 -- -- -- 欢迎下载精品名师归纳总结第三章 数据的整理与展现一、数据排序的目的 :(1) )数据排序是按肯定次序将数据排列,以发觉一些明显的特点或趋势,找到解决问题的线索(2) )排序仍有助于对数据检查纠错,以及为重新归类或分组等供应便利3) )在某些场合,排序本身就是分析的目的之一二、数据分组 :是依据统计讨论的需要,将原始数据依据某种标准化分成不同的组别,分组后的数据成为分组数据。
数据经分组后再运算出各组中数据显现的频数,就形成了一张频数分布表,分组方法有单变量值分组和组距分组两种,单变量分组通常只适合于离散变量,且在变量值较少的情形下使用,在连续变量或变量值较多情形下,通常采纳组距分组三、组距分组的步骤和原就 :(1) )步骤:a、确定组数:组数的确定应以能够显示数据的分布特点和规律为目的在实际llgg〔〔n 〕可编辑资料 -- -- -- 欢迎下载精品名师归纳总结分组时,可以按 Sturges 提出的体会公式来确定组数 KK 1llgg〔〔2〕可编辑资料 -- -- -- 欢迎下载精品名师归纳总结b、 确定组距:组距 〔Class Width〕 是一个组的上限与下限之差,可依据全部数据的最大值和最小值及所分的组数来确定,即组距= 〔 最大值 - 最小值 〕 ÷ 组数c、统计出各组的频数并整理成频数分布表(2) )原就:采纳组距分组时,需遵循“ 不重不漏 ”的原就,“ 不重”是指一项数据只能分在其中的某一组,不能在其他组中重复显现 不漏”是指组别能够穷尽,即在所分的 全部组别中每项数据都能分在其中的某一组,不能遗漏为解决不重的问题,统计分组时习惯上规定“ 上组限不在内 ”,即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而运算在下一组内。
当然,对于离散变量,我们可以采可编辑资料 -- -- -- 欢迎下载精品名师归纳总结用相邻两组组限间断的方法解决“不重”的问题也可以对一个组的上限值采纳小数点的形式,小数点的位数依据所要求的精度详细确定缺点:组距分组掩盖了各组内的数据分布状况四、直方图和条形图的区分:第一,条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度就是固定的直方图是用面积表示各组频数的多少,频数的高度表示每一组的频数或频率, 宽度就表示各组的组距,因此高度与宽度均有意义其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图就是分开排列最终,条形图主要用于展现各类数据,而直方图就主要用于展现数据型数据五、绘制线图应留意的问题:(1)时间一般绘在横轴,观测数据绘在纵轴(2)图形的长宽比例要适当,一般应绘成横轴略大于纵轴的长方形,其长宽比例大致是10 : 7.(3)一般情形下,纵轴数据下端应从0开头,以便于比较,数据与0之间的间距过大,可以实行折断的符号将纵轴折断六、设计统计表留意的问题:第一,要合理支配统计表的结构,例如表号、行标题、列标题、数字资料的位置应支配合理其次,表头一般应包括表号、总标题和表中数据的单位等内容,总标题应简明准确的概括出统计表的内容。
再次,表中的上下两条线一般用粗线,中间的其他线用细线,表的左右两边不封口,列标题之间可以用竖线分开,而行标题之间通常不必用横线隔开最终,在使用统计表时,必要时可在表下方加上注释,特殊留意标明数据来源七、数据的审核:(1)原始数据:a、完整性审核:检查应调查的单位或个体是否有遗漏全部的调查项目或指标是否填写齐全可编辑资料 -- -- -- 欢迎下载精品名师归纳总结b 、精确性审核:检查数据是否真实反映客观实际情形,内容是否符合实际检查数据是否有错误,运算是否正确等(2) 二手数据:a、适用性审核:弄清晰数据的来源、数据的口径以及有关的背景材料确定数据是否符合自己分析讨论的需要b 、时效性审核:尽可能使用最新的数据八、数据的整理与显示 〔 基本问题 〕(1) )要弄清所面对的数据类型,由于不同类型的数据,所实行的处理方式和方法是不同的(2) )对分类数据和次序数据主要是做分类整理(3) )对数值型数据就主要是做分组整理(4) )适合于低层次数据的整理和显示方法也适合于高层次的数据但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章 数据的概括性度量一、集中趋势和离散趋势的度量:(1) 集中趋势 是指一组数据向某一中心值靠拢的倾向,它反映了一组数据中心点的位置所在。
描述集中趋势所采纳的测度值分为:众数、中位数和分位数、平均数2) 离散趋势 是数据分布的另一个重要特点,它所反映的各变量值远离其中心值得程度,因此也称为离中趋势,数据的离散程度越大,集中趋势的测度值对该组数 据的代表性越差,反之,代表性越好描述数据离散程度所采纳的测度值,依据所依 据的数据类型的不同主要有异种比率、四分位差、方差和标准差此外仍有极差、平 均。