统计学贾俊平考研知识点总结

资源描述

《统计学贾俊平考研知识点总结》由会员分享，可在线阅读，更多相关《统计学贾俊平考研知识点总结（45页珍藏版）》请在金锄头文库上搜索。

1、统计学重点笔记第一章导论一、比较描述统计和推断统计：数据分析是通过统计方法研究数据，其所用的方法可分为描述统计和推断统计。（1）描述性统计：研究一组数据的组织、整理和描述的统计学分支，是社会科学实证研究中最常用的方法，也是统计分析中必不可少的一步。内容包括取得研究所需要的数据、用图表形式对数据进行加工处理和显示，进而通过综合、概括与分析，得出反映所研究现象的一般性特征。（2）推断统计学：是研究如何利用样本数据对总体的数量特征进行推断的统计学分支。研究者所关心的是总体的某些特征，但许多总体太大，无法对每个个体进行测量，有时我们得到的数据往往需要破坏性试验，这就需要抽取部分个体即样本进行测量，然后

2、根据样本数据对所研究的总体特征进行推断，这就是推断统计所要解决的问题。其内容包括抽样分布理论，参数估计，假设检验，方差分析，回归分析，时间序列分析等等。（3）两者的关系：描述统计是基础，推断统计是主体二、比较分类数据、顺序数据和数值型数据：根据所采用的计量尺度不同，可以将统计数据分为分类数据、顺序数据和数值型数据。（1）分类数据是只能归于某一类别的非数字型数据。它是对事物进行分类的结果，数据表现为类别，是用文字来表达的，它是由分类尺度计量形成的。（2）顺序数量是只能归于某一有序类别的非数字型数据。也是对事物进行分类的结果，但这些类别是有顺序的，它是由顺序尺度计量形成的。（3）数值型数据是按数字

3、尺度测量的观察值。其结果表现为具体的数值，现实中我们所处理的大多数都是数值型数据。总之，分类数据和顺序数据说明的是事物的本质特征，通常是用文字来表达的，其结果均表现为类别，因而也统称为定型数据或品质数据；数值型数据说明的是现象的数量特征，通常是用数值来表现的，因此可称为定量数据或数量数据。三、比较总体、样本、参数、统计量和变量：（1）总体是包含所研究的全部个体的集合。通常是我们所关心的一些个体组成，如由多个企业所构成的集合，多个居民户所构成的集合。总体根据其所包含的单位数目是否可数可以分为有限总体和无限总体。有限总体是指总体的范围能够明确确定，而且元素的数目是有限可数的，需要注意的是，统计意义

4、上的总体，通常不是一群人或一些物品的集合，而是一组观测数据。（2）样本是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本容量。例如我们从一批灯泡中随机抽取100 个，这 100 个灯泡就构成了一个样本。（3）参数是用来描述总体特征的概括性数字度量。有总体平均数、标准差、总体比例。由于总体参数通常是不知道的，所以参数是一个未知的常数。所以才需要进行抽样，根据样本来估计总体参数（4）样本量是用来描述样本特征的概括性数字度量。统计量是根据样本数据计算出来的一个量，通常包括：样本平均数、样本标准差、样本比例等，由于样本是我们已经抽出来的，所以统计量总是知道的，抽样的目的就是要根据样本统计量

5、推断总体参数。（5）变量是说明现象某种特征的概念。变量的特点是从一次观察到下一次观察会呈现出差别或变化，分为分类变量、顺序变量、数值型变量、离散型变量和连续型变量。第二章数据收集一、调查方案的主要内容：（1）调查目的：是调查所要达到的具体目标，他所回答的是“为什么调查”“要解决什么样的问题”等（2）调查对象和调查单位：调查对象是根据调查目的的确定的调查研究的总体或调查范围。调查单位是构成调查队选中的每一个单位，它是调查项目和调查内容的承担着或载体。所要解决的是“向谁调查”由谁来提供所需数据（3）调查项目和调查表：调查项目要解决的问题是“调查什么”，也就是调查的具体内容，大多数统计调查中，调查项

6、目通常以表格的形式来表现，称为调查表二、数据的误差：统计数据的误差通常是指统计数据与客观现实之间的差距，误差的类型主要有抽样误差和非抽样误差两类。（1）抽样误差：主要是指在用样本数据进行推断时所产生的随机误差。只存在于概率抽样中。这类误差通常是无法消除的，但事先可以进行控制和计算。影响抽样误差大小的因素：（a）抽样单位的数目。在其他条件不变的情况下，抽样单位的数目越多，抽样误差越小；反之，越大。这是因为随着样本数目的增多，样本结构越接近总体，抽样调查也就越接近全面调查，当样本扩大到总体时，则为全面调查，也就不存在抽样误差了。（b）总体背研究标志的变异程度。在其他条件不变的情况下，总体标志的变异

7、程度越小，抽样误差越小，反之，越大。抽样误差和总体标志的变异程度呈正比变化。这是因为总体的变异程度小，表示总体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小；如果总体各单位标志值相等，则标志变动度为零，样本指标等于总体指标，此时不存在抽样误差（c）抽样方法的选择。重复抽样和非重复抽样的抽样误差大小不同。采用不重复抽样比采用重复抽样的抽样误差小（d）抽样组织方式不同。采用不同的组织方式，会有不同的抽样误差，这是因为不同的抽样组织所抽中的样本，对于总体的代表性也不同，通常，常利用不同的抽样误差，作出判断各种抽样组织方式的比较标准。（2）非抽样误差：主要包括：抽样框误差，回答误差、

8、无回答误差、调查员误差；是调查过程中由于调查者或被调查者的人为因素所造成的误差。调查者所造成的误差主要有：调查方案中有关的规定或解释不明确导致的填报错误、抄录错误、汇总错误等；被调查者所造成的误差主要有：因人为因素干扰形成的有意虚报或瞒报调查数据。非抽样误差理论上是可以消除的。三、简单随机抽样：（1）概念：从总体N个单位中随机地抽取n个单位作为样本，每个单位入抽样本的概率是相等的；（2）特点： a、简单、直观，在抽样框完整时，可直接从中抽取样本b、用样本统计量对目标量进行估计比较方便（3）局限性当N很大时，不易构造抽样框抽出的单位很分散，给实施调查增加了困难没有利用其它辅助信息以提高估计的效率

9、lg(lg()2lg()lg(1nK第三章数据的整理与展示一、数据排序的目的：（1）数据排序是按一定顺序将数据排列，以发现一些明显的特征或趋势，找到解决问题的线索（2）排序还有助于对数据检查纠错，以及为重新归类或分组等提供方便。（3）在某些场合，排序本身就是分析的目的之一。二、数据分组：是根据统计研究的需要，将原始数据按照某种标准化分成不同的组别，分组后的数据成为分组数据。数据经分组后再计算出各组中数据出现的频数，就形成了一张频数分布表，分组方法有单变量值分组和组距分组两种，单变量分组通常只适合于离散变量，且在变量值较少的情况下使用，在连续变量或变量值较多情况下，通常采用组距分组。三、组距分组

10、的步骤和原则：（1）步骤：a、确定组数：组数的确定应以能够显示数据的分布特征和规律为目的。在实际分组时，可以按 Sturges 提出的经验公式来确定组数K b、确定组距：组距 (Class Width) 是一个组的上限与下限之差，可根据全部数据的最大值和最小值及所分的组数来确定，即组距 ( 最大值 - 最小值 ) 组数c、统计出各组的频数并整理成频数分布表（2）原则：采用组距分组时，需遵循“不重不漏 ”的原则，“ 不重”是指一项数据只能分在其中的某一组，不能在其他组中重复出现；“不漏”是指组别能够穷尽，即在所分的全部组别中每项数据都能分在其中的某一组，不能遗漏。为解决不重的问题，统计分组时习

11、惯上规定“上组限不在内 ”，即当相邻两组的上下限重叠时，恰好等于某一组上限的变量值不算在本组内，而计算在下一组内。当然，对于离散变量，我们可以采用相邻两组组限间断的办法解决“不重”的问题。也可以对一个组的上限值采用小数点的形式，小数点的位数根据所要求的精度具体确定。缺点：组距分组掩盖了各组内的数据分布状况四、直方图和条形图的区别：首先，条形图是用条形的长度（横置时）表示各类别频数的多少，其宽度则是固定的；直方图是用面积表示各组频数的多少，频数的高度表示每一组的频数或频率，宽度则表示各组的组距，因此高度与宽度均有意义。其次，由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排

12、列。最后，条形图主要用于展示各类数据，而直方图则主要用于展示数据型数据。五、绘制线图应注意的问题：（）时间一般绘在横轴，观测数据绘在纵轴（）图形的长宽比例要适当，一般应绘成横轴略大于纵轴的长方形，其长宽比例大致是 :. （）一般情况下，纵轴数据下端应从开始，以便于比较，数据与之间的间距过大，可以采取折断的符号将纵轴折断六、设计统计表注意的问题：首先，要合理安排统计表的结构，例如表号、行标题、列标题、数字资料的位置应安排合理。其次，表头一般应包括表号、总标题和表中数据的单位等内容，总标题应简明确切地概括出统计表的内容。再次，表中的上下两条线一般用粗线，中间的其他线用细线，表的左右两边不封口，列标

13、题之间可以用竖线分开，而行标题之间通常不必用横线隔开。最后，在使用统计表时，必要时可在表下方加上注释，特别注意标明数据来源。七、数据的审核：（1）原始数据：a、完整性审核：检查应调查的单位或个体是否有遗漏；所有的调查项目或指标是否填写齐全b、准确性审核：检查数据是否真实反映客观实际情况，内容是否符合实际；检查数据是否有错误，计算是否正确等（2）二手数据：a、适用性审核：弄清楚数据的来源、数据的口径以及有关的背景材料；确定数据是否符合自己分析研究的需要b、时效性审核：尽可能使用最新的数据八、数据的整理与显示( 基本问题 ) （1）要弄清所面对的数据类型，因为不同类型的数据，所采取的处理方式和方法

14、是不同的（2）对分类数据和顺序数据主要是做分类整理（3）对数值型数据则主要是做分组整理（4）适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据第四章数据的概括性度量一、集中趋势和离散趋势的度量：（1）集中趋势是指一组数据向某一中心值靠拢的倾向，它反映了一组数据中心点的位置所在。描述集中趋势所采用的测度值分为：众数、中位数和分位数、平均数。（2）离散趋势是数据分布的另一个重要特征，它所反映的各变量值远离其中心值得程度，因此也称为离中趋势，数据的离散程度越大，集中趋势的测度值对该组数据的代表性越差，反之，代表性越好。描述数据离散程度

15、所采用的测度值，根据所依据的数据类型的不同主要有异种比率、四分位差、方差和标准差。此外还有极差、平均差以及测度相对离散程度的离散系数。二、众数、中位数和平均数：（1）三者的关系：从分布的角度看，众数始终是一组数据分布的最高峰值，中位数的处于一组数据中间位置上的值，而平均数则是全部数据的算数平均。因此，对于具有单峰分布的大多数数据而言，众数、中位数和平均数之间具有以下关系：（a）如果数据的分布是对称的，众数、中位数、平均数必定相等（b）如果数据是左偏分布，说明数据存在极小值，必然拉动平均数向极小值一方靠近，而众数和中位数由于是位置代表值，不受极值的影响，因此三者的关系为众数中位数平均数（c）如

16、果数据是右偏分布，说明数据存在极大值，必然拉动平均数向极大值的一方靠近，则众数中位数 0 时为尖峰分布，当K=30 ）,不论原来的总体是否服从正态分布，样本值的抽样分布都趋于正态分布，其分布的数学期望为总体均值，方差为总体方差的1/n ，这就是中心极限定理，表述为：设从均值为，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为、方差为2/n的正态分布四、重复抽样和不重复抽样相比，抽样均值分布的标准差有何不同样本均值的方差与抽样方法有关，在重复抽样条件下，样本均值的方差为总体方差的 1/n ，即在不重复抽样条件下，样本均值的方差则需要用修正系数去修正重复

17、抽样时样本均值的方差，即不重复抽样的样本均值的方差小于重复抽样时的样本均值的方差对于无限总体进行不重复抽样时，可以按照重复抽样来处理，对于有限总体，当N 很大，而抽样比n/N 很小时，其修正系数趋于1，这时样本均值的方差也可以按照重复抽样的样本均值的方差公式来计算五、 2 分布的性质和特点（1）分布的变量值始终为正（2）分布的形状取决于其自由度n的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称（3）期望为： E(2)=n，方差为： D(2)=2n(n为自由度 ) （4）可加性：若U和V为两个独立的2分布随机变量，U2(n1)，V2(n2), 则U+V这一随机变量服从自由度为n1+

18、n2的2分布第七章参数估计一、评价估计量的标准实际上，用于估计的的估计量有很多，如我们可以用样本均值作为总体均值的估计量，也可以用样本中位数作为总体均值的估计量，什么样的估计量才算是一个好的估计量呢？这需要一定的评价标准：1、无偏性：估计量抽样分布的数学期望等于被估计的总体参数。设总体参数为，被选择的估计量为，如果 E()=，称为的无偏估计量。?X22nX2222X122NnNnX2、有效性：对同一总体参数的两个无偏估计量，方差较小的是更有效的估计量。3、一致性：随着样本容量的增大，点估计量的值越来越接近被估的总体的参数。换言之，一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数

19、二、怎样理解置信区间置信区间：由样本统计量所构造的总体参数的估计区间，其中区间的最小值称为置信下限，区间最大值称为置信上限。是一个随机区间，的置信区间意味着，置信区间包含未知参数的概率为，这个区间会随着样本观察值的不同而不同。但100 次运用这个区间，约有100（）个区间能包含参数，也就是说大约还有100 a 个区间不包含总体参数判断置信区间优势的标准（好的置信区间的特性）：置信度越高越好；置信区间宽度越小越好。三、影响区间宽度的因素1. 总体数据的离散程度，用 s 来测度2.样本容量：当置信水平固定时，置信区间的宽度随着样本容量的增大而减小，换言之，较大的样本所提供的有关总体的信息要比小样本

20、多。3. 置信水平 (1 - a)，影响z 的大小：置信水平越大，z 越大四、简述样本容量与置信水平、总体方差、估计误差的关系?=（ ?）?（1）样本量与置信水平呈正比，在其他条件不变的情况下，置信水平越大，所需的样本容量也就越大（2）样本量与总体方差呈正比，总体的差异越大，所需的样本容量就越大（3）样本量与边际误差的平方成反比，即可以接受的估计误差的平方越大，所需的样本量就越小五、 ? ?的含义是什么？Z2是标准正态分布上侧面积为2时的 z 值。Z2 n是估计总体均值时的边际误差，也称为估计误差或误差范围六、对两个总体均值之差的小样本估计中，对两个总体和样本都有哪些假定（1）两个总体都服从

21、正态分布（2）两个随机样本独立地分别抽自两个总体七、解释 95% 的置信区间抽取 100 个样本，根据每个样本构造一个置信区间，这样由100 个样本构造的总体参数的 100 个置信区间中， 95% 的区间包含了总体参数的真值，而5%没包含八、对于总体比例的估计，确定样本容量是否“足够大“的一般经验规则是：区间p ? 2p（1 - p） 2? 中不包含 0 或 1.或要求 np5 和 n（1-p）5 八、独立样本和匹配样本如果两个样本是从两个总体中独立抽取的，即一个样本中的元素与另一个样本中的元素相互独立，则称为独立样本。匹配样本是指一个样本中的数据与另一个样本中的数据相对应九、估计量和估计值（

22、1）估计量：用于估计总体参数的随机变量如样本均值，样本比例、样本方差等例如 : 样本均值就是总体均值m 的一个估计量参数用表示，估计量用表示（2）估计值：估计参数时计算出来的统计量的具体值如果样本均值x=80 ，则 80 就是 m 的估计值?第八章假设检验一、参数估计和假设检验的区别和联系（1）主要联系：a.都是根据样本信息推断总体参数；b.都以抽样分布为理论依据，建立在概率论基础之上的推断，推断结果都有风险；c.对同一问题的参数进行推断，使用同一样本，同一统计量，同一分布，二者可相互转换（2）主要区别：a.参数估计是以样本信息估计总体参数的可能范围，假设检验是先对总体参数提出一个假设值，然后

23、利用样本信息判断这一假设是否成立; b.区间估计求得的是求以样本估计值为中心的双侧置信区间，假设检验既有双侧检验，也有单侧检验；c.区间估计立足于大概率，通常以较大的可信度（1-a）去估计总体参数的置信区间。假设检验立足于小概率。通常是给定很小的显著性水平a 去检验总体参数的先验假设是否正确二、什么是假设检验中的显著性水平？统计显著是什么意思？（1）显著性水平是当原假设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率，通常用表示，它是人们根据经验的要求确定的，通常取= 0.05 或 0.01。显著性水平是人们事先指定的犯第类错误概率的最大允许值，确定了显著性水平，就等于控制了第类

24、错误的概率。但犯第类错误的概率却是不确定的（2）统计显著值在原假设为真的条件下，用于检验的样本统计量的值落在了拒绝域内，作出了拒绝原假设的决定三、什么是假设检验的两类错误及其数理关系怎样（1）假设检验中所犯的错误有两种：一类错误是原假设为真却别拒绝了，犯这类错误的概率用表示，也称第类错误。另一类错误是原假设为假却没有拒绝，犯这种错误的概率用表示，也称第类错误（2）当增加时减小，当增大时减小，要使和同时减小的唯一办法是增加样本容量四、假设检验的步骤（1）陈述原假设 H0和备择假设 H1。(2）从所研究的总体中抽出一个随机样本(3)确定一个适当的检验统计量，并利用样本数据算出其具体数

25、值(4)确定一个适当的显著性水平，并计算出其临界值，指定拒绝域(5)将统计量的值与临界值进行比较，作出决策。统计量的值落在拒绝域，拒绝H0，否则不拒绝 H0，或者也可以直接利用P值作出决策五、建立原假设和备择假设的原则（建立假设的几点认识）（1）原假设和备择假设是一个完备事件组，且相互独立（2）在建立假设时，通常是先确定备择假设，然后再确定原假设（3）在假设检验中，等号“ = ”总是放在原假设上。这是因为我们想涵盖备择假设 H1不出现的所有情况（4）这样的假设本质上带有一定的主观色彩，在面对某一实际问题，由于不同研究者有不同的研究目的，即使对同一问题也可能提出截然相反的原假设和备择假设，这并不

26、违背假设的最初定义，只要符合研究的最终目的就是合理的六、单双侧检验的区别备择假设具有特定的方向性，并含有“”的假设检验，称为单侧检验或单尾检验。备择假设没有特定的方向性，并含有符号“ ”的假设检验，称为双侧检验或双尾检验在单侧检验中，由于研究者感兴趣的方向不同，又可分为左侧检验和右侧检验七、检验统计量的特征和用途检验统计量是指根据样本观测结果计算得到的，并据以对原假设和备择假设做出决策的某个样本统计量。检验统计量实际上是总体参数的点估计量，只有将其标准化后，才能用以度量它与原假设的参数值之间的差异程度。而对点估计量标准化的依据则是：a、原假设 H0为真； b、点估计量的抽样分布。实际上，假设检

27、验中所用的检验统计量都是标准化检验统计量，它反映了点估计量与假设的总体参数相比相差多少个标准差。八、拒绝域面积与 ? 大小的关系当样本容量固定时，拒绝域的面积随着的减小而减小。越小，拒绝原假设所需要的检验统计量的临界值与原假设的参数值就越远。拒绝域的位置取决于检验是单侧检验还是双侧检验，双侧检验的拒绝域在抽样分布的两侧，而单侧检验中，如果备择假设具有符号“”，拒绝域位于抽样分布的右侧，故称为右侧检验。九、显著性水平 ? 的局限性显著性水平实在检验之前确定的，这也就意味这我们事先确定了拒绝域。这样，不论检验统计量的值是大还是小，只要他的值落入拒绝域就拒绝原假设，否则不拒绝原假。这种固定的显

28、著性水平对检验结果的可靠性起一种度量作用。但不足的是，是犯第类错误的上限控制值，它只能提供检验结论可靠性的一个大致范围，而对于一个特定的假设检验问题，却无法给出观测数据与原假设之间不一致程度的精确度量，也就是说，仅从显著性水平比较，若选择的值相同，所有的检验结果的可靠性都一样。十、 P值较小时为什么要拒绝原假设 P 值是指在原假设为真的条件下，检验统计量的观察值大于或等于其计算值的概率。P值是反映实际观测到的数据与原假设H0之间不一致程度的一个概率值。P值越小，说明实际观测到的数据与H0之间不一致的程度就越大，检验的结果也就越显著十一、显著性水平 ? 与 P值得区别（1）的含义是当原假

29、设正确时却被拒绝的概率或风险，即假设检验中犯弃真错误的概率，是有人们根据检验的要求确定的，通常= 0.05 或 0.01而 P值是原假设为真时所得到的样本观察结果或更极端结果出现的概率，它是通过计算得到的， P值得大小取决于三个因素：样本数据与原假设之间的差异、样本量、被假设数据的总体分布（2）只能提供检验结论的可靠性地一个大致范围，而对于一个特定的假设检验为题，却无法给出观测数据与原假设之间不一致程度的精确度量。即仅从显著性水平来比较，如果选择的值相同，所有检查结果的可靠性都一样。而 P值可以测量出样本观察数据与原假设中假设的值的偏离程度。十二、总体均值的检验在对总体均值进行假设检验时，

30、采用什么检验步骤和检验统计量取决于我们所抽取的样本是大样本（n30）还是小样本（ n30），此外还需要区分总体是否服从正态分布、总体方差2是否已知等几种情况。（1）大样本的检验方法：样本均值经过标准化后服从正态分布，设假设的总体均值为 0，当总体方差 2已知时，总体均值检验的统计量为：当总体方差未知时，可以用样本方差s2来近似代替总体方差，此时总体均值检验的统计量为（2）小样本的检验方法：总体方差2已知时，即使在小样本下，检验统计量仍然服从正太分布，因此仍然按照来计算。0) 1 , 0(0NnXZ0) 1 , 0(0NnSXZ0) 1 ,0(0NnXZ总体方差2未知时，需要用样本方差s2代替总

31、统方差2，此时检验统计量服从自由度为 n-1 的 t 分布。因此需要采用t 分布来检验总体均值，通常称为“t 检验”。检验的统计量为：第九章方差分析与实验设计一、方差分析的概念及理解方差分析是指检验多个总体均值是否相等的统计方法。所采用的方法就是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。它研究的是多哥总统均值是否相等的统计方法，但本质是研究分类型自变量对数值型因变量的影响。二、方差分析和回归分析的区别和联系区别：（1）方差分析中沿水平轴的自变量是分类变量；而回归分析沿水平轴的自变量是数值型变量。（2）方差分析中，既然自变量是分类变量，就可以把它放在水平轴的任意

32、位置上；而回归分析的自变量是数值型变量，它在水平轴上的位置是从按小到大的数值排列的，因此只有一种方式来放这些数值，并且可以画出一条穿过这些点的直线。（3）方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响；而回归分析是根据一组样本数据确定出变量之间的数学关系式，然后对关系式的可信程度进行各种统计检验，并找出哪些变量的影响是显著的，哪些不显著等三、方差分析中的基本原理（1）方差分析是通过对数据误差来源的分析来判断不同总体的均值是否相等，进而分析自变量对因变量是否有影响（2）数据的误差是用平方差来表示的，包括组内误差和组间误差（3）组内误差只包含随机误差，而组间误

33、差既包括随机误差，又包括系统误差nSXt0（4）如果组间误差只包括随机误差，而没有系统误差，这时，组间误差与组内误差经过平均后的数值就应该很接近，他们的比值就会接近1；（5）反之，如果组间误差既包括随机误差又包括系统误差，这时，组间误差与组内误差经过平均后的数值，他们的比值就会大于1；（6）当这个比值大到某种程度时，我们就可以说因素的不同水平之间存在着显著的差异，也就是自变量对因变量有影响。四、方差分析中的基本假定（1）每个总体都应服从正态分布。也就是说，对于因素的每一个水平，其观察值是来自服从正态分布总体的简单随机样本（2）各个总体的方差必须相同。也就是说，各组观察数据是从具有相同方差的总体

34、中抽取的（3）观察值是独立的在上述假定成立的前提下，要分析自变量对因变量是否有影响，实际上也就是要检验自变量的各个水平（总体）的均值是否相等。五、方差分析和总体均值的t 检验或 z 检验有何不同？优势是什么（1）不同：总体均值的t 检验或 z检验，只能研究两个样本，若要检验多个总体均值是否相等。那么作这样的两两比较将十分繁琐，共需进行Cn2次不同的检验，如果 =0.05 ，那么每次检验犯第类错误的概率都是0.05 ，做多次检验会使第类错误的概率相应增加。而方差分析方法则同时考虑所有的样本，因此除了错误累计的概率，从而避免了拒绝一个真是的原假设。（2）优势：方差分析不仅可以提高检验的概率，同时由

35、于他是将所有的样本信息结合在一起，也增加了分析的可靠性。六、要检验多个总体均值是否相等时，为什么不做两两比较，而用方差分析方法？方差分析不仅可以提高检验的概率，同时由于他是将所有的样本信息结合在一起，也增加了分析的可靠性。检验多个总体均值是否相等时，如果做两两比较，需要进行多次的t 检验。随着增加个体显著性检验的次数，偶然因素导致的差别的可能性会增加（并非均值真的存在差别），而方差分析则是同时考虑所有的样本，因此排除了错误累积的概率，从而避免拒绝一个真实的原假设。七、方差分析的步骤（1）提出假设，按要求检验的k 个水平的均值是否相等，提出原假设和备择假设。（2）构造检验的统计量，计算各样本均值

36、xi? ，样本总均值 x ?，误差平方和SST、SSA、SSE F=SSA k-1?SSE n-k?=MSAMSE（3）统计决策，比较统计量F 和F(k-1,n-k) 的值，若 FF,则拒绝原假设，反之不拒绝原假设八、解释水平项误差平方和与误差平方和（1）水平项误差平方和，简称SSA，是各组平均值与总平均值的误差平方和，反映各总体的样本均值之间的差异程度，因此又称为组间平方和，其计算公式为（2）误差项平方和，简称为SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和，反映了每个样本个观测值的离散状况，因此又称为组内平方和或残差平方和，该平方和实际上反映的是随机误差的大小，其计算公式为九

37、、解释组内方差和组间方差的含义SSA的均方（组间均方）记为MSA，也称组间方差，其计算公式为MSE 的均方（组内均方）记为MSE,也称组内方差，其计算公式为十、方差分析中效应的意义 SSA 是对随机误差和系统误差的大小的度量，它反映了自变量对因变量的影响，也称自变量效应或因子效应。 SSE 是对随机误差的大小的度量，它反映了除自变量对因变量的影响之外，其他因素对因变量的总影响，因此SSE 也称为残差变量，它所引起的误差也称为残差效应。kiikinjii1112kiiikinjixxnxxSSAi12112kinjiiji112kinjiijixxSSE1121kSSAMSAknSSEknSSE

38、MSEkiiikinjii12112kiiikinjixxnxxSSAi12112kinjiiji112kinjiijixxSSE112 SST 是全部数据总误差程度的度量，它反映了自变量和残差变量的共同影响，因此他等于自变量效应加残差效应。SST = SSA + SSE 十一、多重比较方法的作用：它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。十二、交互作用：是一因素对另一因素的不同水平有不同的效果，如对于双因素方差分析，有交互作用就是两个因素搭配在一起，对应变量产生的一种新的效应。十三、解释无交互作用和有交互作用的双因素方差分析在双因素方差分析中，由于有两个影响因素，

39、若这两个因素是相互独立的，我们分别判断这两个因素对因变量的影响，这时的双因素方差分析称为无交互作用的双因素方差分析，或称为无重复因素分析。如果出了两个因素的单独影响外，两因素的搭配还会对因变量产生一种新的效应，这时的双因素方差分析就是有交互作用的双因素方差分析。十四、 R2的含义和作用（1）单因素方差分析中，R2表示自变量平方和(SSA)及残差平方和 (SSE)占总平方和(SST)的比例大小，其平方根R就可以用来测量两个变量之间的关系强度（2）无交互作用的双因素方差分析中，行自变量平方（SSR）和和列自变量的平方和(SSC) 加在一起则度量了两个自变量对因变量的联合效应，联合效应与总平方和的比

40、值定义为R2，其平方根R 反映了这两个自变量合起来与因变量之间的关系强度（3）有交互作用的方差分析：R2 =SSR+SSC+SSRCSST十四、为什么双因素方差分析中，误差平方和与P值明显小于单因素方差分析中的任何一个平方和？是因为在双因素方差分析中，误差平方和不包括两个自变量中的任何一个，因而减少了残差效应。而在分别作单因素方差分析时，将行因素作为自变量时，列变量被kinjiji112kinjijixxSST112)2总平方和组间平方和)()(2总平方和组间平方和SSTSSAR总效应联合效应2SSTSSCSSRR总效应联合效应2包含在残差中，同样，将列因素作为自变量是，行变量被包含在残差中。

41、因此，对于两个自变量而言，进行双因素方差分析要优于分别对两个因素进行单因素方差分析十五、完全随机化设计、随机化区组设计、因子设计（1）完全随机化设计指“ 处理”被随机地指派给试验单元的一种设计、对完全随机化设计的数据采用单因素方差分析（2）随机化区组设计是指先按一定规则将试验单元划分为若干同质组，称为“区组。分组后再将每个品种（处理）随机地指派给每一个区组的设计就是随机化区组设计。试验数据采用无重复双因素方差分析（3）因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计。该设计主要用于分析两个因素及其交互作用对试验结果的影响。试验数据采用可重复双因素方差分析第十章一元线性回归一

42、、简述相关系数的性质相关系数是指根据数据计算的对两个变量之间线性关系强度的度量值。若相关系数是根据总体全部数据计算的，称为总体相关系数，记为；若是根据样本数据计算的，则称为样本相关系数，记为r，样本相关系数的计算公式：性质：（1）r的取值范围是 -1,1 ； |r|=1 ，为完全相关，r =1 ，表明 x 与 y 之间为完全正线性相关关系，r =-1 ，表明 x 与 y 之间为完全负线性相关关系；r = 0 ，表明 x 与y 之间不存在线性相关关系相关，-1r 0 ，表明 x 与 y 之间为负线性相关，0r 1，表明 x 与 y 之间为正线性相关， |r|越趋于 1 表示关系越密切；|r|越

43、趋于 0 表示关系越不密切（2）r 具有对称性， x 与 y 之间的相关系数 rxy和 y 和 x 之间的相关系数 ryx相等，即rxy= ryx（3）r 的大小与 x 和 y 的原点及尺度无关。改变x 和 y 的数据原点和计量尺度，并不改变 r 的大小（4）r 仅仅是 x 和 y 之间的线性关系的度量，不用于描述非线性关系，这意味着，r=0 指标是两个变量之间不存在线性相关关系，但并说明变量之间没有任何关系，如2222y2222yynxxnyxxynr可能存在非线性相关关系。变量之间的非线性相关程度较大时，就可能会导致r=0. 因此当 r=0 或很小时，不能轻易得出两个变量之间不存在相关关系

44、的结论，而应结合散点图作出合理的解释。（5）r 虽是两变量之间线性关系的度量，却并不意味着x 和 y 之间一定有因果关系。二、利用相关关系如何判断变量之间相关的方向和相关的密切程度？（1）r 的取值范围是 -1,1 ； |r|=1 ，为完全相关，r =1 ，表明 x 与 y 之间为完全正线性相关关系，r =-1 ，表明 x 与 y 之间为完全负线性相关关系；r = 0 ，表明 x 与y 之间不存在线性相关关系相关，-1r 0 ，表明 x 与 y 之间为负线性相关，0r 1，表明 x 与 y 之间为正线性相关。（2）根据实际数据计算出的r，|r|越趋于 1 表示关系越密切；|r| 越趋于 0

45、表示关系越不密切。相关程度分为以下几种情况：当|r|0.8 时，可视为高度相关；0.5 |r|0.8 时，可视为中度相关；当0.3 |r|0.5 时，视为低度相关；|r|t，拒绝H0，表明总体的两个变量之间存在显著的线性关系；若tF,拒绝H0；若Ft，拒绝H0；tt，不拒绝H0十七、置信区间和预测区间的含义？二者的区别（1）置信区间指利用估计的回归方程，对于自变量x 的一个给定值x0，求出因变量 y 的平均值的估计区间 (confidence interval) E(y0) 在 1-置信水平下的置信区间为（2）预测区间指利用估计的回归方程，对于自变量 x 的一个给定值 x0，求出因变量 y 的

46、一个个别值的估计区间 (prediction interval) y0在 1-置信水平下的预测区间为（3）二者的区别：置信区间估计是求y 的平均值的估计区间，而预测区间的估计是求 y 的一个个别值的区间估计；对同一个x0，这两个区间的宽度也是不一样的。预测区间要比置信区间宽一些。)2,1(21nFMSEMSRnSSESSRF1?1)2(?1?1ntst十八、残差分析的作用：（1）用于判断有关模型的假定是否成立（如误差项的假定是否成立）（2）用于分析回归中的异常值和对模型有影响的观测值十九、影响区间宽度的因素（1）置信水平（ 1- ），区间宽度随置信水平的增大而增大。（2）数据的离散程度（s）

47、，区间宽度随s的增大而增大（3）样本容量，区间宽度随样本容量的增大而减小（4）用于预测的 x0与x ?的差异程度，区间宽度随x0与x ?的差异程度的增大而增大第十一章多元线性回归一、解释多元线性回归模型、回归方程、和估计的多元回归方程的含义（1）多元线性回归模型：描述因变量y 如何依赖于自变量x1， x2， xp和误差项的方程，称为多元回归模型。涉及p 个自变量的多元回归模型可表示为y= 0 + 1x1 + 2x2 + + pxp+ ?其中， 0、1、2、p是参数，是误差项（2）回归方程：描述因变量 y 的平均值或期望值如何依赖于自变量x1、x2、xp的方程 ; 多元线性回归方程的形式为 E(

48、 y ) = 0+ 1x1+ 2x2+ ? + pxp（3）估计的多元回归方程：由于回归方程中的0、1、2。p是不知道的，需要利用样本数据去估计它们，当我们用用样本统计量0?、1?、2?。p?估计回归方程中的参数0、1、2。p时就得到了估计的多元线性回归方程，其一般形式为：y ?= 0? + 1?x1 + 2?x2 + + p?xp0?、1?、2?。p?被称为偏回归系数二、多元线性回归模型中，对误差项? 有三个基本假定：（1）误差项是一个期望值为0 的随机变量，即E()=0 。对于一个给定的x1、x2、xp的值，y 的期望值为 E( y ) = 0+ 1x1+ 2x2+ ? + pxp（2）对

49、于所有的 x1、x2、xp值，的方差2 都相同（3）误差项是一个服从正态分布的随机变量，且相互独立。即N( 0 ,2 ) 独立性意味着对于自变量x1、x2、xp的值，它所对应的与其他 x1、x2、xp的任意一组其他值所对应的不相关。正态性意味着对于给定的x1、x2、xp的值，因变量y 也是一个服从正态分布的随机变量三、多元线性回归模型中的基本假定（1）误差项是一个期望值为0 的随机变量，即E()=0 。对于一个给定的x1、x2、xp的值，y 的期望值为 E( y ) = 0+ 1x1+ 2x2+ ? + pxp（2）对于所有的 x1、x2、xp值，的方差2 都相同（3）误差项是一个服从正态分布

50、的随机变量，且相互独立。即N( 0 ,2 ) 独立性意味着对于自变量x1、x2、xp的值，它所对应的与其他 x1、x2、xp的任意一组其他值所对应的不相关。正态性意味着对于给定的x1、x2、xp的值，因变量y 也是一个服从正态分布的随机变量（4）自变量 x1、x2、xp是非随机的，固定的且相互之间互不相关（无多重共线性）四、若这些假定不成立的应对方法？（1）若模型中存在多重共线性，解决的方法是：第一、将一个或多个相关的自变量从模型中剔除，使保留的自变量尽可能不相关；第二、如果要在模型中保留所有的自变量，则应避免根据t 统计量对单个参数进行检验；对因变量值的推断(估计或预测)的限定在自变量样本值

51、的范围内（2）若模型中存在序列相关时，解决的方法有：如果误差项不是相互独立的，则说明回归模型存在序列相关性，这时首先要查明序列相关产生的原因，如果是回归模型选用不当，则应改用适当的模型；如果是缺少重要的自变量，则应增加自变量；如果以上两种方法都不能消除序列相关性，则需要采用迭代法，差分法等方法处理。（3）若模型中存在异方差时，解决的方法有：当存在异方差时，普通最小二乘估计不再具有最小方差线性估计的性质，而加权最小二乘估计则可以改进估计的性质。加权最小二乘估计对误差项方差小的项加一个大的权数，对误差项方差大的项加一个小的权数，因此加强了小方差性的地位，使离差平方和中各项的作用相同。五、多元回归

52、中为什么需要用修正的判定系数来比较方程的拟合程度？如何计算由于自变量个数的增加，将影响到因变量中被估计的回归方程所解释的变差数量。当增加自变量时，会使得预测误差变得比较小，从而减少残差平方和SSE，由于回归平方和 SSR=SST-SSE，当 SSE变小时， SSR就会变大，从而使R 2变大。如果模型中增加一个自变量，即使这个自变量在统计上并不显著，R2也会变大。因此，为避免增加自变量而高估R2，统计学家提出用样本容量n 和自变量p去修正R2，计算出修正的多重判定系数。修正后的判定系数不会由于模型中自变量个数的增加而越来越接近于1。其计算公式为：六、解释多重判定系数R2和调整的多重判定系数的含义

53、和作用？（1）多重判定系数：是指回归平方和占总平方和的比例。多重判定系数是估计多元线性回归方程拟合程度的度量，反映了在因变量取值的变差中，能被估计的多元回归方程所解释的比例，计算公式为R2=SSRSST=1-SSESST(2) 修正的多重判定系数：是指用样本容量n和自变量的个数p修正的多重判定系数。它同时考虑了样本容量和模型中参数的个数p 的影响，这就使得Ra2的值永远小于R2，而且 Ra2的值不会由于模型中自变量个数的增加而越来越接近1。七、多元线性回归中，为什么对整个回归方程进行检验后，还要对每个回归系数进行检验？线性关系的检验主要是检验因变量同多个自变量的线性关系是否显著，在p 个自变量

54、中，只要有一个自变量同因变量的线性关系显著，F 检验就通过，但这不一定意味着每个自变量同因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验，它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验，这就意味着这个自变量对因变量的影响不显著，也许就没有必要将这个自变量放入回归模型中了。八、 F 检验和 t 检验的区别：在一元线性回归中，线性关系的检验（F 检验）和回归系数的检验（t 检验）的等价的，但在多元回归中，这两种检验就不再等价。线性关系的检验主要是检验因变量同多个自变量的线性关系是否显著，在p 个自变量中，只要有一个自变量同因变量的线性关系显著， F

55、检验就通过，但这不一定意味着每个自变量同因变量的关系都显著。回归系数检验则是对每个回归系数分别进行单独的检验，它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验，这就意味着这个自变量对因变量的影响不显著，也许就没有必要将这个自变量放入回归模型中了。九、多重共线性及产生的问题（即多重共线性对回归分析的影响）（1）含义：指回归模型中两个或两个以上的自变量彼此相关时，称回归模型中存在多重共线性（2）存在的问题：首先、可能会使回归的结果造成混乱，甚至会把分析引入歧途；其次、可能对参数估计值的正负号产生影响，特别是各回归系数的正负号有可能同我们与其的正负号相反十、如何识别多重共线

56、性：检测多重共线性的方法很多，其中最简单的一种方法是计算模型中各自变量之间的相关系数，并对各相关系数进行显著性检验，如果有一个或多个相关系数是显著的，就表示模型中所使用的自变量之间相关，因而存在多重共线性问题。具体的说，如果出现下列情况，暗示存在多重共线性：（ 1）模型中各对自变量之间显著相关。（2）当模型的线性关系检验(F检验)显著时，几乎所有回归系数的t检验却不显著（3）回归系数的正负号与其的相反十一、多元线性回归中选择自变量的方法有哪些：在多元线性回归中，变量选择的方法主要有：向前选择、向后删除、逐步回归、最优子集（1）向前选择是从模型中没有自变量开始，不停的向模型中增加自变量，直至增加

57、自变量不能导致SSE显著增加（这个过程通过F 检验来完成）为止（2）向后删除是与向前选择相反，一直将自变量从模型中删除，直至删除一个自变量不会使SSE显著减小为止，这时，模型中所剩的自变量都是显著的。（3）逐步回归是向前选择和向后回归的结合，不停的增加变量并开了剔除以前增加的变量的可能性，直至增加变量已经不能导致SSE显著减少第十一章事件序列分析和预测一、时间序列预测的程序在对时间序列进行预测时，通常包括以下步骤：（1）确定时间序列所包含的成分，也就是确定时间序列的结果（2）找出适合此类时间序列的预测方法（3）对可能的预测方法进行评估，以确定最佳预测方案（4）利用最佳预测方案进行预测二、简述平

58、稳序列和非平稳序列的含义（1）平稳序列是指基本上不存在趋势的序列。平稳序列中的各观察值基本上在某个固定的水平上波动，虽然在不同时间段波动的程度不同，但并不存在某种规律，而其波动可以看成是随机的。（2）非平稳序列是指包含趋势性、季节性或周期性的序列，它可以是只含有其中的一种成分，也可能是几种成分的组合。非平稳序列又可以分为有趋势的序列，有趋势、季节性和周期性的序列，即复合型序列三、时间序列的构成要素（1）时间序列在长时期内呈现出来的某种持续向上或持续下降的变动，称为趋势，也称长期趋势时间序列在一年内重复出现的周期性波动，称为季节变动（2）时间序列中呈现出来的围绕长期趋势的一种波浪形或震荡式变动，

59、称为周期性，或称循环波动（3）时间序列中除去趋势、周期性和季节变动之后的偶然性变动，称为随机性，也称不规则变动这样，可以将时间序列的构成要素分为四种，即趋势（T）、季节性或季节变动（S）、周期性或循环波动（C）、随机性或不规则变动（I）四、增长率分析中应注意的问题对于大多数时间序列，特别是有关社会经济现象的时间序列，我们经常利用增长率来描述其增长状况。尽管增长的计算与分析都比较简单，但实际应用中，有时也会出现误用乃至滥用的情况。因此，在应用增长率分析实际问题时，应注意以下几点：首先，当时间序列中的观察值出现0 或负数时，不宜计算增长率。对这一序列计算增长率，要么不符合数学公理，要么无法解释其实

60、际意义，在这种情况下，适宜直接用绝对数进行分析。其次，在有些情况下，不能单纯的就增长率论增长率，要注意增长率与绝对水平的结合分析五、简述指数平滑法的基本含义（1）指数平滑法是对过去的观察值加权平均进行预测的一种方法，该方法使得第t期的指数平滑值等于第t 期的实际观察值与第t+1 期指数平滑值的加权平均值。（2）指数平滑法是加权平均的一种特殊形式，观察值时间越远，其权数也就跟着呈现指数的下降，因而成为指数平滑。指数平滑有一次指数平滑，二次指数平滑、三次指数平滑。（3）使用指数平滑法时，关键的问题是确定一个合适的平滑系数。因为不同的会对预测结果产生不同的影响。一般而言，当时间序列有较大的随机波

61、动时，宜选较大的，以便能很快地跟上近期的变化，当时间序列比较平稳时，宜选较小的。但实际应用时，还应考虑预测误差的大小，确定时，可选择几个进行预测，然后找出预测误差最小的作为最后的值。六、复合型时间序列的预测步骤复合型序列是指含有趋势性、季节性和周期性的序列，对这类序列进行分析的传统方法就是将时间序列的各个因素依次分解出来，并分别进行分析。分解法预测通常按照下面的步骤进行：（1）确定并分离季节成分。计算季节指数，以确定时间序列中的季节成分，然后将季节成分从时间序列中分离出去，即用每一个时间序列观测值除以相应的季节指数，以消除季节性。（2）建立预测模型并进行预测，对消除了季节成分的时间序

62、列建立适当的预测模型，并根据这一模型进行预测（3）计算出最后的预测值，用预测值乘以相应的季节指数，得到最终的预测值七、季节指数的计算方法平均趋势剔除法的基本步骤无季节性资料ICTSICST无季节性资料（1）计算移动平均值(季度数据采用4 项移动平均，月份数据采用12 项移动平均 )，并将其结果进行“中心化”处理，将移动平均的结果再进行一次二项的移动平均，即得出“中心化移动平均值”(CMA) （2）计算移动平均的比值。也成为季节比率，即将序列的各观察值除以相应的中心化移动平均值，然后再计算出各比值的季度(或月份 )平均值，即季节指数（3）季节指数调整。各季节指数的平均数应等于1 或 100% ，

63、若根据第二步计算的季节比率的平均值不等于1 时，则需要进行调整。具体方法是：将第二步计算的每个季节比率的平均值除以它们的总平均值八、周期性分析的常用方法剩余法的具体计算步骤：1.先消去季节变动，求得无季节性资料2.再将结果除以由分离季节性因素后的数据计算得到的趋势值，求得含有周期性及随机波动的序列3.将结果进行移动平均(MA) ，以消除不规则波动，即得循环波动值 C = MA ( C I ) 第十三章指数一、指数的含义与性质指数，或称统计指数，是分析社会经济现象数量变化的一种重要统计方法，有如下一些性质：（1）相对性。指数是总体各变量在不同场合下对比形成的相对数，它可以度量一个变量在不同时间或

64、不同空间的相对变化，如一种商品的价格指数或数量指数。它也可以反映一组变量的综合变动，比如综合物价指数是根据一组商品价格的相对变化并给每种商品的相对数定以不同权数计算出来的，这种指数称为综合指数，另外根据变化对比两变量所处的是不同时间还是不同空间，他们计算出来的指数分时间性指数和区域性指数（2）综合性。综合性说明指数是一种特殊的相对数，它由一组变量或项目综合对比形成的，比如，由若干种商品和服务构成的一组消费项目，通过综合后计算价格指数，以反映消费价格的综合变动水平。周期与随机波动ICTICT周期与随机波动（3）平均性。平均线含义有二，一是指数进行比较的综合数量是作为个别量的一个代表，这本身就具有

65、平均的性质；二是两个综合量对比形成的指数反映了个别量的平均变动水平。比如物价指数反映了多种商品和服务项目价格的平均变动水平。二、同度量因素？在编制加权综合指数中的作用？（1）在统计学中，一般把相乘以后使得不能相加的指标过渡到可以直接相加的指标的那个因素，称为同度量因素或同度量系数。（2）在编制指数时，对于不能直接相加的指标，可通过同度量因素把指标过渡到具有可加性三、拉氏指数和帕氏指数各有什么特点？（1）拉氏指数是1864 年德国学者拉斯贝尔斯提出的一种指数计算方法，它用基期消费量为权数，可以消除全数变动对对指数的影响，从而使不同时期的指数具有可比性。但拉氏指数也存在一定的缺陷。比如，物价指数实

66、在假定销售量不变情况下报告期价格的变动水平，这一指数尽管可以单纯反映价格的变动水平，但不能反映出消费量的变化。从实际生活角度看，人们更关心在报告期销售量条件下，由于价格变动对实际生活的影响。因此，拉氏价格指数实际中应用的很少。而拉氏数量指数，是在假定价格不变的条件下报告期销售量的综合变动，它不仅可以单纯反映出销售量的综合变动水平，也符合计算销售量指数的实际要求，因此，拉氏数量指数实际中应用的较多。（2）帕氏指数是1874 年德国学者帕煦提出的一种指数计算方法，帕氏指数因以报告期变量值为权数，不能消除权数变动对指数的影响，因而不同时期的指数缺乏可比性。但帕氏指数可以同时反映出价格和消费结构的变化

67、，具有比较明确的经济意义。在实际应用中，常采用帕氏公式计算价格、成本等质量指数。而帕氏指数由于包含了价格的变动，这就意味着按调整后的价格来测定数量的综合变动，这本身不符合计算物量指数的要求，因此帕氏数量指数在实际中应用较少。四、加权平数指数和加权综合指数有何区别于联系（1）两者区别：a、两者在所使用的权数和计算形式上不同。综合指数是以某一时期的变量值作为权数对另一个变量进行加权，然后采用综合的形式计算出来的；而加权平均指数则是采用某一总量为权数对个体指数加权计算出来的b、二者所依据的计算资料不同。加权综合指数的计算通常需要掌握全面的资料；加权平均指数既可以依据全面资料计算，也可以依据非全面资料

68、计算。（2）两者联系：当使用p0q0为权数时，加权算术平均指数可以变形为加权综合指数；当使用 p1q1作为权数时，加权调和指数可以变形为加权综合指数五、指数体系的含义与作用（1）由总量指数及其若干个因素指数构成的数量关系式称为指数体系。它一般保持两个对等关系，一是从相对水平看，总量指数等于各因素指数的乘积；二是从绝对量来看，总量的变动差额等于各因素指数变动差额之和（2）指数体系主要有三方面的作用a、指数体系是进行因素分析的根据，即利用指数体系可以分析复杂经济现象总变动中各因素变动影响方向和程度。b、利用各指数之间的联系进行指数间的相互推算。例如我国的商品销售量总指数往往就是根据商品销售额总指数

69、进行推算的，即商品销售量指数= 销售量额指数 /价格指数c、用综合指数法编制总指数时，指数体系也是确定同度量因素时期的根据之一。因为，指数体系是进行因素分析的根据，要求各个指数之间在数量上要保持一定的关系。因此，编制产品产量指数时，如用基期价格做同度量因素，那么编制产品价格指数时必须用报告期的产品产量作为同度量因素；如果编制产品产量指数用报告期价格作为同度量因素，那么编制产品价格指数时就必须用基期的产品产量作为同度量因素。六、几种常见的价格指数的含义（1）零售价格指数：反映城乡商品零售价格变动趋势的一种经济指数。它的变动直接影响到城乡居民的生活支出和国家财政收入，影响居民购买力和市场供需平衡以

70、及消费和积累的比例。是观察和分析经济活动的重要工具之一；零售价格指数资料是采用分层抽样的方法取得（2）消费价格指数：反映一定时期内城乡居民所购买的生活消费品价格和服务项目价格的变动趋势和程度；作用：a、反映通货膨胀状况100基期消费价格指数基期消费价格指数报告期消费价格指数通货膨胀率%100基期消费价格指数基期消费价格指数报告期消费价格指数通货膨胀率b、反映货币购买力变动c、反映对职工实际工资的影响d、用于缩减经济序列（3）生产价格指数：测量在初级市场上出售的货物(即在非零售市场上首次购买某种商品时 ) 的价格变动的一种价格指数（4）股票价格指数：反映某一股票市场上多种股票价格变动趋势的一种相

71、对数，简称股价指数；其单位一般用“点”表示。计算时一般以发行量为权数进行加权综合。其公式为七、多指标综合评价指数的构建（1）多指标综合评价指数是利用指数的思想与方法，将所选择的有代表性的若干个指标综合成一个指数，从而对事物发展的状况作出综合的评判（2）构建指数的一般问题?进行理论研究，其中包括统计指标理论以及指标体系的理论研究，以便为确定所需的评价指标提供一定的理论依据?建立科学的评价指标体系。所建立的指标体系是否科学和合理，直接关系到评价结果的科学性和准确性。?评价方法研究，主要包括综合评价指数的构造方法、指标的赋权方法以及各种评价方法的比较等。统计学重要公式组距分组中的组数：组距 ( 最

72、大值 - 最小值 ) 组数茎叶图最大行数不超过：L = 10 lg(n) 中位数：原始数据：顺序数据：%100居民消费价格指数货币购买力指数%1001居民消费价格指数货币购买力指数消费价格指数名义工资实际工资消费价格指数名义工资实际工资iiiip01iiiipqpqpI01lg(lg()2lg()lg(1nK21n中位数位置21n中位数位置2n中位数位置2n中位数位置四分位数：原始数据：顺序数据：均值：简单均值：加权均值：调和平均数：几何平均数异种比率：四分位差：QD= QU QL 极差： R = max(xi) - min(xi) 平均差：分组数据：未分组数据：方差：分组数据：

73、未分组数据：标准差：分组数据：未分组数据：标准分数：离散系数：偏态系数：未分组数据：分组数据：4) 1( 341nQnQUL位置位置4)1(341nQnQUL位置位置434nQnQUL位置位置434nQnQUL位置位置nxniin121nxnxxxxniin121kiikkk1212211nfMffffMfMfMxkiiikkk1212211iiiiiiiimiiiiiiiimffMMfMfMHnniinnm121nniinnmxxxxG121imimirimimirfffffv1kiiid1nfxMMkiiid1nid1nxxMniid1122nii1)(122nxxsnii122k

74、iii1)(122nfxMskiii1nii1)(12nxxsnii12kii1)(12nfxMskiiiiisxxziisxsvs3i33)2)(1(snnxxnSKi313kiii313)(nsfxMSKkiii4224) 1(nii4224)3)(2)(1()1()(3)() 1(snnnnxxxxnnKii峰态系数 : 未分组数据：分组数据 : 概率密度函数：f(x) = 随机变量X 的频数； = 总体方差； =3.14159; e = 2.71828 ；x = 随机变量的取值 (- x )； = 总体均值标准正态分布的概率密度函数：时间序列的分解模型：乘法模型：Yi=TiSiCiI

75、i；加法模型：Yi=Ti+Si+Ci+Ii环比增长率：报告期水平与前一期水平之比减1 定基增长率：报告期水平与某一固定时期水平之比减1 平均增长率：年度化增长率?m 为一年中的时期个数；n 为所跨的时期总数?季度增长率被年度化时，m 4 ?月增长率被年度化时，m 12 ?当m n 时，上述公式就是年增长率简单移动平均：设移动间隔为K(1kt)，则t期的移动平均值为预测误差用均方误差(MSE) 来衡量414kiii3)(414nsfxMKkiiixx2221xxfx,e21)(2221xx22xxx,e21)(221iii), 2, 1(11niYYGiii),2, 10nii),2,

76、1(10niYYGii0111201nnniinnn),2, 1(1110111201niYYYYYYYYYYGnnniinnn11nmiiA11nmiiAYYG100%1前期水平绝对值增长kYYYYYttktktt121误差个数误差平方和误差个数误差平方和MSE一次指数平滑：线性趋势方程的形式为最小二乘法：预测误差可用估计标准误差来衡量：m为趋势方程中未知常数的个数修正指数曲线将时间序列观察值等分为三个部分，每部分有m个时期设观察值的三个局部总和分别为S1，S2，S3根据三和法求得：加权综合指数：拉氏指数：质量指数：数量指数：0001qpqpIp0010qpqpIqtttF)(1tttF

77、YF)1(11t)()1(1tttttttttFYFFFYFYFtbtaYt?22tbYattnYttYnb22sYmnYYsniiiY12)?(ttttabKY?mmttmmttmtt312321211mmttmmttmttYSYSYS312321211,1111121211223bbbbmmm11111121211223bbabSmKbbbSSaSSSSbmmm帕氏指数：质量指数：数量指数：加权平均指数：基期总量加权的平均指数：质量指数数量指数：报告期总量加权的平均指数：质量指数：数量指数：总量指数：个体总量指数：综合总量指数：加权综合指数体系：相对数关系：绝对数关系：加权平均

78、指数体系：相对数关系：1011qpqpIp0111qpqpIq000001qpqpppIp000001qpqpqqIq1101111qpppqpIp1101111qpqqqpIq0011qpqpIv0011qpqpIv001010110011qpqpqpqpqpqp001010110011qpqpqpqpqpqp11011100000100111qpppqpqpqpqqqpqp绝对数关系：综合评价指数：统计标准化：极值标准化：定基转换：环比转换：11011100000100111qpppqpqpqpqqqpqpXXZii)m in()m ax ()m in(iiiiiXXXXZ%1001iiiXXZ%1000XXZii

展开阅读全文

统计学贾俊平考研知识点总结

最新文档