华中科技大学统计学课件

资源描述

《华中科技大学统计学课件》由会员分享，可在线阅读，更多相关《华中科技大学统计学课件（622页珍藏版）》请在金锄头文库上搜索。

1、统计学原理?唐跃志tangyz_Tel:027-62589359参考教材n黄良文、曾五一统计学原理。n贾俊平、何效群、金勇进统计学。n佐和隆光数量经济分析基础统计学原理学习目标n了解统计的作用。n掌握统计学的基本原理和基本方法。n使用统计方法，对所研究的对象，进行数量分析。统计学原理总目录nCh1 统计学的对象和方法统计学的对象和方法nCh2 统计数据与统计调查统计数据与统计调查nCh3 数据的整理与描述数据的整理与描述nCh4 统计分布的数值特征统计分布的数值特征nCh5 抽样和抽样分布抽样和抽样分布nCh6 统计推断统计推断nCh7 相关与回归分析相关与回归分析nCh8 统计指数统计指数n

2、Ch9 时间序列分析时间序列分析nCh10 统计预测与预警分析统计预测与预警分析统计学原理Ch1统计学的对象和方法统计学原理统计学原理n1.1统计与统计学n1.2统计学的分科(new)n1.3统计学与其他学科的关系(new)n1.4统计学的方法n1.5统计学的产生和发展(new)主要介绍：统计与统计学，统计的历史，统计的作用，统计的特点，统计的基本方法。Ch1主要内容Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产

3、生和发展统计学的产生和发展(new)Ch1 学习目的学习目的1，掌握统计学的对象和性质2，掌握统计学的基本范畴3，掌握统计学的方法Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)Ch1统计学的对象和方法统计学原理统计学原理1.1统计与统计学1.2统计学的分科(new)1.3统计学与其他学科的关系(new)1.4统计学的方法1.5统计学的产生和发展(new)1.1 统计与统计学统计

4、与统计学1.1.1统计与统计研究对象1.1.2统计（研究对象数据）的特点1.1.3统计学的作用Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)返回n一、统计问题n在了解什么是统计之前，先看几个问题问题。n【例1-1】市场研究。面对变化多端、杂乱无章的市场数据，作为一个理性的投资者，最迫切最需要掌握的，理所当然就是市场的变化规律。但是，怎样去认识掌握这个多变的市场运动规律呢？这个市

5、场规律市场规律，有什么特点？图图1-1 *股票价格走势图股票价格走势图Kt112014015601005t1080202530160Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象n【例1-2】市场经济国家收入的负幂分配负幂分配现象。也称为帕累托统计分布规律。意大利经济学家帕累托发现，各国的经济制度虽然不同，但收入分配却有共同的规律，它可以写成 N= N0 X -b，b0. N0其中为人口总数，X为收入水平，N为收入不少于X之人数。n市场经济国家的收入分配，为什么存在帕累托分布规律？帕累托分布规律是怎样发现的？帕累托

6、分布帕累托分布现象，是偶然的现象还是必然的现象？Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象图图12 负幂分布与两级分化图负幂分布与两级分化图两级分化两级分化0Nxx负幂分布负幂分布0Nn【例1-3】市场经济国家收入的两级分化两级分化问题。帕累托的研究还发现，如果将社会人口由富人到穷人依次排列，占人口比重较大的低收入人口，没有取得与人口比重相应的社会收入，相反，占人口比重较小的高收入人口，却取得了社会收入的较大份额。这种现象也叫收入的两级分化。为什么会出现收入的两级分化？帕累托分布规律与收入的两级分化是什么关系？

7、n【例1-4】如何去发现存在于客观现象内部的、类似于帕累托分布律的其他统计规律其他统计规律？等等。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象n如何去发现任意领域的经验规律？n（不知因果关系）n第1步“猜测”！n第2步科学总结！n第3步统计！n“猜测”！科学总结！统计！Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象二，统计就是以客观现象的数量关系和数量特征为研究对象，通过搜集、整理、归纳和分析等手段，探索总结客观数据现象的内在规律性，

8、以达到对客观事物的科学认识，并最终获得客观现象规律性表现的统计解释。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象图图13 统计现象与统计数据统计现象与统计数据数据统计数据统计数据规律数据规律现象分析现象分析现象规律现象规律统计过程统计过程二，统计统计是认识最直接、最有效的手段。统计是科学总结的基础。统计的用途很广。统计学是经济研究最常用的工具。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象图图13 统计现象与统计数据统计现象与统计数据

9、数据统计数据统计数据规律数据规律现象分析现象分析现象规律现象规律统计过程统计过程1.1.1 统计与统计研究对象统计与统计研究对象三，统计数据和统计定律利用统计方法搜集到的现象数据，叫做统计数据；利用统计数据归纳发现的经验规律，叫统计定律。帕累托分布和收入的两级分化，就是统计归纳发现的经济现象的统计定律。统计定律，是客观规律的近似反映。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学四，统计研究对象统计的研究对象：是客观现象的数量关系和数量特征，客观统计数据。客观现象的统计数据，是统计研究的基础和出发点。没有统计数据，就无法进行统计研究。统计的作用，就是利用统计数据

10、，充分发现、提出现象的统计规律性，并试图问为什么有此规律。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象图图13 统计现象与统计数据统计现象与统计数据数据统计数据统计数据规律数据规律现象分析现象分析现象规律现象规律统计过程统计过程五，统计过程与统计学统计学统计学，就是关于如何搜集、整理、归纳和分析客观数据的方法论科学。或者说，统计学是关于数据分析的科学，是关于研究现象数量表现的科学。统计过程统计过程搜集数据.整理数据.归纳数据.分析数据.其中：1，数据搜集：主要通过调查与实验，来获得所需要的数据。2，数据的整理：通

11、过数据的分组或者分类技术，获得现象的差异性认识。3，数据的归纳、展示：主要是利用图表技术，展示现象的特征特点。4，数据分析：通过各种分析方法，寻找现象之间的相互联系。Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象六，统计的历史作用作用英国的威廉配第(W.Petty，16231687)，利用统计方法，研究了十七世纪中叶的英国、法国、荷兰的“财富和力量”对比；英国的约翰格朗特(J.Graurt，16201674)，则利用统计图表，研究并发现了一系列人口演变规律；法国的拉普拉斯(P.S.Laplace，17491827)

12、，利用统计数据，推算了法国的人口数；比利时的凯特勒(A.Quetelet，17961874)，应用概率统计，研究了犯罪、人口、寿命等社会问题的成因；英国学者高尔顿(F.Galton，18761937)与皮尔逊(K.Pearson，18571936)，则利用了统计技术，研究并发现了遗传学领域的“回归”定律；Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学1.1.1 统计与统计研究对象统计与统计研究对象返回统计学是研究数量表现的学科。但它的研究对象却有自身的特点特点。数量性：统计数据是反映客观现实的具体数量，而非抽象的量。总体性：统计数据是反映现象总体数量特征的数据，

13、其研究及成果是一个总体研究，而非个别研究。变异性：统计研究的是同类现象总体的数量特征；但这些总体单位的特征表现是有差异的；其差异的来源是随机因素，而非特定原因。1.1.2 统计（研究对统计（研究对象象统计数据）的特点统计数据）的特点Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与统计学返回一、统计学的特点统计学是研究数据数量表现的学科。统计是一个定量研究。这个定量研究，具有客观、精确和可检验的特点，所以，统计方法就成为实证研究的最重要方法。统计学可以应用于所有的领域。在统计学基础上，发展起来的应用学科相当多。1.1.3 统计学的作用统计学的作用Ch1 统计学的对象和方法

14、统计学的对象和方法 1.1 统计与统计学统计与统计学二、统计学的作用统计的作用，概括起来一般为以下三点：1，理论安排。几乎所有的科学实验，都把统计方法作为认知的有效手段。比如，在实验前，利用统计方法，做出科学的实验安排。2，理论归纳。在实验中，依靠统计分析显示事物之间的关系及规律性。特别是，当人们对现象的规律一无所知或者知之甚少时，统计可以帮助我们找到的规律的线索，指明研究的方向，并利用规律，解决前进过程中出现的新情况新问题。3，理论检验。在实验后，对实验结果做出解释，并检验它的正确性。1.1.3 统计学的作用统计学的作用Ch1 统计学的对象和方法统计学的对象和方法 1.1 统计与统计学统计与

15、统计学返回1.2 统计学的分科统计学的分科1.2.1描述统计学与推断统计学1.2.2理论统计学与应用统计学Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)返回一、描述统计与推断统计统计学早期的研究方法，侧重于对现象总体数量特征的描述和对比，称为描述统计学。20世纪20年代以后，其研究方法发展为，以随机抽样为基础，对总体数量特征的推断，称为推断统计学。1.2.1 描述统计与推断统计

16、描述统计与推断统计Ch1 统计学的对象和方法统计学的对象和方法 1.2 统计学的分科统计学的分科(new)二、描述统计与推断统计的关系关系1.2.1 描述统计与推断统计描述统计与推断统计描述统计描述统计随机理论总体内在的数量规律性，F(x；)统计整理和统计描述总体数据样本数据图图14 描述统计与推断统计的关系描述统计与推断统计的关系抽样估计和统计推断反映客观现象的统计数据样本数据推断统计推断统计Ch1 统计学的对象和方法统计学的对象和方法 1.2 统计学的分科统计学的分科(new)返回一、理论统计学与应用统计学理理论论统统计计学学，是把研究对象一般化、抽象化，以概率论为

17、基础，对统计方法加以论证。理论统计学的中心内容是统计推断，实质上是用归纳方法，研究随机变量的一般规律。例如，统计分布理论，统计估计与假设检验理论，相关与回归分析，方差分析，时间序列分析，随机过程理论，等等。应应用用统统计计学学，是从研究领域和专门的问题出发，针对研究对象的性质，采用适当的指标体系和统计方法，解决所要研究的问题。例如，工程统计，医学统计，社会统计，经济统计，等等。1.2.2 理论统计学与应用统计学理论统计学与应用统计学Ch1 统计学的对象和方法统计学的对象和方法 1.2 统计学的分科统计学的分科(new)二、理论统计学与应用统计学的区别区别：第一，理论统计学以方法为中心，建立统计

18、指标体系，并在各种方法项下阐明所能解决的问题；方法问题.应用统计学则以问题为中心，建立专门的统计指标体系，并在各种问题项下阐明所能解决的问题。问题方法.第二，理论统计学从事随机变量的数学分析；应用统计学不仅从事数量分析，还要进行质量分析。1.2.2 理论统计学与应用统计学理论统计学与应用统计学Ch1 统计学的对象和方法统计学的对象和方法 1.2 统计学的分科统计学的分科(new)返回1.3 统计学与其统计学与其他学科的关系他学科的关系1.3.1统计学与数学的关系1.3.2统计学与其他学科的关系Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学

19、的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)返回一、统计学与数学的关系统计学几乎可以应应用用于所有领域。统计学是研究数据数量表现的学科，但它与数学有本质的区别与联系。二、统计学与数学的联系联系: 统计学使用大量的数学知识。数学为统计理论、统计方法的发展提供了数学基础。不能将统计学等同于数学。1.3.1 统计学与数学的关系统计学与数学的关系Ch1 统计学的对象和方法统计学的对象和方法1.3 统计学与其他学科的关系统计学与其他学科的关系(new)三、统计学与数学的区别区别：

20、数学研究的是抽象的数量关系，统计学研究具体、实际的数量关系; 数学研究的是没有量纲或者单位的抽象数，统计学研究具体实物或者有单位的数据; 统计学与数学的逻辑方法不同, 数学使用的是演绎方法; 统计学使用的是演绎与归纳相结合的方法，但以归纳方法为主。1.3.1 统计学与数学的关系统计学与数学的关系Ch1 统计学的对象和方法统计学的对象和方法1.3 统计学与其他学科的关系统计学与其他学科的关系(new)四、数学与统计学的逻辑逻辑体系1.3.1 统计学与数学的关系统计学与数学的关系图图15 数学与统计学的逻辑体系数学与统计学的逻辑体系演绎方法演绎方法归纳方法归纳方法AABB必然必然可能可能数学数学统

21、计学统计学Ch1 统计学的对象和方法统计学的对象和方法1.3 统计学与其他学科的关系统计学与其他学科的关系(new)返回一、统计学与与其他学科的关系1.3.2 统计学与其他学科的关系统计学与其他学科的关系Ch1 统计学的对象和方法统计学的对象和方法1.3 统计学与其他学科的关系统计学与其他学科的关系(new)返回1.4 统计学的方法统计学的方法1.4.1大数定律的方法论意义1.4.2统计研究基本方法1.4.3理论假设与现实统计的距离Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科

22、的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)返回一、大数定律：统计研究现象总体的数量特征，所用方法与数量的总体性有关，其依据是大数定律。大数定律大数定律，亦称大数法则；它是指大量随机现象的平均结果一定是稳定的。比如：在一定时期内，每个人的身高是不一样的；但是社会人群的平均身高值，却会在相当长的一段时间内，维持一个比较稳定的数值。1.4.1 大数定律的方法论意义大数定律的方法论意义Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法二、大数定律的几何解释几何解释研究方向研究方向1.4.1 大数定律的方法论意义大

23、数定律的方法论意义Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法图图16 大数定律的几何解释大数定律的几何解释0身高的分布身高的分布平均身高平均身高身高身高三、大数定律的方法论意义方法论意义现象总体的某种规律，只有该现象总体的数量足够多的时后，才能显现出来；现象的某种总体规律，通常以平均数的形式表现出来；所研究现象总体包含的单位数越多，平均数就越能正确的反映这些现象的规律性；各单位的共同倾向决定着平均数的水平，而单位对平均数离差的影响则不大。 1.4.1 大数定律的方法论意义大数定律的方法论意义Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统

24、计学的方法返回一、统计学的基本方法基本方法统计研究方法，主要有：实验设计，大量观察，统计描述，统计推断。其中，统计推断，又包括参数估计和假设检验。1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法二、实验设计实验设计：就是设计实验的合理程序，使得搜集到的数据满足统计分析的需要。实验设计三原则：重复性原则：即允许在相同条件下重复进行多次实验。随机性原则：在实验设计中，对实验对象的分配和实验次数都是按随机安排的。区组化原则：利用类型分组技术，对实验对象按有关标志顺序排队，然后依次将各单位随机地分配到各组，使各组组内标志值的差异

25、相对扩大，而组间的差异相对的小。具体方法：室内实验法；市场实验法；1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法三、大量观察法大量观察法：就总体中的全部或者足够多的单位进行观察，并加以综合研究。具体方法：普查；抽样调查；统计报表调查；重点调查。1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法四、统计描述统计描述：对数据进行登记，审核，整理，归类，计算出能反映总体数量特征的综合指标，并加以分析，从中抽出有用的信息，用表格和图像表示出来。具体方法：分

26、组法：研究总体差异。综合指标法：用指标反映特征。统计模型法：用数学方程模拟客观现象。具体内容：搜集数据；整理数据；描述数据特征；找出数据的基本规律。1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法统计分布统计分布五、统计推断统计推断：以一定的置信标准要求，根据样本数据来判断总体数量特征的归纳推理方法。具体方法：参数估计法：在一定置信（风险）下，用样本数据去估计总体数量特征。假设检验法：在一定置信标准（风险假设）下，用样本数据去检验总体数量特征。如果样本数据满足假设要求则假设得证；反之，否定假设。1.4.2 统计学的基本方

27、法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法六、统计方法使用的一般原则原则：一个具体的统计问题，应该使用何种统计方法，与统计问题所处的研究阶段有关。统计研究过程的各个阶段，从统计资料的搜集、数据的整理汇总，以至统计分析检验，都有专门的方法。在资料搜集时，对于无法从实验取得资料的现象，一般应用大量观察法；对于可以通过实验取得资料的现象，一般应建立在合理的试验设计基础上；在数据的整理和汇总时，则多使用统计描述法；而在统计分析和检验时，则主要使用统计推断法。1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1

28、.4 统计学的方法统计学的方法七、统计方法使用原则图解图解：1.4.2 统计学的基本方法统计学的基本方法Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法图图17 统计方法及其相互关系统计方法及其相互关系统计方法统计方法实验设计实验设计大量观察大量观察统计描述统计描述统计推断统计推断假设检验假设检验参数估计参数估计资料搜集资料搜集数据整理和汇总数据整理和汇总统计分析与检验统计分析与检验统计过程统计过程返回一、理论与现实的距离问题问题：统计分析的前提是，假定现象规律和数据规律存在高度的对称性。在此前提下，才有可能通过部分数据的归纳，总结出现象的规律性；并以此为依旧，检

29、验原有假设的正确与否。但事实上，实证结果与理论假设常常存在较大的偏差。是什么原因造成如此大的偏差呢？这里的解释无外乎有两种：一是统计数据的代表性不够，出现了通常讲的统计假象；二是理论本身就存在不足，或者干脆有错误，因此，理所当然就存在偏差问题。因此，从这个意义上说，统计可以对理论进行实证检验。1.4.3 理论假设与统理论假设与统计现实的距离计现实的距离Ch1 统计学的对象和方法统计学的对象和方法 1.4 统计学的方法统计学的方法图图18 理论与现实的距离理论与现实的距离理论分布理论分布统计分布统计分布返回1.5 统计学的产统计学的产生和发展生和发展1.5.1政治算术社会经济统计1.5.2概率论

30、数理统计Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)返回一、政治算术社会经济统计的历史政治算术学派，产生于17世纪的英国。该学派代表人物，是威廉配第(W.Petty，1623-1687)和约翰格朗特(J.Graurt，1620-1674)。1.5.1 政治算术政治算术社会经济统计社会经济统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计学的产生和发

31、展(new)二、威廉配第(W.Petty，1623-1687)在政治算术一书中，开天辟地地使用数量对比的方法，分析了十七世纪中叶，英国、法国、荷兰三国的“财富和力量”状况，论证当时英国的国际地位并不悲观。因为他在政治算术中提出了“劳动价值论”的观点，马克思称他为“政治经济学之父”；又因为他第一个用数字、重量和尺度，作为论据的方法来论证想说明的问题，又被后人称为统计学的创始人创始人。1.5.1 政治算术政治算术社会经济统计社会经济统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计学的产生和发展(new)三、约翰格朗特(J.Graurt，1620-1674)通过大量的观

32、察，研究并发现了一系列人人口口统统计计规规律律。如，男婴出生多于女婴，基本上为14：13；男性的死亡率高于女性；新生儿在大城市的死亡率较高；一般疾病和事故的死亡率较稳定，而传染病的死亡率波动较大；等等。在对死亡表的自然和政治观察中，格朗特根据当时伦敦发表的人口公报，分析了人口出生和死亡的关系，如性别比例关系，不同死因的死亡人数占死亡人数的比重等。在具体分析方法中，他采用了具有现代统计学意义的数量分析法；在方法论上，开创了现代统计分析方法的先河。因此被认为是统计学的正宗。1.5.1 政治算术政治算术社会经济统计社会经济统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计

33、学的产生和发展(new)返回一、概率论数理统计的历史政治算术学派，以社会经济现象为研究对象，属于实质性科学，至于统计方法，仅仅属于所使用的工具而已。到了18世纪，作为数学分支的概率论，被引入统计学，形成了数理统计学派，从而使统计学方法产生了重大进步。数理统计，是以随机现象为研究对象。它是对统计方法的科学性进行论证的一个专门性学科。代表人物有法国数学家拉普拉斯(P.S.Laplace，17491827) ，比利时统计学家阿道夫凯特勒(A.Quetelet，17961874)，。1.5.2 概率论概率论数理统计数理统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计学的产

34、生和发展(new)二、拉普拉斯(P.S.Laplace，17491827)他以大数定律为桥梁，将概率论与政治算术联系起来，通过对法国17991802年间30个县市人口的抽样资料，推算了法国的人口数，并指出其可能的误差区间，这在统计方法论上，具有开创性意义。三、阿道夫凯特勒(A.Quetelet，17961874)凯特勒发展了大量观察法。凯特勒指出，随机偶然现象中存在必然规律，这些规律可以通过大量观察、实验显示出来，其具体存在形式就是概率。凯特勒还广泛应用概率论，研究社会问题，如犯罪、人口、寿命等问题。由于其在应用数理统计在实际工作中的贡献，有人推崇他为现代统计学之父。1.5.2 概率论概率论数

35、理统计数理统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计学的产生和发展(new)四、数理统计方法的发展在社会科学和自然科学等各个领域得到了广泛应用。数理统计学早期的研究方法，侧重于对现象总体数量特征的描述和对比，称为描述统计学。20世纪20年代以后，其研究方法发展为，以随机抽样为基础，对总体数量特征的推断，称为推断统计学。1.5.2 概率论概率论数理统计数理统计Ch1 统计学的对象和方法统计学的对象和方法1.5 统计学的产生和发展统计学的产生和发展(new)返回Ch1 内容小结内容小结1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.

36、3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发展(new)Ch1 Ch1 统计学的对象和方法统计学的对象和方法统计学的对象和方法统计学的对象和方法Ch2统计数据与统计调查介绍如何把一个研究对象，抽象成一个数据集。以及通过何种方法去获得所需要的数据。下一章下一章Ch1 统计学的对象和方法统计学的对象和方法1.1 统计与统计学统计与统计学1.2 统计学的分科统计学的分科(new)1.3 统计学与其他学科的关系统计学与其他学科的关系(new)1.4 统计学的方法统计学的方法1.5 统计学的产生和发展统计学的产生和发

37、展(new)思考与练习思考与练习1.1、什么是统计？统计有何作用？、什么是统计？统计有何作用？1.2、统计学的研究对象是什么？统计研究对象有何特点？、统计学的研究对象是什么？统计研究对象有何特点？1.3、什么叫统计定律？统计定律在认识中有何作用？、什么叫统计定律？统计定律在认识中有何作用？1.4、什么是统计工作过程？其包含哪些内容？、什么是统计工作过程？其包含哪些内容？ 1.5、如何理解统计学与数学的关系？、如何理解统计学与数学的关系？1.6、什么是大数定律？大数定律的方法论意义是什么？、什么是大数定律？大数定律的方法论意义是什么？1.7、什么是实验设计？实验设计要遵循哪些原则？、什么是实验设

38、计？实验设计要遵循哪些原则？1.8、什么是统计分组？什么是统计模型？、什么是统计分组？什么是统计模型？1.9、什么是统计推断？它和统计描述的关系任何？、什么是统计推断？它和统计描述的关系任何？1.10、结合统计工作过程，简述统计方法使用的基本原则。、结合统计工作过程，简述统计方法使用的基本原则。1.11、从历史的发展来看，统计学的性质有哪些变化？、从历史的发展来看，统计学的性质有哪些变化？1.12、如何理解理论假设与统计现实的距离问题？、如何理解理论假设与统计现实的距离问题？ Ch1 Ch1 统计学的对象和方法统计学的对象和方法统计学的对象和方法统计学的对象和方法Ch3 统计的整理与描述统计的

39、整理与描述统计学原理统计学原理n3.1统计数据的预处理(new)n3.2品质数据的整理与描述(new)n3.3数字数据的整理与描述(new)n3.4统计分组（类）n3.5统计整理的应用(new)介绍如何整理数据，以及利用何种技术描述整理的结果。统计整理的目目的的，就是要把无无规规的数据变成有规有规的数据。数据整整理理，通常包括：数据的预处理、分类或者分组、汇总等内容，它是统计分析的必要步骤。其中，统计分组，是统计整理的核心。有规的数据的描描述述，通常是用统计图和统计表来完成。Ch3 主要内容主要内容Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2

40、品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)Ch3 学习要求学习要求1，掌握统计整理的程序2，掌握统计分组（类）技术3，掌握统计图（表）技术Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)Ch3 统计的整理与描述

41、统计的整理与描述3.1统计数据的预处理(new)3.2品质数据的整理与描述(new)3.3数字数据的整理与描述(new)3.4统计分组（类）3.5统计整理的应用(new)统计学原理统计学原理3.1 统计数据的预统计数据的预处理处理3.1.1数据的审核与筛选3.1.2统计数据的排序3.1.3数据的排序方法Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)返回一，

42、统计整理综述统计整理的目的目的：无规无规的数据变成有规有规的数据。数据整理整理：数据的预处理分类或分组分类或分组汇总编制统计图表。它是统计分析的必要步骤。其中，统计分组，是统计整理的核心。数据的审核和筛选，是统计整理的基础。有规的数据的描述描述，通常是用统计图（表）来完成。3.1.1 数据的审核与筛选数据的审核与筛选 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)二，审核与筛选目的目的以保证数据的质量，为下一步的整理分析打好基础。从不同的渠道取得的统计数据，其审核的内容和方法有所不同；不同类型的统计数据，在审核内容和方法上有所差异。数据的审核与筛选

43、，包括原始数据和第二手数据的审核与筛选。3.1.1 数据的审核与筛选数据的审核与筛选 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)三，原始数据审核审核内容：完整性和准确性。完整性审核，主要是检查应调查的单位是否有遗漏，所有的调查项目或指标是否填写齐全等。准确性审核，主要包括两个方面：一是检查数据资料，是否真实地反映了客观实际情况，内容是否符号实际；二是检查数据是否有错误，计算是否正确等。审核数据准确性的方法方法，主要有逻辑检查和计算检查。逻辑检查，主要是从定性角度审核数据是否符合逻辑，内容是否合理，各项目或数字之间有无矛盾。逻辑检查，主要用于品质数

44、据的审核。计算检查，是检查调查表中的各项数据在计算方法上有无错误。计算检查，主要用于数值数据的审核。3.1.1 数据的审核与筛选数据的审核与筛选 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)四，第二手数据审核内容：完整性和准确性，适用性和时效性。首先要弄清数据的来源、数据的口径以及有关的背景材料，以确定这些数据，是否符合分析研究的需要，是否需要重新加工整理等，不能盲目生搬硬套。对数据的时效性进行审核，有些时效性很强的问题，如果所取得的数据过于滞后，就失去了研究的意义。一般来说，应尽可能使用最新的数据。数据经过审核后，确认适合实际需要，才能进行进一步

45、的加工整理。3.1.1 数据的审核与筛选数据的审核与筛选 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)五，数据筛选筛选对审核过程中发现的错误应及时纠正。当数据中发现的错误不能纠正，或者有些数据不符合调查的要求而又无法弥补时，就需要对数据进行筛选。数据筛选，包括两方面内容：一是将某些不符合要求的数据或者有明显错误的数据予以剔除；二是将符合某种特定条件的数据筛选出来，对不符合特定条件的数据予以剔除。数据的筛选，在市场调查中有特殊的意义。3.1.1 数据的审核与筛选数据的审核与筛选 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据

46、的预处理(new)返回一，数据的排序排序数据的排序，就是按一定的顺序将数据进行排列。简言之，就是对于一个给定的序i和给定序列 xi：i=1,2,n.(3.1.1)如何确定一组具体的数据Y1，Y2，Y3，Ym-1，Ym;,n m.的某一个数值，在这个xi序列中的位置。一般地，值相同数据占据相同的位置，值不同数据则有不同的序。3.1.2 统计统计数据的排序数据的排序 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)二，排序的目的目的通过排序，发发现现数据的一些明显特征和趋势，找到解决问题的线索。除此外，排序还有助于对数据检查纠纠错错，为重新归类或者分组提供

47、依据。在某些场合，排序本身就是分析的目的之一。例如，了解谁是中国家电生产的三巨头，对于家电生产商而言是非常重要的信息。美国财富杂志每年都要排出世界500强企业，通过这一信息，经营者不仅可以了解自己所处的地位，清楚自己的差距，还可以了解竞争对手的状况，从而有效地制定企业发展的规划和战略目标。3.1.2 统计统计数据的排序数据的排序 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)三，数据的排序方式数据序列，一般有三种排列，即递增序列、递减序列和随机序列。递增序列，即序列xi一般有 x1x2x3x4x5xn-1xn;(3.1.2)递减序列，即序列xi一般有

48、 x1x2x3x4x5xn-1xn;(3.1.3)随机序列，即序列xi一般有 x1x2x3x4x5xn-1xn;(3.1.4)即各个xi的i只表示它们是不同的数值，共有n个数据，除此以外，别无其他的意思。3.1.2 统计统计数据的排序数据的排序 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)四，数据的一般排序方式一般序列，主要是递增序列或随机序列。排序后的标志变量，通称为标志变量序列。标志变量序列一般是指递增序列。它一般表示是 xi：i=1,2,n.(3.1.5)其中：i代表序号，通常为升序自然数排列。对于标志变量序列，当然有， x1x2x3x4x5

49、xn-1xn;。3.1.2 统计统计数据的排序数据的排序 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)返回一，排序的方法数据的排序，首先要确定排排序序的的标标志志，然后根据标标志志的的特特点点，确定排序的方法。原则是：根据标志值的大小，来确定数据序序的的方方向向，然后根据序的方向，确定某一个数据在这个序序中中的的位位置置。简言之，就是先确定标志序，然后确定数据序。不同类型的数据，其排序方法是不同的。无论是定性数据还是数字型数据，排序均可借助于计算机完成。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数

50、据的预处理统计数据的预处理(new)二，定类数据的排序(1)由于定类数据值本身，并不是一个数值，而是一个文字数据，定类数据的值之间，也不存在绝对的大小序关系，而只是一个属于或者不属于的归归属属关关系系，因此，定类数据的排序，不能完全按值的大小确定排序的方向。通常的做法是，按字母做升升序序或或者者降降序序排列，或者按笔画或者其他什么约定，做升序或者降序排列。总而言之，定类数据的排序，相对比较自由自由。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)【例3-1】为了研究广告市场的状况，某公司在某城市随机调查了200

51、个市民，其中的一个问题是：“您比较关心下列哪一类广告？”商品广告，服务广告，金融广告，房地产广告，招生招聘广告，其他广告。试对其进行排序。解：这里数据为200个居民的回答数据，共200个。这200个数据的排序，应先选择排序标志排序标志。由于这200个数据均从属于“广告类型”变量集，即商品广告，服务广告，金融广告，房地产广告，招生招聘广告，其他广告显然，i=1,2,3,4,5,6。因此，可以选择“广告类型”变量为排序标志，“广告类型”为定类变量，不同类型的广告就是变量值。由于广告变量值并不是一个数字，而是一个文字数据，广告变量值之间，也不存在绝对的大小序关系，而只是一个属于或者不属于的归属关系，

52、因此，可以指定 x1=“商品广告”，x2=“服务广告”，x3=“金融广告”， x4=“房地产广告”，x5=“招生招聘广告”，x6=“其他广告”。根据标志序列xi，进一步确定200个回答数据的归属，就就可以确立每一个回答数据在xi中的位置。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)三，定序数据的排序(1)定序数据依然是文字数据，虽然定序数据的值之间，不存在绝对的大小关系，但存在一个类似大小的优于关系。优于关系优于关系可以用“”表示，它基本与“”等价。即定序数据序列xi，都存在如下序关系 x1x2x3x4x5

53、xn-1xn;且这种序关系常常与人们的价值观价值观一致。因此，可以根据人们的价值观，确定定序数据的序位置。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)【例3-2】在一项有关住房问题的研究中，研究人员在某城市随机调查了300户居民，其中的一个问题是“您对您目前的住房状况是否满意？”非常不满意，不满意，一般，满意，非常满意。试对其进行排序。解：这里数据为居民的回答数据，共300个。这300个数据的排序，应先选择排序标志。由于这300个数据，均从属于“满意程度类型”变量集，即非常不满意，不满意，一般，满意，非常满

54、意显然，i=1,2,3,4,5。因此，可以选择“满意程度”为排序标志，“满意程度”为定序变量，不同类型的满意值就是变量值。但是这个定序变量，显然有非常不满意不满意一般满意非常满意于是，可令 x1=“非常不满意”，x2=“不满意”，x3=“一般”，x4=“满意”，x5=“非常满意”。再确定这300个数据的归属，就可完成它们的排序。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)四，定距数据和定比数据的排序定距数据和定比数据，都是数字数据。数字数据的数据值之间，一般存在大小的序关系序关系。因此，定距数据和定比数据的

55、排序，可以根据标标志志值值的大小，来确定数据序序的的方方向向，然后根据序的方向，确定某一个数据在这个序中的位置位置。定距数据和定比数据的排序，一般按递增递增方法排序。按递增要求排序后的数据，也称为顺序统计量。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)【例3-3】某班学生共55人，每个人的兴趣、爱好各异，初步判断与他们的性别和年龄有关。从年龄这个角度分组，发现这55人的年龄，主要集中在“18，19，20，21，22。”岁之间。试对其进行排序。解：这里数据为55个学生的兴趣、爱好数据，共55个。由于这55个数

56、据的结果与年龄有关。因此，数据的排序标志为“年龄”，“年龄变量”为排序标志变量，不同的年龄值就是变量值。即18，19，20，21，22显然有1819202122。于是，可令 x1=18，x2=19，x3=20，x4=21，x5=22。再确定这55个数据的归属，就可完成它们的排序。3.1.3 数据的排序方法数据的排序方法 Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)返回3.2 品质数据的整品质数据的整理与描述理与描述3.2.1定类数据的整理与描述3.2.2定序数据的整理与描述Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预

57、处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)返回3.2.1 定类数据的整理与描述定类数据的整理与描述一、分组与分类数据经过预处理后，可进一步做分类或者分组整理。所谓分分类类（组组），就是值相同的数据归为同一个组，值不同的数据则归为不同的类。在对数据进行整理时，应首先弄清数据的类型，因为不同类型的数据所采取的整理方法是不同的。对品质数据主要做分类处理，对数值型数据则主要做分组处理。Ch3 统计的整理与描述统计的整理与描述3.2 品

58、质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述二、定类数据整理的程序定类数据本身就是对事物的一种分类。所以，在整理时，除了要列出所分的类别外，还要计算每一类别的频数、频率、比例、比率指标，同时选择适当的图形进行描述，以便对数据的特征有一个初步了解。Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述三、频数频数与频率分布频率分布频数也称次数，就是落在各类别中的数据个数。将各个类别及其频数对应地排列起来，就构成了频数分布或者次数分布。频数分布有两

59、个基本构成要素：一是分组标志序列xi，二是组的频数序列f i，或称次数序列。一般表示为标志序列xi：x1，x2，x3，x4，x5，xn-1，xn;(3.2.1)频数序列f i：f1，f2，f3，f4，f5，fn-1，fn;(3.2.2)其中，标志序列xi多为递增序列，而频数序列f i，则是根据分组的位置归类计算的结果，是一个指标变量随机序列。Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述三、频数与频率分布将频数分布用表格的形式表现出来，就是频数分布表。将频数分布用图形的形式表现出来，就是频频

60、数数分分布布图图。频数分布图也叫统计分布图。组数i 标志变量xi 频数fi向上累计频数Si=f1+f2+fi.频率1x1f1S1=f1.2x2f2S2=f1+f2.3x3f3S3=f1+f2+f3.n-1xn-1f n-1S n-1=f1+f2+fn-1.nXnf nS n=f1+f2+fn.-合计 f-表表34某某标志分组表标志分组表Xi ； f i；分组表统计图Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述三、频数与频率分布【例3-4】为了研究广告市场的状况，某广告公司在某城市随机调查了

61、200个市民，其中的一个问题是：“您比较关心下列哪一类广告？”商品广告，服务广告，金融广告，房地产广告，招生招聘广告，其他广告。根据广告标志整理后，得到市民关注的广告类型频数分布。组数i广告类型分组xi人数fi人数比fi/2001商品广告1120.5602服务广告510.2553金融广告90.0454房地产广告160.0805招生招聘广告100.0506其他广告20.010-合计2001.000市民关注的广告类型频数分布Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述三、频数与频率分布解：这里

62、的标志变量为“广告类型”，这是个定类变量，不同类型的广告就是变量值。即x1=“商品广告”，x2=“服务广告”，x3=“金融广告”，x4=“房地产广告”，x5=“招生招聘广告”，x6=“其他广告”。归类计算了200个市民的关心广告数据，求得了人数变量序列fi，即f1=112，f2=51，f3=9，f4=16，f5=10，f6=2。通过数据的整理，我们可以知道，某市居民对广告关注的重心归属于哪一类，以及它的分布结构。市民关注的广告类型频数分布图图31 居民关注广告的分布居民关注广告的分布9商品广告商品广告服务广告服务广告金融广告金融广告房地产广告房地产广告10162招生招聘广告招生招聘广告5111

63、2其他广告其他广告Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述四、统计条形图和统计柱形图用图形显示频数分布，比用频数分布表更加形象和直观。一张好的统计图，往往胜过冗长的文字表述。统计图的类型很多。多数可以用计算机完成。图31是统计图的一种。图31也叫统统计计条条形形图图。统计条形图，就是用宽度相同的条形高度或者长度来表示数据的变动。其横轴表示各类别数据的频数或者频率，通常条形的高度或长度表示频数或者频率的大小；而纵轴则表示各个类别。统计条形图可以横置，也可以纵置。横置时称为条形图，纵置时称

64、为柱柱形图形图。绘制条形图时，各类别可放在横轴，也可以放在纵轴。放在横轴时称为条形图，放在纵轴时称为柱形图。Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.1 定类数据的整理与描述定类数据的整理与描述四、统计条形图和统计柱形图【例3-5】某个学生班级55人，按性别标志归类统计后，得如下统计表。试编制其柱形图。解：以性别为横坐标，人数或者人数比重为纵坐标，在绘制纵横坐标的刻度后，标出各组别的数值，得某班学生性别分布柱形图3-2。某班学生性别分组表组数i性别xi人数fi人数比fi/2001男300.545452女250.45455-合计55

65、1.00000频率频率%频数（人）频数（人）图图32 某班学生性别分布柱形图某班学生性别分布柱形图女女性别510152025男男45.4518.1827.2736.3654.549.09300Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)返回3.2.2 定序数据的整理与描述定序数据的整理与描述一、累计频数和累计频率前面介绍的定类数据的整理与描述方法，也都适用于定序数据。但有些方法，只适用于定序数据，而不适用于定类数据。累计频数，就是将各类别的频数逐次累加起来。累计频数有向上累计和向下累计之分。向上累计频数 Si=f1+f2+fi.(3.2.4

66、)向下累计频数 Sn+1-i=fn+fn-1+fn+1-i.(3.2.5)通过累计频数，可以很容易地看出某一类别以下或者以上的频数之和。用同样的方法，可以推广出累计频率的概念。累计频率也存在着向上累计和向下累计之分。Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.2 定序数据的整理与描述定序数据的整理与描述一、累计频数和累计频率【例3-6】在一项有关住房问题的研究中，研究人员在某城市随机调查了300户居民，其中的一个问题是“您对您目前的住房状况是否满意？”非常不满意，不满意，一般，满意，非常满意。根据满意程度标志，整理后得到了市民对住房

67、状况评价的频数分布。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi向上累计户数Si=f1+f2+fi.1非常不满意2424=242不满意108132=24+1083一般93225=24+108+934满意45270=24+108+93+455非常满意30300=24+108+93+45+30-合计300-Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.2 定序数据的整理与描述定序数据的整理与描述一、累计频数和累计频率解：这里的标志变量为“满意程度”，“满意程度”是个定序变量，不同“满意程度”值就是标志变量值。即x1=“非常不

68、满意”，x2=“不满意”，x3=“一般”， x4=“满意”，x5=“非常满意”。归类计算了300户市民的满意值数据，求得了人数变量序列fi，即f1=24，f2=108，f3=93，f4=45，f5=30。同时按Si=f1+f2+fi.计算向上累计户数序列。通过观察统计表和统计图的表现，我们亦可以知道，某市居民对住房关注的重心在何处。图图33 居民对住房评价的分布居民对住房评价的分布不满意不满意一般一般满意满意非常不满意非常不满意非常满意非常满意30459324108Ch3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)3.2.2 定序数据的整理与描述

69、定序数据的整理与描述二、累计频数分布图或者累计频率分布图根据累计频数或者累计频率，可以编制累计频数分布图或者累计频率分布图。图图34 居民对住房评价的累计分布居民对住房评价的累计分布不满意不满意一般一般满意满意非常不满意非常不满意非常满意非常满意300100200SSCh3 统计的整理与描述统计的整理与描述3.2 品质数据的整理与描述品质数据的整理与描述(new)返回3.3 数字数据的整数字数据的整理与描述理与描述3.3.1数据的分组3.3.2统计直方图与统计折线图3.3.3频率分布的类型Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据

70、的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)返回3.3.1 数据的分组数据的分组一、数据的分组品质数据的整理与描述方法，可用于数值型数据的整理与描述。但数值型数据还有一些特定的方法，并不适用于品质数据。数据的分组，也叫统计分组。是指根据统计研究目的，将数据按某种标准划分为不同的组别。分组后，再计算出各组中出现的次数或频数，就形成了一个频数分布表。分组的方法有单变量分组和组距变量分组。Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据

71、的整理与描述(new)3.3.1 数据的分组数据的分组二、单变量分组(1)就是把数值相等的数据归为一个组，每组赋予一个变量值，然后再计算出各组中的数据个数。这种分组方法，只适用于离散型变量且变量值比较少的场合，如表 34所示。组数i标志变量xi 频数fi向上累计频数Si=f1+f2+fi.频率1x1f1S1=f1.2x2f2S2=f1+f2.3x3f3S3=f1+f2+f3.n-1xn-1f n-1S n-1=f1+f2+fn-1.nXnf nS n=f1+f2+fn.-合计f-表表34某某标志单变量分组表标志单变量分组表下面结合具体的例子，说明单变量分组的过程和频数分布的编制过程。 C

72、h3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组二、单变量分组(2)【例3-7】某公司50名员工的月工资资料如下。共50个数据，试对其进行单变量分组，并编制其频数分布。(p54)1200，2500，1000，1200，800，1000，1200，1500，1000，1000，1500，800，1000，2000，2500，1200，2000，1200，1200，1500，1000，1200，1000，800，1200，1000，1200，1200，1500，1200，1200，800，1200，1200，800，1

73、200，1000，1200，1000，1500，1200，1500，2000，1200，2000，1200，2000，2500，1500，1200。解：先对上面的数据进行排序，结果为800800800800800100010001000100010001000100010001000100012001200120012001200120012001200120012001200120012001200120012001200120012001200150015001500150015001500150020002000200020002000250025002500。显然，排序后的结果，构成了

74、一个标志变量序列Xi：i=1,2,50.Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组二、单变量分组(3)然后对Xi分组归类，值相同的归为同一个组，值不同的则归为不同的类，并计数计算各组xi的频数f i，得频数序列f i：i=1,2,6.，如下表3-5。组数i工资变量xi工资序列Xi归并计数人数fi1x1=800800，800，800，800，800f1=52x2=10001000，1000，1000，1000，1000f2=103x3=12001200，1200，1200，1200，1200f3=204x4=

75、15001500，1500，1500，1500，1500f4=75x5=20002000，2000，2000，2000，2000f5=56x6=25002500，2500，2500f 6 =3-合计-f=50表表35某公司员工工资变量分组表某公司员工工资变量分组表Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组二、单变量分组(4)在此基础上，还可以计算频率、累计频数等等。观察表3-5，我们可以得到该公司员工的月工资分布特征认识。但从表3-5也可以看出，在数据较多的情况下，单变量分组由于组数较多，不便于观察数据分布

76、的特征和规律，而且对于连续变量无法采取这种分组方法。同样的问题，也可以在观察图3-5的特征过程中得出。图3-5是根据某公司员工工资变量分布表做出来的。图3-5的特征并不非常明显。图3-5也叫统计分布竖线图。图图35 某公司员工工资分布竖线图某公司员工工资分布竖线图20000频数（人）频数（人）工资5101501000300020Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组二、单变量分组【例3-8】表36是某班学生按年龄分组表。共55人，试按年龄标志，对其进行单变量分组，并编制其频数分布图。解：以年龄为横坐标，

77、人数或者人数比重为纵坐标，在绘制纵横指标的刻度后，标出各组别的数值，得某班学生年龄分布竖线图3-6。组数i年龄变量xi（岁）人数（人）fi人数比重（%）118814.552191221.813201629.094211120.00522814.55合计55100.00表表36 某班学生按年龄分组表某班学生按年龄分组表图图36 某班学生年龄分布竖线图某班学生年龄分布竖线图206频数（人）频数（人）频率频率%年龄8101214161718 1921 22 232418.1821.8225.4529.0914.551832.72Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数

78、字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组组距式分组，就是将数据的变化范围，依次划分为若干个半开半闭区间，并将每一区间内的数据归为一个组。区间的最小值称为组下限，区间的最大值称为组上限，区间的宽度称为组距。区间的中心值称为组中值。组中值是该组数据变量的代表值。设某组的区间为Li,Ui)，它等价于 Li xiUi.i=1,2,n.(3.3.1)且 Li+1=Ui.i=1,2,n-1.(3.3.2)则组距 di=Ui-Li.i=1,2,n.(3.3.3)如果各组的组距均相等，则分组为等距分组；如果其中有一组的组距与其他组不相等，则分组为异距分组。记各组的组中值为，

79、则(3.3.4)不论是等距分组还是异距分组，组距分组的结果，一般表示为Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组组数i分组标志变量xi 组中值频数fi频率1 L1U1 f1.2 L2U2 f2.3L3U3 f3. n-1Ln-1Un-1 fn-1. n LnUn fn.-合计f表表37某某标志组距变量分组表标志组距变量分组表Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组半开半闭区间Li,Ui)

80、所对应的组，通常叫做闭口组。闭口组的组中值计算按式(3.3.4)计算。如果是无限区间(-,Ui)或者(Li,-)，则其所对应的组为开口组。开口组通常存在于第1组(-,U1)和第n组(Ln,-)。开口组(-,U1)和(Ln,-)的组中值计算，则应修正为组数i分组标志变量xi组中值频数fi频率1 L1U1 f1.2 L2U2 f2.3L3U3 f3. n-1Ln-1Un-1 fn-1. n LnUn fn.-合计f表表37某某标志组距变量分组表标志组距变量分组表下面结合具体的例子，说明单变量分组的过程和频数分布的编制过程。 Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数

81、据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组【例3-9】某班级80名学生的英语成绩资料如下。试按成绩标志进行组距变量分组，并编制其频数分布。表表38某年级某班名同学英语成绩表某年级某班名同学英语成绩表65，73，66，89，75，66，69，85，59，78，96，78，80，80，85，65，86，75，88，78，55，70，79，76，73，47，74，58，76，77，79，81，66，66，94，68，60，78，92，60，78，65，87，79，86，65，79，56，90，64，67，74，49，85，74，69，62，93，79，83，87，88

82、，84，64，77，68，78，82，89，95，87，58，85，77，77，97，69，69，61，99。解：先对上面的数据进行排序，结果为4749555658585960606162646465656565666666666768686969696970737374747475757676777777777878787878787979797979808081828384858585858686878787888889899092939495969799Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组

83、距变量分组按不及格、及格、中等、良好、优秀5个等级分组，并对每一个等级的人数进行统计，求得该班级英语成绩分组表。组数i成绩等级成绩变量xi成绩计数人数fi比重(%)组中值1不及格6047，49，55，56，58，58，59f1=78.8552及格607060，60，61，69，69 f2=2126.2653中等708070，73，73，79，79 f3=2531.2754良好809080，80，81，89，89 f4=1923.8855优秀9010090，92，93，94，99 f5=810.095-合计- f=80100.-表表39 某年级某班名同学英语成绩分布表某年级某班名同学英语成绩分布

84、表Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组根据英语成绩分组表编制其统计分布图。其统计分布图的图形表现如图3-7。图图37 某班学生成绩分布直方图某班学生成绩分布直方图700频数（人）频数（人）频率频率%成绩5101520254050608090100 11012.518.7525.031.256.25Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组【例3-10】抽样得某地50户居民的月消费支出

85、数据如下。试按支出等级标志进行组距变量分组，并编制其频数分布。(p37) 表表310某地某地5户居民月消费支出表户居民月消费支出表830,880,1230,1100,1180,1580,1210,1460,1170,1080,1050,1100,1070,1370,1200,1630,1250,1360,1270,1420,1180,1030,870,1150,1410,1170,1230,1260,1380,1510,1010,860,810,1130,1140,1190,1260,1350,930,1420,1080,1010,1050,1250,1160,1320,1380,1310,1

86、270,1250,解：先对上面的数据进行排序，结果为81083086087088093010101010103010501050107010801080110011001130114011501160117011701180118011901200121012301230125012501250126012601270127013101320135013601370138013801410142014201460151015801630Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.1 数据的分组数据的分组三、组距变量分组按支出水平的高

87、低分为8个消费等级，并对每一个等级的标准进行确定，对每一等级的户数进行统计，求得该地消费品支出水平分组表。组数i消费等级支出变量xi消费水平计数户数fi比重(%)组中值1低偏下800900810，830，860，870，880f1=5108502低偏中9001000930 f2=129503低偏上100011001010，1010，1030，1080 f3=81610504中偏下110012001100，1100，1130，1190 f4=112211505中等120013001200，1210，1230，1270 f5=112212506中偏上130014001310，1320，1350，1

88、380 f6=71413507高偏下140015001410，1420，1420，1460 f7=4814508高偏上15001510，1580，1630 f8=361550-合计- f=50100.-表表311 某地某地5户居民消费支出水平分布表户居民消费支出水平分布表Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)返回3.3.2 统计直方图与统计折线图统计直方图与统计折线图一、统计直方图统计直方图，是用矩形的宽度和高度来表示频率或频数分布的图形。在平面直角坐标系中，纵轴表示数据分组，横轴表示频率或频数，以矩形的宽度表示各组的组距，以矩形的高

89、度表示对应组的频率或频数，这样，各组与其相应的频率或频数，就形成一个矩形列，该矩形列即为直方图。比如，图3-7就是根据表3-9绘制而成的直方图。从统计直方图上，可以非常方便地看出该班学生成绩分布的基本状况。即该班学生的英语成绩以“中等”为中心，大体对称分布。显然，用图形来表示一个具体的分布的好处是，非常简明且直观。图图37 某班学生成绩分布直方图某班学生成绩分布直方图700频数（人）频数（人）频率频率%成绩5101520254050608090100 11012.518.7525.031.256.25Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(ne

90、w)3.3.2 统计直方图与统计折线图统计直方图与统计折线图二、统计折线图统计折线图，也叫统计频率或频数的多边形图。它是在直方图的基础上，把直方图顶部的中点（即与组中值对应的频数值）用直线连接起来，并向两端与横轴封闭，使多边形面积与直方图面积相等，再把原来的直方图抹掉，就是折线图。图3-8就是在图3-7基础上绘制而成的折线图。Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)图图38 某班学生成绩分布折线图某班学生成绩分布折线图700频数（人）频数（人）频率频率%成绩5101520254050608090100 11012.518.7525.03

91、1.256.253.3.2 统计直方图与统计折线图统计直方图与统计折线图三、统计直方图和统计折线图的作用当对数据所分的组很多时，组距会越来越小，这时所绘制的折线图就会越来越光滑，逐渐形成一条平滑的曲线，这就是频率或频数分布曲线。频率或频数分布曲线，在统计学中有广泛应用，它是描述各种统计量和分布规律的重要方法。图图38 某班学生成绩分布折线图某班学生成绩分布折线图700频数（人）频数（人）频率频率%成绩5101520254050608090100 11012.518.7525.031.256.25Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)返

92、回3.3.3 频数和频率分布的类型频数和频率分布的类型一、频数和频率分布的类型频率、频数分布的曲线类型，概括起来主要有三种类型：钟型分布、型分布和型分布。一般而言，一种分布类型对应着一种现象，并且在相当长的时间内，这种对应关系不会有大的改变。如果数据的整理结果，与此有比较大的差异，那么，要么是现象的发展出现了新的变化，要么是数据的搜集和整理出现了什么问题。比如，数据的质量不是很可靠，或者分组的方法不恰当，等等。Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.3 频数和频率分布的类型频数和频率分布的类型钟型分布钟型分布的曲线图，呈现“两头

93、小、中间大”的形式，类似于一口古钟而得名。大量社会经济现象，如人口总体身高的分布、体重的分布、产品零件误差的分布、某种商品价格的分布等，均属于钟型分布，数理统计学中的正态分布，也属于钟型分布的一种特殊情形。钟型分布，具体包括对称分布、正偏分布、负偏分布三种形式。如图39所示：上图中，正偏分布又称右偏分布，负偏分布亦称左偏分布。对称分布对称分布图图39 钟型分布示意图钟型分布示意图正偏分布正偏分布负偏分布负偏分布Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.3 频数和频率分布的类型频数和频率分布的类型型分布 U型分布的图形与钟型分布相反

94、，形状如英文字母的U字，这种分布的特性，是两端变量值分布次数多，中间变量分布次数少。有些社会经济现象属于U型分布，如对一个较长时期内正常死亡人口总体，按其死亡时的年龄分组所形成的次数分布，为U型分布。如图310所示：图图310 U U型分布示意图型分布示意图400死亡率（死亡率（%）年龄10203040501020305060708060Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)3.3.3 频数和频率分布的类型频数和频率分布的类型型分布型分布有正型分布和反型两种形式。如投资额按利润率大小的分布，呈正型分布，投资额按风险大小的分布，呈反型

95、分布。如图311所示：图图311 J型分布示意图型分布示意图正正J分布分布反反J分布分布Ch3 统计的整理与描述统计的整理与描述3.3 数字数据的整理与描述数字数据的整理与描述(new)返回3.4 统计分组（类）统计分组（类）3.4.1统计分组概述3.4.2统计分组的方法Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)返回3.4.1 统计分组概述统计分组概述

96、一、统计分组（类）的概念统计整理的目的，是把无规的数据变成有规的数据。有规的数据，通常用统计图表来描述。在数据从无规到有规的转换过程中，统计分组(类)技术，是这个转换过程的桥梁。统计分组(类)技术的好坏，将直接影响转换的结果。因此，统计分组(类)技术，从来就是统计整理的核心。所谓统计分组(类)，是指根据统计研究目的，将数据按某种标志划分为不同的组别。它是把性质不同的若干数据，归为不同的组；而对性质相近的数据，则归为一类。目的是突出无规则的数据在某标志下的差异。即相同的方面是什么？不同的方面又在哪里？有时，统计分组(类)也有所专指。即对数值型数据所作的分组，称为统计分组；而对品质数据所作的分组，

97、称为统计分类。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）3.4.1 统计分组概述统计分组概述二、选择统计分组标志统计分组的关键，在于科学确定分组标志。确定统计分组标志，需注意以下要点：第一，分组标志，必须反映研究目的。研究目的，与分组标志密切相关，同一总体，研究的目的不同，则分组标志也不同。如，对某地企业进行分组研究，如果研究目的是劳动生产率的分布特征，则应选择“人均产量、人均产值或人均利税”标志分组，如果是研究企业规模结构，则应选择“职工人数或者固定资产原值”标志，进行分组。第二，在一定的目的条件下，分组标志，必须反映研究对象的本质特征。如研究居民生活水平

98、分布状况，选用“人均收入”标志对各个家庭分组，是最合适的，而选用“家庭总收入”作为分组标志，则差一些，因为，“人均收入水平”最能反映生活水平状况。如果目的是研究居民的家庭新增购买力，则“家庭总收入”，是最合适的分组标志。第三，分组标志，必须反映社会经济现象，必须根据历史条件的变化，选择分组标志。如改革开放前，企业职工人数，可以作为企业规模大小的标志，但随着历史条件的变化，人数多少，已经失去了反映企业规模大小的作用，职工人数多，不一定就是企业规模大。在新的历史条件下，反映企业规模特征的标志，可以选用固定资产原值。因为企业固定资产原值大，则企业规模也一定大。发达国家和地区也是这样。Ch3 统计的整

99、理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）3.4.1 统计分组概述统计分组概述三、统计分组的原则统计分组必须遵循两个基本原则：穷尽原则和互斥原则。所谓穷尽原则，是指分组的空间必须能够包容所有总体单位，总体中所有单位，都必须有组可归，不允许某个或某些总体单位不在某个组内的情形出现。如将湖北省人口，按民族分为两组：汉族、土家族。虽然大部分人口属于这两个民族，但毕竟还有一些人口，属于其他民族，这就没有遵守穷尽原则，如果分为汉族、少数民族，则遵守了穷尽原则。所谓互斥原则，是指在某个分组标志下，任何一个总体单位只能归属于某一组，而不能既属于某个组又同时属于另一组。如将某单位职工，按文

100、化程度分为文盲及识字不多、中学文化程度以下，中学及中学文化程度以上、大专及以上四个组，则没有遵守互斥原则。如果改为文盲及识字不多、小学、初中、高中、大专及大专以上五个组，则可满足互斥性要求。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）返回3.4.2 统计分组的方法统计分组的方法一、品质标志变量分组分组标志确定之后，必须确定分组组数和各组的组限。组数和组限的确定，是统计分组的中心工作。根据分组标志的特征，统计分组，可以按品质标志分组，也可以按数量标志分组。品质标志分组的方法分组一般比较简单，分组标志一经确定，组的名称、组数、各组总体单位个数也很容易确定。比如，某

101、班学生55人，按性别标志分组，常识上只能分为男性和女性2个组别，不可能再有其他什么形式的性别组可供划分。如表310所示分组为正常的，而表311所示分组则为非正常的和罕见的。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）组数i性别xi人数fi人数比fi/2001男300.545452女250.45455-合计551.00000组数i性别xi人数fi人数比fi/2001男300.545452女250.454553非男非女00.00000-合计551.00000表310某班学生按性别分组表表311某班学生按性别分组表3.4.2 统计分组的方法统计分组的方法一、品质标志

102、变量分组值得注意的是，有些品质分组较为复杂，组与组的界限不易划清，存在着一些状态交叉。如三次产业分类中，就存在部分经济活动，不知道是应该归于第二类还是第三类合适。对于此类问题，统计工作中通常采用统一的分类标准，予以解决。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）组数i产业标志xi人数fi人数比1第一产业？2第二产业？3第三产业？-合计？表某地劳动力按产业分组表3.4.2 统计分组的方法统计分组的方法二、数量标志分组的方法单项式分组，就是每组变量的取值只有一个。单项式分组，一般适用于离散型变量且变量值变动范围不大的场合，标志值一般取整数，如表312所示。组距式

103、分组，就是每组变量的取值由一段区间值表示。对于连续型变量或者变动范围较大的离散型变量，适宜采用组距式分组。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）表312某班学生按年龄分组表组数i年龄变量xi（岁）人数（人）fi人数比重（%）118814.552191221.813201629.094211120.00522814.55合计55100.003.4.2 统计分组的方法统计分组的方法二、数量标志分组的方法对于组距式分组，关键是确定分组的组数和组距。一般是先确定组数，然后再确定各组的组距。组数、组距的确定，可凭借经验和根据研究问题的性质做出判断，经验表明，组数一

104、般以组左右为宜。美国学者斯特杰斯，总结了一组确定组数、组距的经验公式，可作为参考。n=1+3.3lgN式中：n为组数，N为总体单位，d为组距，R为全距，即最大值与最小值之差。表表313 分组组数参考标准表分组组数参考标准表Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）N15242544458990179180359n567893.4.2 统计分组的方法统计分组的方法二、数量标志分组的方法确定组数、组距、组限时，注意以下要点：第一，如果现象之间存在约定俗成的数量界限，则可将其数量界限，作为分组的组限依据。可以是等距分组，也可以是非等距分组。如将学生成绩分为60以

105、下、6070、7080、8090、90以上五组。如我国男性人口，按劳动年龄分为015、1660、60以上三组。如我国过去传统，全体人口，按生理年龄分为06、714、1529、3049、50以上五组，即儿童、少年、青年、中年、老年五组；而比造现在的观念，则可考虑将全体人口，按生理年龄调整为06、714、1539、4059、60以上五组。第二，如果变量值变动均匀，或者现象没有明显的数量界限，或者因为一般统计分析的需要，则可以采用等距分组，如果变动不均匀，或应采用异距分组。第三，如果变量值存在特大或特小的极端值，应该采用开口组形式。第四，开口组的情况下，标志值最小组的上限，要大于最小变量值，最大组的

106、下限，要小于最大标志值。设置开口组的目的，是为了避免某组没有总体单位。第五，闭口组的情况下，标志值最小组的下限，要小于最小变量值，至多等于最小变量值，最大组的上限，要大于最大变量值，至多等于最大变量值。第六，异距分组的组限确定，须注意区分事物的性质，利于体现总体分布规律。第七，对于连续性变量，组与组之间的组限必须衔接，即必须采用衔接式分组。Ch3 统计的整理与描述统计的整理与描述 3.4 统计分组（类）统计分组（类）返回3.5 统计整理的应用统计整理的应用洛伦茨曲线的编制洛伦茨曲线的编制 3.5.1洛伦茨曲线3.5.2数据3.5.3洛伦茨曲线绘制3.5.4洛伦茨曲线的应用Ch3 统计的整理与描

107、述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)返回3.5.1 洛伦茨曲线洛伦茨曲线洛伦茨曲线是利用统计整理方法绘制的人口与工资收入的关系曲线。它是由美国学者洛伦茨(Dr.M.O.Lorenz)首次提出来，主要用于研究土地、财富和工资收入等的分配是否公平的问题。在宏观经济分析中，应用十分广泛。其图形表现为图312。Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统

108、计整理的应用(new)图图312 洛伦茨曲线洛伦茨曲线示意图示意图人口（人口（%）收收入入（ %）20404020606080100801000实际收入分配实际收入分配曲线曲线绝对平等绝对平等线线绝对不平等绝对不平等线线3.5.1 洛伦茨曲线洛伦茨曲线洛伦茨曲线图312中，对角线为绝对平等线，线上每一点，表示n%(0n1)的人口恰好占有n%的收入或其他财富，即每人拥有的收入或其他财富量绝对相同。绝对不平等线，为图形的横轴与右边竖线构成的折线，这是一种极端情形，其意义是，占全部人口比重趋于零的极少数人口，占有社会几乎100%的收入或财富。实际收入分配线，是介于绝对平等线与绝对不平等线之间的一条

109、曲线，它表达的意义是，占人口比重较大的低收入人口，没有取得与人口比重相应的社会收入，相反，占人口比重较小的高收入人口，却取得了社会收入的较大份额。图图312 洛伦茨曲线洛伦茨曲线示意图示意图人口（人口（%）收收入入（ %）20404020606080100801000实际收入分配实际收入分配曲线曲线绝对平等绝对平等线线绝对不平等绝对不平等线线Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)返回3.5.2 数据数据按收入水平的高低标准，把人口分为最低、中下等、中等、较高、最高5个等级，划分调查范围，抽样调查，搜集各等级的人口数Xi及其所取得的收入数据Yi，

110、列表3-14所示。表表314 某国居民收入所得的分配情况某国居民收入所得的分配情况组数i按收入水平高低分组人口数Xi（万人）月收入Yi（亿美元）1最低128.51.572中下等348.04.083中等466.916.335较高45.67.545最高11.01.88-合计1,000.031.40Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)3.5.2 数据数据分别计算人口结构数和收入结构数，并进行向上累计。得居民收入所得结构分配表315。表表315 某国居民收入所得结构分配情况某国居民收入所得结构分配情况(p40)组数i按收入水平高低分组人口（万人，%

111、，%）月收入（亿美元，%，%）人口Xi比重累计比重xi月收入Yi比重累计比重fi（1）（2）（3）（4）（5）（6）1最低128.512.8512.851.57552中下等348.034.8047.654.0813183中等466.946.6994.3416.3352705较高45.64.5698.907.5424945最高11.01.10100.001.886100.00-合计1,000.0100.0031.40100Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)返回3.5.3 洛伦茨曲线绘制洛伦茨曲线绘制将分配财富的数量和接受分配者的数量，均化成结构

112、相对数，并进行向上累计。以纵轴代表收入结构变量，横轴代表人口结构变量，并标出刻度。根据计算所得的财富分配结构累积数据，和接受分配的人口的累积百分比数据，用坐标点(xi, fi)的形式在图中标出，再用平滑曲线将各点连接起来，就得到洛伦茨曲线。如图312。图图312 洛伦茨曲线洛伦茨曲线示意图示意图人口（人口（%）收收入入（ %）20404020606080100801000实际收入分配实际收入分配曲线曲线绝对平等绝对平等线线绝对不平等绝对不平等线线Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)返回3.5.4 洛伦茨曲线的应用洛伦茨曲线的应用根据洛伦茨曲线与

113、绝对平等线、绝对不平等线的关系，可以计算分配公平程度的指标基尼系数。令实际收入线与绝对平等线之间的面积为A、与绝对不平等线之间的面积为B，则基尼系数如果=0，则分配绝对公平，如果=1，则分配绝对不公平。如果01，则分配处在绝对公平与绝对不公平之间。图图313 基尼系数计算基尼系数计算示意图示意图人口（人口（%）收收入入（ %）20404020606080100801000绝对平等绝对平等线线ABCh3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)3.5.4 洛伦茨曲线的应用洛伦茨曲线的应用在收入结构曲线fi足够光滑的条件下，可以通过曲线拟合的方法，求得fi与x

114、i的关系函数fi=f (xi)。于是，有而A=1/2-B。如果fi曲线不够光滑，则B的面积可近视地看成为，1个三角形面积与若干个梯形面积之和。Ch3 统计的整理与描述统计的整理与描述3.5 统计整理的应用统计整理的应用(new)返回Ch3 内容小结内容小结3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)Ch3 统计的整理与描述统计的整理与描述Ch4统计分布的数值特征介绍如何将一个现象分布的特征，提

115、炼出来。以及这些特征值有什么作用？怎样计算？下一章下一章Ch3 统计的整理与描述统计的整理与描述3.1 统计数据的预处理统计数据的预处理(new)3.2 品质数据的整理与描述品质数据的整理与描述(new)3.3 数字数据的整理与描述数字数据的整理与描述(new)3.4 统计分组（类）统计分组（类）3.5 统计整理的应用统计整理的应用(new)思考与练习思考与练习3.1,什么是统计整理？什么是统计整理？3.2,统计整理的程序是什么？统计整理的程序是什么？3.3,什么是统计分组？统计分组有何作用？什么是统计分组？统计分组有何作用？3.4,如何科学的选择分组标志？如何科学的选择分组标志？3.5,统计

116、分组应遵循哪些原则？统计分组应遵循哪些原则？3.6,按品质标志分组的难点何在？按品质标志分组的难点何在？3.7,按数量标志分组时，如何决定是采取单项式分组还是组距式分组？按数量标志分组时，如何决定是采取单项式分组还是组距式分组？3.8,进行组距式分组时应注意哪些要点？进行组距式分组时应注意哪些要点？3.9,组中值的含义及其计算方法如何？组中值的含义及其计算方法如何？3.10,什么是频数与频率分布？常见的分布类型有哪些？什么是频数与频率分布？常见的分布类型有哪些？3.11,2000年某部门所属年某部门所属40个企业产值计划完成程度资料如下，个企业产值计划完成程度资料如下，97 88 123 11

117、5 119 158 112 146 113 126 117 108 105 110 107 137 120 136 107 108 125 127 142 118 103 87 115 114 119 105 117 124 129 138 100 103 92 95 127 104（1）试据此数据编制次数频数、频率分布数列。）试据此数据编制次数频数、频率分布数列。（2）计算向上、向下累计频数和频率。）计算向上、向下累计频数和频率。（3）根据（）根据（1）的计算结果绘制频数、频率分布直方图和折线图。）的计算结果绘制频数、频率分布直方图和折线图。（4）根据（）根据（2）的计算结果绘制累计频数、频

118、率折线图。）的计算结果绘制累计频数、频率折线图。（5）根据上述计算结果和绘制的图形判断分布的类型。）根据上述计算结果和绘制的图形判断分布的类型。 Ch1 Ch1 统计学的对象和方法统计学的对象和方法统计学的对象和方法统计学的对象和方法Ch4 统计分布的数值特征统计分布的数值特征统计学原理统计学原理n4.1统计平均数数值平均数n4.2统计平均数位置平均数n4.3分布的离散程度n4.4分布的偏度和峰度介绍如何将一个现象分布的特征，提炼出来。以及这些特征值有什么作用？怎样计算？Ch4 主要内容主要内容Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数

119、4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度Ch4 学习要求学习要求1，掌握统计平均数的计算及作用2，掌握分布的离散程度指标的作用及计算3，掌握分布的偏度和峰度的计算Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度Ch4 统计分布的数值特征统计分布的数值特征4.1统计平均数数值平均数4.2统计平均数位置平均数4.3分布的离散程度4.4分布的偏度和峰度统计学原理统计学原理4.1 数值平均数数值平均数统计平均数概述图图41 统计平均数概述统

120、计平均数概述统计平均数统计平均数静态、分布平均数静态、分布平均数数列平均数数列平均数动态、序时平均数动态、序时平均数数值平均数数值平均数位置平均数位置平均数算术平均数算术平均数调和平均数调和平均数几何平均数几何平均数中位数中位数众数众数其他分位数其他分位数Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度4.1 数值平均数数值平均数4.1.1算术平均数4.1.2调和平均数4.1.3几何平均数Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2

121、位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度返回算术平均数，是算术级数数列 x1，x2，x3，xn-1，xn；的平均数。所谓算术级数，就是指同质总体各单位之间，数量标志值的差异变动，往往是独立的或者不相关的。算术平均数是最常用的一种统计平均数。它的理论公式是标志变量的算术平均数=标志总量/总体单位数(4.1.1)算术平均数的具体计算方法，根据标志数列的分布特点确定：简单算术平均数方法和加权算术平均数方法。不论采用什么方法计算算术平均数，其计算内容在概念上必须满足理论公式(4.1.1)。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特

122、征统计分布的数值特征 4.1 数值平均数数值平均数一、简单算术平均数对未分组整理的算术级数数列 x1，x2，x3，xn-1，xn；其标志序列总量为x1+x2+x3+xn-1+xn，总体单位数为n，则数据序列分布的算术平均数(4.1.2)该方法主要适用于，在总体单位数很少，而且已知各单位数量标志值的情况下，可直接将各单位的数量标志值相加，求出标志总量，再除以总体单位数，得出平均数。这种计算平均数的方法，称为简单算术平均数方法。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数【例4-1】观察某路口在若干个10分钟内的车流量，资料记录如下：

123、26，26，38，24，32，22，15，33，19，26，21，29，16，20，34，24，27，30，31，33。试计算该路口在10分钟内的车流量强度。解：车流量强度就是平均车流量。观察了20个10分钟，每10分钟当成一个时间段，每个时间段记录了一个车流量数据。因此，这20个时间段的平均车流量为通过这个结果，我们对该路口的车流量规律，有了一个大致的了解，即每10分钟平均通过26.3辆。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数二、加权算术平均数加权算术平均数，主要适用于分组数据的平均数计算。分组数据一般也有两种：一种是单变

124、量分组数据；另一种是组距式变量分组数据。这两种数据资料条件，其计算方法，当然也有两种。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数如果分组整理后的分布为单变量分布。设整理后的标志数据序列xi及相应的频数序列fi为于是，标志数据序列xi的算术平均数为(4.1.3)此称为加权算术平均公式。可以证明，当f1= f2= fn时，加权算术平均公式，将化为简单算术平均公式。4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i标志变量xi频数fi1x1f12x2f23x3f3n-1x

125、n-1f n-1nxnf n-合计f表表41单变量分组表单变量分组表【例4-2】对某公司员工工资数据进行整理，结果如下：计算该公司人平均月工资。(p54)解：4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i工资变量xi频数fi总工资xi fi1x1=800f1=58005=40002x2=1000f2=10100010=100003x3=1200f3=20120020=240004x4=1500f4=715007=105005x5=2000f5=520005=100006x6=2500f6=325003=7500-合计f=506

126、6000表表42单公司员工工资分组计算表单公司员工工资分组计算表于是，可得解：4.1.1 算术平均数算术平均数 Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数图图42 某公司员工工资分布竖线图某公司员工工资分布竖线图20000频数（人）频数（人）工资51015010003000204.4.1 算术平均数算术平均数如果整理后的分布为组距变量分布，则必须用组中值变量代替组距变量xi。设数据组中值变量序列及相应的频数序列fi为则组距变量的算术平均数，可用下式估计(4.1.4)其中：(4.1.5)组数i分组标志变量xi组中值频数fi频率1 L1U1 f1.2 L2U2 f2

127、.3L3U3 f3. n LnUn fn.-合计 f表表43某某标志组距变量分组表标志组距变量分组表Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.1 算术平均数算术平均数【例4-3】以上下班的前后30分钟为一个观察时段，连续观察了50个工作日，得到某路口的车流量数据分布如下表。试计算其日平均车流量强度。组数i车流量变量xi日数fi组中值日车流量总数fi1105110f1=3107.5107.53=322.52110115 f2=5112.5112.55=562.53115120 f3=8117.5117.58=9404120125 f4=14122.5122

128、.514=17155125130 f5=10127.5127.510=12756130135 f5=6132.5132.56=7957135140 f5=4137.5137.54=550-合计f=50-6160表表44 某路口日平均车流量计算表某路口日平均车流量计算表Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.1 算术平均数算术平均数解：上表是50个工作日车流量的分布情况，只能作大概估计其日平均车流量数。方法是计算其各组的组中值，用其组中值变量代替各组的一般水平，然后进行加权求平均。即同时，我们也整理得到了该路口比较准确的车流量分布规律。Ch4 统计分布的

129、数值特征统计分布的数值特征 4.1 数值平均数数值平均数图图43 某路口车流量分布某路口车流量分布f(x).x14013012011051015123.210004.1.1 算术平均数算术平均数三、算术平均数的数学性质各变量值与算术平均数的离差之和为零。(4.1.6)各变量值与算术平均数的离差的平方和最小。(4.1.7)两个独立的同质变量代数和的平均数，等于各变量平均数的代数和。(4.1.8)两个独立的同质变量乘积的平均数，等于各变量平均数的乘积。(4.1.9)Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.1.2 调和平均数调和平均数调和平均数H调和平均数，

130、也叫标志变量的倒数的算术平均数的倒数，它是算术平均数的另一种表现形式。在实际工作中，由于所获得的数据不同，有时不能直接采取算术平均公式计算平均数，这就需要使用调和平均的形式，来计算平均数。调和平均数的计算方法，也是根据数列的分布特点确定。通常采用两种形式：简单调和平均数和加权调和平均数。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均数一、加权调和平均数为了更好地理解调和平均数与调和平均数的应用场合，我们看下面的例子。【例4-4】某蔬菜批发市场三种蔬菜日成交数量数据如下。计算三种蔬菜的日平均批发价格。表表45 某市场蔬菜日成交数据分组表

131、某市场蔬菜日成交数据分组表Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金mi=xifi1a1.280002b0.5125003c0.86400-合计369004.1.2 调和平均数调和平均数解：从平均批发价格的概念上看，其计算方法应该是：平均批发价格=成交金额/成交量；它的公式也应该是一个批发价格xi的加权平均公式。但是，成交量fi未知。所以必须将各组的成交量fi换算出来。利用mi=xifi关系，有fi= mi/xi，即表表46 三种蔬菜的日批发数据及调和平均数计算表三种蔬菜的日批发数据及调和平均数计算表则三种蔬菜的日平均批发价格为

132、Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金额mi=xifi成交量fi= mi/xi1a1.21800018000/1.2=150002b0.51250012500/0.5=250003c0.864006400/0.8=8000-合计36900480004.1.2 调和平均数调和平均数一、加权调和平均数因此，我们令(4.1.10)为在某些特殊条件下的平均数计算方法，这种方法就是调和方法，其中(4.1.10)式就为加权调和平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均

133、数三、调和平均数与算术平均数的关系三、调和平均数与算术平均数的关系：在mi=xifi条件下，可以证明，调和平均公式与算术公式是等价的。调和平均数，是算术平均数的一种变化形式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数是由于使用了不同的数据4.1.2 调和平均数调和平均数二、简单调和平均数加权调和平均公式，适用于各组的标志变量代表值xi已知，且已知各组的标志总量mi。但是如果各组的标志总量m1=m2=mn。则调和平均公式可化为(4.1.11)令yi=1/xi，又由于yi=1/xi，就是标志变量xi的倒数。则(4.1.11)可化为(4.1.12)于是也可以说，调和平

134、均数，是标志变量的倒数的算术平均数的倒数。公式(4.1.11)式也叫简单调和平均公式。它的适用条件是，已知各组的标志变量代表值xi，且各组的标志总量mi恰好相等。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.2 调和平均数调和平均数调和平均数，有着比算术平均数更好的使用空间。比如，欲了解某商品的市场变化规律，就必须收集市场逐日的商品价格，但逐日的商品价格资料搜集，是非常困难的，因为你必须了解每日各个市场，不同时间的价格资料和成交量资料，这种要求不仅困难而且也不可行。因此，在大多数情况下，逐日的商品价格资料收集，是采用市场抽样的方法。【例4-5】市场抽样。指派

135、一个调查员到市场上去购买某商品，抽样理论可以证明，在完全随机的情况下，调查员的购买成本，就是市场的销售价格；调查员依次在三个不同的市场，购买了某商品，每次消费1元钱；其获得的资料如下：Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数组数i蔬菜名称批发价格xi成交金额mi=xifi1a1.212b0.513c0.81-合计34.1.2 调和平均数调和平均数求该商品的日平均销售价格。解：抽样理论可以证明，在完全随机的情况下，调查员的购买成本就是市场的销售价格；而该日的购买价格=消费金额/购买数量。已知，消费金额=1+1+1=3；而购买数量=1/1.2+1/1.5+1/1.

136、3。因此有即，该商品该日的平均销售价格为1.322034元。显然，这里该日的平均销售价格计算，使用了简单调和平均公式。如果考虑到各个市场的价格差异对消费者消费欲望的影响，则调整各市场的消费金额，便可以将计算推广到加权调和平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.1.3 几何平均数几何平均数算术平均数或调和平均数的计算，各个标志变量值xi是独立不相干的。如果xi是非独立和相关的，则标志变量xi数列的平均数计算，就不能再采用算术方法或调和方法，而必须使用其他方法。几何平均数，是几何级数的平均数。它的xi数列特点是， xi x0Gi，i=1,2,.,

137、n，标志变量xi的每一项值的变化，基本与该值的前后项有关，存在时间上相互衔接的比率关系，xi数列是一个几何级数数列。例如，流水线上的产品合格率数列，在复利条件下的本利率数列变动，等等，都是几何级数数列。几何平均数的计算方法，也是根据数列的分布特点确定：简单几何平均公式和加权几何平均公式。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数一、简单几何平均公式简单几何平均数是n个变量值乘积的n次方根。具体地说，如果有xi数列 x1，x2，x3，xn-1，xn；满足几何级数变化的要求，则xi数列的平均数(4.1.13)Ch4 统计分布的数值特征

138、统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-6】某产品的完整生产过程，要经过3道流水作业工序，这3道工序的产品合格率，分别为80%，90%，95%。求整个生产流程的产品总平均合格率。解：因为，任意一道工序的产品合格与否，都与上一道工序有关。设流水作业的初级投入为y，每个工序的产品平均合格率都为G，则整个生产流程的产品总合格率R=yG G G/y=G3；80%，90%，95%是流水作业的状态合格率，同样有整个生产流程的产品总合格率R=80%90%95%=G3。于是即，整个生产流程的产品总平均合格率为88.1%。Ch4 统计分布的数值特征统计分布的数值特

139、征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-7】一位投资者持有一种股票。1996年，1997年，1998年，1999年的收益率分别为4.5%，2.0%，3.5%，5.4%。求投资者这4年的年平均收益率。解：本题的正确答案是年平均收益而非原因是在按复利计算收益的条件下，只有益本率1+r才具有几何平均数性质；于是Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数二、加权几何平均公式如果几个变量值出现的次数不同时，计算其平均数应该采用加权几何平均方法(4.1.14)该公式的导出，类似于对几何级数数列(x1，x1)；(

140、x2，x2)；(x3，x3)；，；(xn，xn)；f1个,f2个,f3个,.,fn个；求简单几何平均数。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数4.1.3 几何平均数几何平均数【例4-8】某项为期20年的投资，其收益按复利计算，前10年的年利率为10%，中间5年的年利率为8%，最后5年的年利率为6%。求这20年的年平均收益率。解：本题的正确答案是年平均收益而非原因是，在按复利计算收益的条件下，只有益本率1+r才具有几何平均数性质；于是即这20年的年平均收益率为8.47%。Ch4 统计分布的数值特征统计分布的数值特征 4.1 数值平均数数值平均数返回4.2 位置

141、平均数位置平均数4.2.1众数Mo4.2.2中位数Me4.2.3其它分位数4.2.4各种平均数的比较Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度返回4.2.1 众数众数Mo众数是统计数列中，出现次数最多的变量值或者标志值；由于众数与分布的频数fi有关，不受极端值的影响，因此，可作为现象一般水平的代表值。理论上，确定众数，必须编制相应变量分布序列。众数确定：一、品质数列和单项式变量数列的众数确定。二、组距式变量数列的众数确定。Ch4 统计分布的数值特征统计分布的数值

142、特征 4.2 位置平均数位置平均数4.2.1 众数众数Mo一、品质数列、单项式变量数列的众数确定。方法非常简单。由Maxfi，(4.2.1)求Mo组i，i对应的xi就是该数列的众数，Mo=xi。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数I see !【例4-9】在某城市随机调查了200个市民，整理后得到其关注的广告变量频数分布。求分布的众数。解：这里的变量为“广告变量”，这是个定类变量，不同类型的广告就是变量值。由于在所调查的200人中，关注商品广告的人最多，为112人，占总调查人数的56%，因此，众数属于“商品广告”这一类别，i=1，即Mo= x1=“商品广告

143、”。组数i广告类型分组xi人数fi1商品广告1122服务广告513金融广告94房地产广告165招生招聘广告106其他广告2-合计200市民关注的广告类型频数分布4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数【例4-10】在某城市随机调查了300户居民，整理后得到其对住房状况评价的频数分布。求分布的众数。解：这里的变量为“回答变量”，这是个定序变量，不同类型的回答就是变量值。由于在所调查的300人中，对住房表示不满意的人最多，为108人，占总调查人数的36%，因此，众数属于“不满意”这一类别，i=2，即Mo= x2=“不满意”。市民对住房状况的

144、评价频数分布组数i回答类型分组xi户数fi1非常不满意242不满意1083一般934满意455非常满意30-合计3004.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数图图44 居民对住房评价的累计分布居民对住房评价的累计分布不满意不满意一般一般满意满意非常不满意非常不满意非常满意非常满意300100200SS【例4-11】表36是某班学生按年龄分组表。计算其年龄众数。解：由Maxfi求i，Maxfi=16，i=3，所以Mo= x3=20。即众数为20岁。组数i年龄变量xi（岁）人数（人）fi人数比重（%）118814.552191221.813

145、201629.094211120.00522814.55合计55100.00表表36 某班学生按年龄分组表某班学生按年龄分组表图图45 某班学生年龄分布竖线图某班学生年龄分布竖线图206频数（人）频数（人）频率频率%年龄8101214161718 1921 22 232418.1821.8225.4529.0914.551832.724.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数二、组距式变量数列的众数确定。二、组距式变量数列的众数确定。方法则复杂一些。其步骤是：方法则复杂一些。其步骤是：由由Maxfi求求众众数数组组i：“Li Ui”，

146、该该组组的的上上、下下限限，就就是众数的变动范围；是众数的变动范围； LMo Mo UMo. (4.2.2)依据与众数组相临的两个组的频数，近似计算众数值，公式为依据与众数组相临的两个组的频数，近似计算众数值，公式为 (4.2.3)其中，其中， dMo= UMo - LMo， 1=fMo- fMo-1， 2=fMo- fMo+1。 (4.2.4) 4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数二、组距式变量数列的众数确定二、组距式变量数列的众数确定4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均

147、数图图46 众数计算公式的几何解释众数计算公式的几何解释f(x).xUMoLMofMo201fMo-1fMo+1Mo.【例例4-12】某某路路口口50个个工工作作日日车车流流量量数数如如下下表表。试试计计算算其其日日车车流流量量的的众数。众数。解：由解：由Maxfi=14， i=4，则众数应在第则众数应在第4组，于是有组，于是有 LMo Mo UMo. 120 Mo 125. 1=14-8=6, 2=14-10=4, dMo= UMo - LMo =5.利用下限公式估计众数利用下限公式估计众数4.2.1 众数众数MoCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数组

148、数i车流量变量xi日数fi1105110f1=32110115 f2=53115120 f3=84120125 f4=145125130 f5=106130135 f5=67135140 f5=4-合计f=50表表411 某路口日车流量众数计算表某路口日车流量众数计算表【例4-13】某公司50名员工工资分布情况如下表。试计算其工资的众数。解：由Maxfi=20，i=3，则众数应在第3组，得Mo=1200。本例实际为单变量数列，但可以把它当成是组距变量数列的特例处理，即 LMo Mo UMo.1200Mo 1200. 1=20-10=10, 2=20-7=13,dMo= UMo- LMo=0.利

149、用下限公式估计众数组数i工资变量xi人数fi1800800f1=5210001000f2=10312001200f3=20415001500f4=7520002000f5=5625002500f 6 =3-合计f=50表表412 员工工资众数计算表员工工资众数计算表Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.1 众数众数Mo返回中位数是统计数列按数值的大小排序，排序后处于中间位置上的标志值。由于Me位置居中，不受极端值的影响，因此，可以用来代表现象的一般水平。为确定中位数，必须将总体各单位的标志值，按大小排序，最好是先编制出变量序列。一般有三种情况：第一种

150、情况，未分组原始资料的中位数确定。第二种情况，单项式变量数列资料的中位数确定。第三种情况，组距式变量数列的中位数的确定。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me一、未分组原始资料的中位数确定。首先按标志值的大小排序。设排序后的结果为 x1x2 x3.xn-1xn；按照中位数的定义，则中位数可按下式确定(4.2.5)其中(n+1)/2为数列的中间位置。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-14】5个原始数据：24，22，21，26，20；计算其中位数。解：对原始数

151、据排序，有xi：20，21，22，24，26；位置i：1，2，3，4，5；排序数列的中间位置为(n+1)/2=(5+1)/2=3。第3个位置所对应的数据值为22，所以Me=x3=22。【例4-15】6个原始数据：10，5，9，12，6，8；计算其中位数。解：对原始数据排序，有xi：5，6，8，9，10，12；位置i：1，2，3，4，5，6；排序数列的中间位置为(n+1)/2=(6+1)/2=3.5。第3个位置所对应的数据值为8，第4个位置所对应的数据值为9，所以Me=( x3+ x4)/2=(8+9)/2=8.5。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2

152、.2 中位数中位数Me【例4-16】观察某路口在若干个10分钟内的车流量，资料记录如下：26，26，38，24，32，22，15，33，19，26，21，29，16，20，34，24，27，30，31，33。对其进行排序整理，试计算该路口在10分钟内的车流量中位数。解：排序整理后，有xi：15,16,19,20,21,22,24,24,26,26,26,27,29,30,31,32,33,33,34,38，位置i：1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20；排序数列的中间位置为(n+1)/2=(20+1)/2=10.5。第10个位置所对

153、应的数据值为26，第11个位置所对应的数据值为26，所以Me=( x10+ x11)/2=(26+26)/2=26。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-17】在某城市随机调查了300户居民，整理后得到其对住房状况评价的频数分布。求分布的中位数。市民对住房状况的评价频数分布组数i回答类型分组xi户数fi向上累计Si=f1+f2+fi.排序Pi1非常不满意2424=241242不满意108132=24+108251323一般93225=24+108+931332254满意45270=24+108+93+452262705非常

154、满意30300=24+108+93+45+30271300-合计300-4.2.2 中位数中位数MeCh4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数解：排序计算累计频数Si；由于，中间位置(f+1)/2=(300+1)/2=150.5，从累计频数Si和排序Pi的关系看，从序133-225的变量值均为“一般”，于是中位数应在“一般”这一类别中。因此，中位数为“一般”，即Me=x3=“一般”。二、单项式变量数列资料的中位数确定由于变量值已经初步序列化，其中位数的确定，既可按中位数的定义确定，也可按组距式变量数列方法的一个特例处理。Ch4 统计分布的数值特征统计分布的数值特

155、征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me是吗？道理呢？三、组距式变量数列的中位数的确定（比较复杂）一般步骤是：先对数列进行排序。排序的过程，等价于计算数列的向上累计数Si或者向下累计数Si。 Si=f1+f2+fi，Sn-i+1=fn+fn-1+fn-i+1。(4.2.6)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me组数i标志变量xi频数fi向上累计频数Si=f1+f2+fi.排序1L1U1f1S1=f1.1f12L2U2f2S2=f1+f2.1+f1S23L3U3f3S3=f1+f2+f3.1+ S2 S3nLnU

156、nf nS n=f1+f2+fn.1+ Sn-1 Sn-合计f-表表4-4 某某标志中位数计算表标志中位数计算表按照中位数的定义，有 Si(Me)=(f)/2；S n-i(Me)=(f)/2；(4.2.7) SMe-1(f)/2 SMe；SMe(f)/2 SMe+1； (4.2.8)从数列Si或Si栏中，找出(f)/2所在的组i“中位数组”，该组的上、下限，就是中位数的取值范围； LMe Me UMe. (4.2.9)并确定fMe、SMe 、SMe-1、SMe+1的值。这里，fMe、SMe 、SMe-1、SMe+1，分别为中位数组频数、向上累计到中位数组的频数、向上累计到中位数组之相临上一组的

157、频数、向下累计到中位数组之相临下一组的频数。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me假定中位数组内各单位，是均匀分布的，利用下面公式，可近似计算中位数值(4.2.10)其中， dMe= UMe - LMe。(4.2.11)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-18】某路口50个工作日车流量分布情况如下表。试计算其中位数。组数i车流量变量xi日数fi向上累计Si=f1+f2+fi排序Pi1105110f1=33=3132110115 f2=53+5=8483115

158、120 f3=83+5+8=169164120125 f4=143+5+8+14=3017305125130 f5=103+5+8+14+10=4031406130135 f5=63+5+8+14+10+6=4641467135140 f5=43+5+8+14+10+6+4=504750-合计f=50-表表414 某路口某路口50个工作日车流量中位数计算表个工作日车流量中位数计算表Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me解：中点位置为(f)/2=25，由累计频数Si与排序Pi的关系知，中位数应在第4组，i=4，于是有 LMe Me

159、UMe. 120Me 125. SMe=30,SMe-1=16,SMe+1=40,fMe=14,dMe= UMe.- LMe=5.利用下限公式估计中位数Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me【例4-19】某公司50名员工工资分布情况如下表。试计算其工资的中位数。组数i月工资分组xi人数fi向上累计Si=f1+f2+fi排序Pi1800800f1=55=515210001000 f2=105+10=15615312001200 f3=205+10+20=351635415001500 f4=75+10+20+7=4236425200

160、02000 f5=55+10+20+7+5=474347625002500 f5=35+10+20+7+5+3=504850-合计f=50-表表415 某公司员工工资中位数计算表某公司员工工资中位数计算表 Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me解：单变量分布，可以当成组距变量分布的特例。中点位置(f)/2=25，由累计频数Si与排序Pi的关系知，中位数应在第3组，i=3，于是有 LMe Me UMe. 1200Me 1200. SMe=35, SMe-1=15,SMe+1=42,fMe=20,dMe= UMe.- LMe=0.利用

161、下限公式估计中位数Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.2 中位数中位数Me返回中位数，作为分布数列中处于中等水平的代表值，可以将全部总体单位，按标志值的大小，等分为两部分，因此，中位数也称为“1/2分位数”。 Si(Me)=(f)/2.Si(Me)/(f)=1/2.(4.2.12)类似地，我们可以定义出其它分位数。如1/4分位数、1/8分位数、1/10分位数、1/100分位数，等等。一般地，如果能够将全部总体单位，按标志值的大小，等分为k个部分，有 Si(xk)/(f)=1/k. (4.2.13)则xk可称为1/k分位数。确定1/k分位数的目的，是

162、进一步把握总体分布的范围和内部结构。与中位数和众数类似，这些分位数，也反映了总体分布的位置特征。较为常见的分位数，有以下几种：Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数一、4分位数Q：4分位数，就是能够将全部总体单位，按标志值的大小，等分为4个部分的3个数值。分别记为Q1、Q2、Q3，并称为1/4分位数、1/2分位数、3/4分位数。其中，1/4分位数也叫下4分位数，3/4分位数也叫上4分位数，1/2分位数就是中位数。在总体所有n个单位的标志值，都已经按大小顺序排列的情况下，Q1的位次为(n+1)/4，Q2的位次为2(n+1)/4，

163、Q3的位次为3(n+1)/4。如果n+1恰好为4的倍数，则 Q1=x(n+1)/4，Q2=x2(n+1)/4= Me，Q3=x3(n+1)/4，(4.2.14)如果n+1不是4的倍数，则按上面方法计算出来的4分位数位次，就有可能有小数，这时，有关的4分位数，就应该是，与该带分数相临的两个整数位次上的标志值的加权算术平均，权数的大小，取决于两个整数位次与4分位数位次距离的远近，距离越近权数越大，距离越远权数越小。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数【例4-21】当给定n=50时，容易确定： Q1的位次为(n+1)/4=12.7

164、5， Q2的位次为2(n+1)/4=25.5， Q3的位次为3(n+1)/4=38.25。则 Q1=x12+0.75(x13-x12)=0.25x12+0.75x13， Q2=x25+0.5(x26-x25)=0.5x25+0.5x25= Me， Q3=x38+0.25(x39-x38)=0.75x38+0.25x39。以上方法，适用于未分组数据和单变量分布数据。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数对于组距变量数列，可仿照中位数的估计方法，求出Q1、Q2、Q3。第一步，由 Si(Q1)/(f)=1/4； Si(Q2)/(f)

165、= Si(Me)/(f)=1/2；(4.2.15) Si(Q3)/(f)=3/4。从变量数列的Si栏中，找出第(f)/4、(f)/2、3(f)/4个单位所在的组，各组的上、下限，就是各分位数的取值范围； LQi Qi UQi. (4.2.16)并确定fQi、SQi 、SQi-1的值。这里，fQi、SQi 、SQi-1，分别为各分位数组频数、向上累计到各分位数组的频数、向上累计到各分位数组之相临上一组的频数。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数假定分位数组内各单位是均匀分布的，利用下面公式，可近似计算各分位数值(4.2.17)

166、其中 dQi= UQi LQi。(4.2.18)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位数其他分位数二、十分位数D：10分位数，就是能够将全部总体单位，按标志值的大小，等分为10个部分的9个数值。分别记为D1、D2、.、D9，并称为1/10分位数、2/10分位数、.、9/10分位数。其中，1/10分位数也叫下10分位数，9/10分位数也叫上10分位数，5/10分位数就是中位数。10分位数的确定方法，可以按4分位数的确定方法依次类推。在总体所有n个单位的标志值，都已经按大小顺序排列的情况下，D1的位次为(n+1)/10，D2的位次为2(n+1

167、)/10，.，D9的位次为9(n+1)/10。如果n+1恰好为10的倍数，则 D1=x(n+1)/10，D2=x2(n+1)/10，.，D9=x9(n+1)/10，(4.2.19)如果n+1不是10的倍数，则按上面方法计算出来的，10分位数位次就有可能有小数，有小数，就应该与该位次相临的两个整数位次上的标志值，进行加权算术平均。至于组距变量的10分位数的确定，基本方法与4分位数相同。此处从略。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.3 其他分位其他分位数数返回一、数值平均数与位置平均数的比较：作用数值平均数与位置平均数，在统计上，都是用来表征总体的一般

168、水平或者集中趋势，是抽象化的代表值；但代表意义却有所不同：数值平均数，是对所有变量值来计算的平均数，它概括地反映数列中所有标志值的平均水平；而位置平均数，是根据总体中，处于特殊位置上的个别单位或者部分标志值，来确定的代表值。概括能力数值平均数的数据概括能力极强，容易受个别或者少数极端值的影响；位置平均数则反之。适用的数据类型数值平均数，对数据的量化尺度要求较高，只适用于数值型数据；而位置平均数的适用数据范围，可扩展到品质型数据。Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.4 各种平均数的比较各种平均数的比较二、各种平均数的比较Ch4 统计分布的数值特征统计

169、分布的数值特征 4.2 位置平均数位置平均数4.2.4 各种平均数的比较各种平均数的比较数据类型定类数据定序数据定距数据定比数据适用的测度指标众数中位数算术平均数算术平均数-1/4位数众数调和平均数-众数中位数几何平均数-1/4位数1/4位数-众数各种平均数的比较三、算术平均数与众数、中位数的关系众数、中位数与算术平均数之间，存在一定的关系。这种关系，取决于总体内部的次数分布状况。在单峰分布条件下，如果分布是对称的，则 Mo= Me=。(4.2.20)如果分布是左偏分布，说明数据存在极小值，必然拉动算术平均数向极小值靠拢，而众数、中位数是位置代表值，不受极值的影响，因此： Me Mo。(4.2

170、.21)反之，如果分布是右偏分布，则是 Mo Me。(4.2.22)Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.4 各种平均数的比较各种平均数的比较三、算术平均数与众数、中位数的关系Ch4 统计分布的数值特征统计分布的数值特征 4.2 位置平均数位置平均数4.2.4 各种平均数的比较各种平均数的比较MeMoMoMe图图47 众数、中位数与算术平均数的关系众数、中位数与算术平均数的关系Mo= Me= Me MoMo Me返回4.3 分布的离散程分布的离散程度度4.3.1变异指标4.3.2极差与分位差4.3.3平均差与标准差4.3.4变异系数Ch4 统计分布的

171、数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度返回4.3.1 变异指标变异指标变异指标，就是用来刻画总体分布的变异状况或者离散程度的指标。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度图图48 离散程度不同的分布离散程度不同的分布f(x).x0.总体总体2的分布的分布总体总体1的分布的分布4.3.1 变异指标变异指标通过变异指标，还可以反映平均指标的代表性，说明现象或过程的均衡程度与稳定程度；等等。在统计分析中，变异指标与平均指标，是互相补充的，常常

172、需要结合起来运用。分布的离散程度，可以从不同的角度，运用不同的变异指标进行考察。常用的变异指标，有极差、分位差、平均差、标准差和方差，等等，其中以标准差最为重要。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度返回4.3.2 极差与分位差极差与分位差一、极差R：极差是最简单的变异指标。它是一组数据的最大值与最小值之差。又称为“全距”。用公式表示为R = xmax- xmin.(4.3.1)如果是根据组距变量数列计算极差，由于分布的实际最大值与最小值已经难以确知，这时，只能利用最大组的上限和最小组的下限来估计R Umax - Lmin.(4.3.2)极差，反映的是

173、变量分布的变异范围或者离散程度，在总体中任何两个单位的标志值之差，都不可能超过极差， xi-xj R,ij.(4.3.3)极差的计算极其简单，含义直观，运用方便。但存在不足。一是它仅仅取决于两个极端值的水平，不能反映其间的变量分布情况；二是受个别极端值的影响过于显著，不符合“稳健性”和“耐抗性”的要求。为此，还需要适当运用其它的变异指标。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.2 极差与分位差极差与分位差二、分位差：分位差是极差的一种改进，它是排除了极端值的影响后，重新计算的类似极差的一种指标。常用的分位差，有4分位差、8分位差、10分位差、16

174、分位差、32分位差、.、100分位差，等等。这里仅以4分位差为例，加以说明。计算4分位差的目的，是直接排除部分极端值对变异指标的影响。为此，需要从总体分布中，先剔出最大、最小各四分之一的单位，再对中间剩余的总体单位数，计算“全距”。这个“全距”，实际上就是“上4分位数”与“下4分位数”之差，通常称为内距或4分位间距，记为QR。 QR=Q3-Q1。(4.3.4) QR反映了中间50%的数据的离散程度。QR值越小，说明中间的数据越集中；QR值越大，说明中间的数据越分散。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.2 极差与分位差极差与分位差二、分位差：Q

175、R与R的区别，仅仅在于其计算范围比较窄。但实际应用时，人们习惯取QR的一半为“4分位差”，记为QD。 QD= QR/2=(Q3-Q1)/2。(4.3.5)如果将Q3、Q1之间的中点值记为C，即 C=(Q3+Q1)/2。 (4.3.6)则由4分位差的定义可知：总体中50%的单位分布在CQD范围之内。另一方面，4分位差也可以表示Q3、Q1与Me的平均距离，即(4.3.7)它可以用于测量中位数的代表程度。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度返回4.3.3 平均差与标准差平均差与标准差一、平均差AD：也叫平均绝对偏差。是总体各变量值与其算术平均数离差的绝对值

176、之算术平均数。计算公式为：如果是未分组数据，则(4.3.8)如果是分组数据，则 (4.3.9) AD是全面地反映一组数据的离散程度的重要指标之一。AD值越大，说明分布越分散，AD值越小，说明分布越集中。但AD的数学性质较差，实际应用不多。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度【例4-23】观察某路口在若干个10分钟内的车流量，资料记录如下：26，26，38，24，32，22，15，33，19，26，21，29，16，20，34，24，27，30，31，33。计算该路口在10分钟内的车流量的平均差。解：计算其算术平均数计算其平均差Ch4 统计分布的数值特

177、征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.3 平均差与标准差平均差与标准差二、标准差与方差：标准差，是总体各变量值与其算术平均数离差的平方和之算术平均数的开平方根，标准差记为。而标准差的平方，则为总体变量的方差，方差记为2。其计算公式为：如果是未分组数据，则(4.3.10)如果是分组数据，则 (4.3.11)或者2，全面地反映一组数据与其均值的平均离散程度。或2值越大，说明分布越分散，或2值越小，说明分布越集中。Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.3 平均差与标准差平均差与标准差【例4-25】观察某路口在若干个10分钟内

178、的车流量，资料记录如下：26，26，38，24，32，22，15，33，19，26，21，29，16，20，34，24，27，30，31，33。计算该路口在10分钟内的车流量的标准差和方差。解：计算其算术平均数计算其方差于是，有=6.108191(辆/10分钟).Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.3 平均差与标准差平均差与标准差【例4-26】某路口50个工作日的车流量数据分布如下表。试计算其车流量的标准差和方差。组数i车流量变量xi日数fi组中值 fi 1105110f1=3107.5107.53=322.5739.472110115 f2

179、=5112.5112.55=562.5572.453115120 f3=8117.5117.58=940259.924120125 f4=14122.5122.514=17156.865125130 f5=10127.5127.510=1275184.96130135 f5=6132.5132.56=795518.947135140 f5=4137.5137.54=550817.96-合计f=50-61603100.5表表44 某路口日车流量标准差与方差计算表某路口日车流量标准差与方差计算表Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.3 平均差与标准

180、差平均差与标准差解：计算出日车流量数平均数计算出日车流量数方差于是，有=7.874643(辆/时).Ch4 统计分布的数值特征统计分布的数值特征4.3 分布的离散程度分布的离散程度4.3.3 平均差与标准差平均差与标准差或者2的数学性质，显然较AD要好，计算也比较简便，是统计分析中最重要、最常用的指标。当然，或者2的计算，如果是根据总体数据计算的，则2和称为总体方差和总体标准差；如果是根据样本数据计算的，则2和称为样本方差和样本标准差。样本方差或样本标准差，通常记为S2或者S，并且由于抽样估计的需要，其公式变化为：(4.3.12)这里，m为样本容量数或者样本单位分组数。并且m0时，则分布为正(

181、右)偏分布。如果0时，分布为负(左)偏分布。Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度对称分布对称分布图图49 对称分布、正偏分布、负偏分布对称分布、正偏分布、负偏分布=00正偏分布正偏分布负偏分布负偏分布返回4.4.3 分布的峰度分布的峰度分布的峰度是指分布的扁平程度。如果总体在众数周围的集中程度很高，其分布的图形，就会比较陡峭；反之，如果总体在众数周围的集中程度较低，其分布图形，就会比较平坦。峰度的扁平程度，通常是与正态分布相比较而言的。如果分布的形状，比正态分布更瘦更高，则称为尖峰分布；如果分布的形状，比正态分布更胖更矮，则称为平峰分布。峰度指标

182、，就是反映这方面情况的一个数值特征。因此，峰度的测度，定义公式为(4.4.8)Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度4.4.3 分布的峰度分布的峰度如果=0时，则分布为扁平程度适中的正态分布。如果0时，则分布为尖峰分布。如果0时，分布为平峰分布。Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度图图410 尖峰分布和平峰分布尖峰分布和平峰分布0尖峰分布尖峰分布返回4.4.4 偏度与峰度的计算偏度与峰度的计算偏度和峰度的计算过程比较烦琐，尤其在实际分析中，数据量通常比较大，一般需要通过计算机来进行处理。利用相应的软件

183、，有关计算能够很容易地实现。下面通过一个简单的实例，说明偏度和峰度的计算过程。Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度【例4-27】某路口50个工作日的车流量数据分布如下表。试计算其车流量的偏度与峰度。组数i车流量xi日数fi组中值 fi 11051103107.5322.5739.47-11609.71822722110115 5112.5562.5572.45-6125.2265539.83115120 8117.5940259.92-1481.548444.8014120125 14122.517156.86-4.8023.3614512513

184、0 10127.51275184.9795.073418.8016130135 6132.5795518.944826.14244883.127135140 4137.5550817.9611696.83167264.6-合计50-61603100.5-1903.2471826.5-平均-123.262.01-38.0649436.53表表44 某路口日车流量偏度与峰度计算表某路口日车流量偏度与峰度计算表Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度4.4.4 偏度与峰度的计算偏度与峰度的计算4.4.4 偏度与峰度的计算偏度与峰度的计算解：根据计算表中的数

185、据，有Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度4.4.4 偏度与峰度的计算偏度与峰度的计算所以，由于0，0，则车流量分布为平峰负(左)偏分布。Ch4 统计分布的数值特征统计分布的数值特征4.4 分布的偏度和峰度分布的偏度和峰度图图43 某路口车流量分布某路口车流量分布f(x).x14013012011051015123.21000返回Ch4 内容小结内容小结4.1 统计平均数统计平均数数值平均数数值平均数4.2 统计平均数统计平均数位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度Ch4 统计分布的数值特

186、征统计分布的数值特征Ch5抽样与抽样分布介绍抽样与抽样的性质。下一章下一章Ch4 统计分布的数值特征统计分布的数值特征4.1 数值平均数数值平均数4.2 位置平均数位置平均数4.3 分布的离散程度分布的离散程度4.4 分布的偏度和峰度分布的偏度和峰度思考与练习思考与练习4.1，什什么么是是数数值值平平均均数数？什什么么是是位位置置平平均均数数？两两类类平平均均数数有有什什么么不不同？同？4.2，怎怎样样理理解解，平平均均指指标标是是频频率率分分布布中中集集中中趋趋势势的的数数量量特特征征？变变异异指标是离中趋势的数量特征？指标是离中趋势的数量特征？4.3，运运用用加加权权算算术术平平均均数数时

187、时，怎怎样样正正确确选选择择权权数数？为为什什么么说说，简简单单平均数是加权算术平均数的特例？平均数是加权算术平均数的特例？4.4，怎样正确运用算术平均数、调和平均数、几何平均数？，怎样正确运用算术平均数、调和平均数、几何平均数？4.5，算算术术平平均均数数、众众数数、中中位位数数作作为为平平均均指指标标，各各有有什什么么不不同同的的特特点？它们之间的关系如何？点？它们之间的关系如何？4.6，极极差差、分分位位差差、平平均均差差、标标准准差差、偏偏度度、峰峰度度作作为为变变异异指指标标，各有什么不同的特点？它们之间的关系如何？各有什么不同的特点？它们之间的关系如何？4.7，某快餐店记录了某快餐

188、店记录了20位顾客的用餐时间，资料如下：位顾客的用餐时间，资料如下： Ch4 统计分布的数值特征统计分布的数值特征Ch5抽样与抽样分布统计学原理统计学原理n5.1随机抽样(new)n5.2随机变量的分布(new)n5.3抽样分布(new)n5.4抽样方法与抽样误差(new)主要介绍：随机抽样，随机变量的分布，抽样分布，抽样方法与抽样误差。Ch5主要内容Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)Ch5 学习目的学习目的1，掌握随机抽样及

189、其性质2，掌握抽样方法与抽样误差的关系Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)Ch5抽样与抽样分布统计学原理统计学原理5.1随机抽样(new)5.2随机变量的分布(new)5.3抽样分布(new)5.4抽样方法与抽样误差(new)5.1 随机抽样随机抽样5.1.1现象的随机化5.1.2样本空间、事件、概率、分布函数5.1.3随机抽样5.1.4样本统计量Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机

190、变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)返回在前面的几章里，我们用统计整理和统计描述的方法，研究了现象总体的数量特征和数量关系，比如计算总体平均数、总体的标准差、总体的方差和总体的分布，通过对这些指标的计算，我们得到了研究现象的规律性认识。我们亦可以用同样的方法，去研究样本的平均数、样本的标准差、样本的方差和样本分布，并且还可以利用样本的平均数、样本的标准差、样本的方差和样本分布，去反推总体的数量特征和数量关系，从而得到现象总体规律性的认识。用样本的资料去估计总体的方法，就是抽样估计。5.1.1 现象的随机化现象

191、的随机化Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)探索客观规律的过程5.1.1 现象的随机化现象的随机化Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)随机理论总体内在的数量规律性，F(x；)统计整理和统计描述总体数据样本数据图图51 探索客观规律的统计过程探索客观规律的统计过程抽样估计和统计推断反映客观现象的统计数据样本数据5.1.1 现象的随机化现象的随机化探索客观规律的过程Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)图图51 探索客观规律的统计过程探索客观规律的统计过程可靠性总体分布函数F

192、(x；)样本数据X样本统计量样本分布函数F(X；)随机样本可靠性总体参数样本参数抽样分布F()E(X)=E(x)=D(x)=2D(X)=S2D( )E( )=| |抽样估计是一种比较经济的估计方法。它的特点是利用随机抽样的理论，用比较少的数据及比较小的误差去达到处理大量数据的目标，从而得到现象总体规律性的认识。它是一种数据处理的优化方法。为保证抽样理论的完整性和科学性，从这一节开始，我们将对所研究的现象进行随机化处理，即用概率的理论去研究现象的规律性。表5-1是现象随机化一揽表。5.1.1 现象的随机化现象的随机化Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.1.1

193、现象的随机化现象的随机化数理统计概率统计数学表示客观现象试验抽样试验试验的结果、样本组成单位、个体基本事件、样本点、元素 i；i=1,2,3, N。样本的所有可能结果、样本空间S、总体基本事件全集S= i；i=1,2,3,N。频率、事件A在S中出现的频率、fn(A)= n /N概率、事件A在S中出现的可能性、Pro(A|S)=ProA()|S数据X变量XX事件A量化为数据X、样本数据X(A)随机变量X(A)X(A)A= i；i=1,2,3,n。nN事件S量化为数据X、总体数据X(S)随机变量X(S)X(S)S = i；i=1,2,3, N。基本事件i量化为数据Xi i Xi()如果i=1,2

194、,3, n。则Xi()表示样本数据，X=Xi()； i=1,2,3,., n；如果i=1,2,3,.,N。则Xi()表示总体数据，x=Xi()； i=1,2,3,., N。X,x R统计分布概率分布总体F(x ；)；样本 F(X；)特征指标分布参数总体特征指标总体分布参数样本特征指标样本统计量、分布参数变量(X) Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)表表5-1 现象随机化一揽表现象随机化一揽表返回5.1.2 样本空间、事件、样本空间、事件、概率、分布函数概率、分布函数Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n随机现象随机现象n在个

195、别试验中其结果呈现不确定性；在大量的重复试验中其结果又具有规律性的现象，我们称为随机现象。比如我们感兴趣的现象总体，如果具有上述特征，那么这个现象总体就是一个随机现象。通常，我们所研究的总体都是随机现象。随机现象总体表现记为X。n随机事件随机事件(试验试验)n在某种随机现象里，在一定条件下，可能发生也可能不发生的事件，就是随机事件。比如，在总体中的某个样本，在一定条件下，可能被抽取出来，也可能没有抽取出来，那么这个样本是否能够出现，就是一个随机事件。随机事件一个偶然事件，通常用表示。反之，在同样条件下不可能出现的事件，叫不可能事件；不可能事件用V表示。在同样条件下一定出现的事件，叫必然事件；必

196、然事件用U表示。在概率统计里，U和V本身也是一个随机事件。VU。5.1.2 样本空间、事件、样本空间、事件、概率、分布函数概率、分布函数Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n样本空间样本空间n随机事件的所有可能结果所组成的集合，称为样本空间。样本空间记为S，S=或S=X()或者S=Xi；i=1,2,3,.,N 。样本空间的每个结果，称为样本点。对于样本空间S，满足给定性质的样本点集合A，就是事件A。事件A是样本空间的一个样本。样本A由若干个样本点组成。显然，样本空间S是一个必然事件，S=U；空集是一个不可能事件，=V。于是，也有S。当然，AS。样本空间，随机事

197、件的变化范围是。n随机变量随机变量n在抽样过程中，每次抽取出来的样本结果都是不可预知的。因此，常常把样本叫做随机样本；这个样本的特征表现，就叫一个随机变量。比如我们抽取的样本数据，其数据结果就是一个随机变量。随机变量是随机事件数量化的结果，常常用X()表示。如果建立事件与数量序数i的对应关系，则随机变量又可用Xi表示。在大多数情况下，随机事件和随机变量是等同使用的。5.1.2 样本空间、事件、样本空间、事件、概率、分布函数概率、分布函数Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n概率概率n在相同条件S下随机实验N次，事件出现n次，nN，于是比值n/N就称为事件发生的

199、i=1,2,3,.,N.(5.1.5)5.1.2 样本空间、事件、样本空间、事件、概率、分布函数概率、分布函数Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n概率分布函数随机变量X的所有可能结果，与其相应的概率ProX()|S 排列，就是X的概率分布。如Pro X=xi |S ；i=1,2,3,.,N.(5.1.6)定义：由X所决定的概率函数ProX()|S 为一个分布函数，记为 F(x)=ProX x .(5.1.7)其中：x表示Xi中的任何一个值，它既表示X的所有可能变化范围，又表示样本观察值的全集；X x表示一个X在一个相对固定的数量集x上的变化；而F(x)则表示

200、X的概率在某个范围X x上的连续累积，它反映了X在某个值域上的概率变化规律，是对随机变量X统计规律性的完整描述。5.1.2 样本空间、事件、样本空间、事件、概率、分布函数概率、分布函数Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n概率分布函数（续）当Xi是分离的值时，F(x)是离散分布函数，离散分布函数表示为(5.1.8)如果Xi是连续的变量，F(x)则是连续分布函数，F(x)为(5.1.9)其中，f(X)是连续分布函数的概率密度函数。对于一个具体的分布函数F(x)，决定F(x)值的因素，除了随机变量X外，还有分布的参数，是决定分布形状的重要指标，因此，分布函数常常又

201、表示为F(x;)。比如(5.1.10)返回5.1.3 随机抽样随机抽样Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)n所谓抽样，就是从总体中按一定的抽样技术抽取若干个体，所抽取的若干个体称为一个样本；样本的抽取过程就称为抽样。样本中所含个体的数量称为样本容量。样本中每个个体的值就叫样本观察值。其一般数量表示是：设X1,X2,X3,Xn是从总体X得到的一个容量为n的简单样本；如果X是具有分布函数F的随机变量，则样本X1,X2,X3,Xn就是一个具有同一分布 F的、相互独立的随机变量，随机变量组X1,X2,X3,Xn就为从总体X得到

202、的容量为n的简单随机样本；样本的观察值x1,x2,x3,xn称为样本值，又称为X的n个独立的观察值。抽样（续）因此，若X1,X2,X3,Xn为F的一个样本，则X1,X2,X3,Xn的联合分布函数为(5.1.11)如果X具有概率密度f，则X1,X2,X3,Xn的联合概率密度函数为(5.1.12)这个结论，从分布的特征表示角度理解，就是样本与总体应该具有相似性与独立性。抽样的目的是为了推断总体的某些重要特征，即利用样本推测总体分布特征和分布函数。具体地说，就是求F(x；)和。5.1.3 随机抽样随机抽样Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)返回样本统计量样本是进行统

203、计推断的依据。在应用时，往往不是直接使用样本本身，而是针对不同的问题构造样本的函数，利用这些样本函数进行统计推断。这些与样本有关的函数，就是样本统计量。样本统计量定义为：设X1,X2,X3,Xn是来自总体X的一个样本，Z(X1,X2,X3,Xn)是X1,X2,X3,Xn的函数，若Z是连续函数且Z中不含任何未知参数，则称Z(X1,X2,X3,Xn)是一样本统计量，简称统计量。样本统计量统一简记为Zn=Z(X1,X2,X3,Xn)。下面列出的是几个常用的统计量。5.1.4 样本统计量样本统计量Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)样本平均值(5.1.13)样本方差(

204、5.1.14)样本标准差(5.1.15)样本k阶原点矩(5.1.16)样本k阶中心矩(5.1.17)5.1.4 样本统计量样本统计量Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)样本统计量（续）它们的观察值分别为(5.1.18)5.1.4 样本统计量样本统计量Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)样本统计量（续）如果样本是一个随机样本，X1,X2,X3,Xn1是一个随机变量，则样本统计量也将变成一个随机变量。样本统计量Zn=Z(X1,X2,X3,Xn)是随机变量X的函数。由于样本统计量是反映总体特征参数的函数，它与抽样有关，因此样本统计量

205、分布又叫抽样分布。可以证明，在抽样条件下，可以用样本的统计均值去估计总体的期望值E(X)=1，用样本的统计方差S2去估计总体的方差2，等等。1,2是总体参数的一部分。5.1.4 样本统计量样本统计量Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)返回5.2 随机变量的分随机变量的分布布5.2.1随机变量的分布5.2.2分布的数量特征5.2.3二项分布5.2.4正态分布5.2.5大数定律与中心极限定理Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差

206、抽样方法与抽样误差(new)返回5.2.1 随机变量的分布随机变量的分布Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)n统计估计的核心问题是求F(x；)和。n求F(x；)和就必须掌握X的分布和的分布。的分布又叫参数分布。n这里先了解基本随机变量X的分布。抽样分布将在下一节讨论。F(x；)F(X；) F(X；) = (X)F(X)F()随机变量的分布随机变量函数的分布、参数分布、抽样分布。n,N比较小时，可列出。 F()n,N比较大时，可求出精确分布或者极限分布。5.2.1 随机变量的分布随机变量的分布Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布

207、随机变量的分布(new)n设X是一个随机变量，x是一个任意实数，则由(5.1.7)所定义的函数 F(x)=ProX x .(5.2.1)就为X的分布函数。对于任意的实数x1，x2，我们有Prox1X x2 =ProX x2 -ProX x1 (5.2.2)=F(x2)-F(x1).因此，只要知道X的分布函数，就可知道落在任一区间(x1，x2)上的概率。如果将X看成是数轴上随机点的坐标，那么，F(x)在x处的函数值就表示X落在区间(-，x)上的概率。5.2.1 随机变量的分布随机变量的分布Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)n显然，对于离散型随机变量

208、，有(5.2.3)对于连续型随机变量，有(5.2.4)其中，f(X)是连续分布函数的概率密度函数。并且由(5.1.10)有最典型的分布，离散型为二项分布，连续型为正态分布。返回5.2.2 分布的数量特征分布的数量特征分布的数量特征就是指分布F(x；)的参数。分布参数是决定分布形状及分布特征的重要指标。常用的参数指标有：数学期望，方差，。数学期望设离散型随机变量X的分布律为Pro X=Xi =Pi；i=1,2,3,.(5.2.5)如果级数绝对收敛，则称级数的和为离散型随机变量X的数学期望，记为E(X)，即(5.2.6)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(ne

209、w)5.2.2 分布的数量特征分布的数量特征数学期望（续）设连续型随机变量X的概率密度为f(x)，若积分绝对收敛，则称积分的值为连续型随机变量X的数学期望，记为E(X)，即(5.2.7)数学期望简称为期望，又称为均值。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.2 分布的数量特征分布的数量特征方差设X是一随机变量，如果EX-E(X)2存在，则称EX-E(X)2为X的方差，记为D(X)或者Var(X)，即 D(X)=Var(X)= EX-E(X)2.(5.2.8)D(X)刻画了X的取值与其数学期望的偏离程度。如果X取值比较集中，则D(X)较小，反之，

210、则D(X)比较大。因此，D(X)是衡量X取值分散程度的一个尺度。有 D(X)=E(X2)-E(X)2.(5.2.9)对D(X)开平方根，记为(X)，(5.2.10)(X)称为标准差或均方差。(X)是与随机变量具有相同量纲的量。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.2 分布的数量特征分布的数量特征Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)n协方差与相关系数如果X,Y不是相互独立，而是存在一定的关系，EX-E(X)Y-E(Y)0.，则称EX-E(X)Y-E(Y)为的X与Y的协方差。记为Cov(X,Y)，即C

211、ov(X,Y)=EX-E(X)Y-E(Y).(5.2.11)而(5.2.12)称为随机变量X与Y的相关系数。XY也是一个无量纲的量。可以证明 Cov(X,Y)= E(X Y)-E(X)E(Y).(5.2.13)0|XY|1.(5.2.14)XY是一个表征X与Y之间线性相关程度的量。当|XY|较大时，X,Y线性相关程度较好；当|XY|较小时，X,Y线性相关程度较差；当|XY|=0时，X,Y线性不相关；当|XY|=1时，X,Y之间以概率1存在线性相关关系。5.2.2 分布的数量特征分布的数量特征矩设X与Y是随机变量，如果 E(Xk)；k=1,2,.(5.2.15)存在，称它为X的k阶原点矩，简称为

212、k阶矩。若 EX- E(X)k；k=1,2,.(5.2.16)存在，称它为X的k阶中心矩。如果 E(XkYl)；k,l=1,2,.(5.2.17)存在，称它为X和Y的k+l阶混合矩。若 EX- E(X)kEY- E(Y)l；k,l=1,2,.(5.2.18)存在，称它为X和Y的k+l阶混合中心矩。显然，E(X)是X的一阶原点矩，D(X)是X的二阶中心矩，Cov(X,Y)是X与Y的1+1阶混合中心矩。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.2 分布的数量特征分布的数量特征位置表征满足不等式ProX xp，ProX x 1-p；(0p1) (5.2

213、.19)的x值为p阶分位数，记为xp。如果随机变量X是连续型的，那么p阶分位数就是满足方程 F(x)=ProX x=p；(5.2.20)的x值。可能有几个x值满足不等式(5.2.19)或者方程(5.2.20)。这时每一个数值都称为p阶分位数。通常较小的称为p阶下分位数，较大的称为p阶上分位数。例如，p=1/2，x1/2称为1/2分位数；p=1/4，x1/4称为1/4分位数。分位数及它的函数通称为位置表征。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)返回5.2.3 二项分布二项分布设有n次试验，各次试验是彼此独立的，每次实验事件A出现的概率都是P，事件A不出

214、现记为，它的概率都是q=1-P，这种重复试验叫做重复实验。在n次重复试验中，如果事件A出现X=0,1,2,n次的概率，依次为二项展开式(P+q)n=Cn0Pn+C n1Pn-1q+C n2P n-2q2+.+C nn-1P1q n-1+C nnq n.的各相应项，即(5.2.21)则这个概率分布就叫二项分布。Bernoulli最先研究了这个分布，所以又叫Bernoulli分布。二项分布简单记为X b(x；n，P)；b(x；n，P)= C nxPxq n-x。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.3 二项分布二项分布二项分布（续）二项分布的数值

215、，取决于试验的次数n和每次事件A出现的概率P。如果n=1，则二项分布就是二点分布。二点分布是二项分布的特例，X只能是0,1记为X b(x；1，P)。二项分布的分布函数为(5.2.22)其期望值和方差为 E(X)=nP；D(X)=nPq；(5.2.23)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.3 二项分布二项分布二项分布（续）特别地，当P很小，n为极大，nP恒定保持为一个常数，nP=时，有(5.2.24)但当n为极大，P不是很小，则为(5.2.25)它表示，如果X表示在n次独立试验中成功的次数，P为每单一试验成功的概率，则当试验次数无限增大时，在

216、P很小或者不是很小时，变量X的分布分别趋近于两种不同的分布：前者为泊松分布；后者则是正态分布。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.3 二项分布二项分布二项分布（续）Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)图图52 二项分布密度与分布函数二项分布密度与分布函数P(x)xx二项分布函数二项分布密度F(x)n=10,P=0.50123456789100.20.30.2n=10,P=0.5000.10.61012345678910返回5.2.4 正态分布正态分布如果随机变量X是一个连续变量，且X的概率密度为

217、(5.2.26)则称X服从正态分布N(,2)；简记为XN(,2)。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)图图53 正态分布密度与分布函数正态分布密度与分布函数f(X)X0x0正态分布函数正态分布密度F(x)=0.5=2=110.55.2.4 正态分布正态分布正态分布N(,2) f(X)的图形呈对称钟形，对称轴为X=；f(X)的最大值在X=，在X=有拐点；当X时，曲线以X轴为渐近线。当大时，曲线平缓；当小时，曲线陡峭。如果=0,2=1，则N(0,1)就称为标准正态分布。它的概率密度为(5.2.27)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的

218、分布随机变量的分布(new)5.2.4 正态分布正态分布正态分布（续）如果XN(,2)，则X的分布函数可表示为(5.2.28)因为只要令Z=(X-)/，z=(x-)/，就有(5.2.29)则证明，如果XN(,2)，则随机变量Z=(X-)/N(0,1)。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.4 正态分布正态分布正态分布（续）进一步，令(5.2.30)容易得，(-x)=1(x)。已经编制了(x)的函数表在附表，供查用。于是正态分布函数可表示为Pro(X x)=(x)。可以证明，正态分布N(,2)的E(X)=，D(X)=2。显然，当n为极大，P不是

219、很小，如果二项分布的极限分布是正态分布，则其平均数为nP、方差为nP(1-P)。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.4 正态分布正态分布正态分布（续）Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)图图54 标准正态分布与上标准正态分布与上分位点分位点f(Z)Z0Z0正态分布上分位点标准正态分布1-Zf(z)返回5.2.5 大数定律与中心极限定理大数定律与中心极限定理大数定律是反映算术平均数稳定性与频率稳定性的定律。它们由以下三组定理组成：定理一契比雪夫定理特例。定理二贝努利定理。定理三辛钦定理。是随机变量

220、函数的分布的基础。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理定理一契比雪夫定理特例。设随机变量X1,X2,X3,Xn,相互独立，且具有相同的数学期望和方差，E(Xi)=，D(Xi)=2，i=1,2,.。作前n个随机变量的算术平均(5.2.31)则对于任意的正数有(5.2.32)或者表达为：设随机变量X1,X2,X3,Xn,相互独立，且具有相同的数学期望和方差，E(Xi)=，D(Xi)=2，i=1,2,.。则序列Yn依概率收敛于。记为(5.2.33)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量

221、的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理定理二贝努利定理。设nA是n次独立重复试验中事件A发生的次数。P是事件A在每次试验中发生的概率，则对于任意的正数有(5.2.34)在抽样统计里，nA/n也叫抽样成分数，简称为成数。定理三辛钦定理。设随机变量X1,X2,X3,Xn,相互独立，服从相同的分布，且具有数学期望E(Xi)=，i=1,2,.。则对于任意的正数有(5.2.35)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理中心极限定理在客观实际中有许多随机变量，它

222、们是由大量的相互独立的随机因素的综合影响所形成的。而其中每一个个别因素在总体中的影响作用都是很小的。这种随机变量往往近似地服从正态分布。它同样由3组定理组成：定理一独立同分布的中心极限定理。定理二Liapunov中心极限定理。定理三DeMoivreLaplace定理。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理定理一独立同分布的中心极限定理。设随机变量X1,X2,X3,Xn,相互独立，服从相同的分布，且具有相同的数学期望和方差，E(Xi)=，D(Xi)=2，i=1,2,.。则随机变量(5.2.36)的

223、分布函数Fn(x)，对于任意的x满足(5.2.37)Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理定理二Liapunov中心极限定理。设随机变量X1,X2,X3,Xn,相互独立，它们有数学期望和方差，E(Xi)=i，D(Xi)=i2，i=1,2,.。记(5.2.38)如果存在正数，使得当n时，(5.2.39)则随机变量(5.2.40)的分布函数Fn(x)，对于任意的x满足(5.2.41)即不论X服从什么分布，只要n ，随机变量Zn将近似地服从标准正态分布。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机

224、变量的分布随机变量的分布(new)5.2.5 大数定律与中心极限定理大数定律与中心极限定理定理三DeMoivreLaplace定理。设随机变量n服从参数为n,P的二项分布，则对于任意的x，恒有(5.2.42)这个定理表明，正态分布是二项分布的极限分布。即(5.2.43)在抽样统计里，n/n也叫抽样成数。Ch5 抽样与抽样分布抽样与抽样分布5.2 随机变量的分布随机变量的分布(new)返回n统计估计的核心问题是求F(x；)和。n求F(x；)和就必须掌握X的分布和的分布。的分布又叫参数分布。n在上一节，我们了解了随机变量X的分布。在这里了解可列的抽样分布。n可列的抽样分布，就是样本的所有可能取值与

225、相应的概率组成。F(x；)F(X；) F(X；) = (X)F(X)F()随机变量的分布随机变量函数的分布、参数分布、抽样分布。n,N比较小时，可列出。 F()n,N比较大时，可求出精确分布或者极限分布。5.3 抽样分布抽样分布Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)n样本统计量的分布，统称为抽样分布。n抽样分布，就是样本统计量Zn=Z(X1,X2,X3,Xn ；)的分布。n样本统计量是样本的函数，它是一随机变量。在使用统计量进行统

226、计推断时，常需知道它的分布。n对于任意一个给定统计量Zn=Z(X1,X2,X3,Xn ；)，其分布的确定，一般有两种情况：n第一种是，当总体的分布函数已知时，Zn的分布是可精确确定的，但这种情况极少，绝大多数只能求出它们的极限分布，即样本数目n时统计量Zn的渐近分布；n另一种是，总体的分布函数为未知时，只能求出的样本统计量的极限分布。支持统计量极限分布的理论依据，是概率函数序列中的极限定理。n下面我们顺序给出若干统计量的分布结论，并假定样本都是简单随机样本，不涉及它们的证明。5.3 抽样分布抽样分布5.3 抽样分布抽样分布5.3.1样本均值分布与中心极限定理5.3.2样本成数的分布5.3.32

227、分布与2阶原点矩的分布5.3.4t分布5.3.5样本方差的分布与样本标准差的分布5.3.6F分布与两个样本方差比的分布5.3.7样本相关系数的分布5.3.8样本矩的极限分布Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)返回n样本平均数的分布（可列的）n总体中全部样本平均数的可能取值与相应的概率排列。n重置抽样n不重置抽样n【例5-1】（p111）总体34，38，42，46，50，=42，2=32。重置抽取2个构成样本。求样本平均数的分布。

228、n解：重置抽取2个构成样本，其样本总数为C51C51=25。其样本平均数的全部可能数据为Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)样本变量34384246503434363840423836384042444238404244464640424446485042444648505.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理n整理数据，可得样本平均数的分布。n同时得样本平均数的期望值和样本平均数的方差，以及样本与总体的关系Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)样本平均数频数fi频率3411/253622/253833/

229、254044/254255/254444/254633/254822/255011/25合计251fi3436384042444648505.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理n【例5-2】（p115）总体34，38，42，46，50，=42，2=32。不重置抽取2个构成样本。求样本平均数的分布。n解：不重置抽取2个构成样本，其样本总数为A52=C51C41=20。其样本平均数的全部可能数据为Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)样本变量343842465034-363840423836-404244423840-44464640424

230、4-485042444648-5.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理n整理数据，可得样本平均数的分布。n同时得样本平均数的期望值和样本平均数的方差，以及样本与总体的关系Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)样本平均数频数fi频率3622/203822/204044/204244/204444/204622/204822/20合计201fi3436384042444648505.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理n当n,N比较小时，可得可列的样本平均数的分布。但如果n,N非常大时，其样本平均数的分布是怎样的呢？n

231、一、精确分布：n如果X N(,2)，X1,X2,X3,Xn是X的一个样本，则样本平均数n其中重置抽样n不重置抽样Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理n二、中心极限定理(极限分布)：n如果X的均值为，方差为2，X1,X2,X3,Xn是X的一个样本，则不论X服从什么分布，只要X存在矩母函数，总有n(5.3.3)n并且，当n30时，近似服从N(,2/n)。n因此，亦可有Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.1 样本均值分布与中心极限定理样本均值分布与中心极限定理返

232、回5.3.2 样本成数的分布样本成数的分布Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回n从任一总体成数为P，方差为P(1-P)的(0,1)分布中，抽取样本容量为n的样本，其样本成数p的分布，当样本单位数n25时，其分布为二项分布；当n 25时，其分布趋近于平均数为E(p)= P，标准差为p的正态分布。即 pN(P,p2)其中，当抽样为简单重置抽样时，当抽样为简单不重置抽样时，5.3.3 2分布与分布与2阶原点矩的分布阶原点矩的分布2分布如果X1,X2,X3,Xn是来自总体N(0,1)的样本，则统计量2=X12+X22+X32+Xn2(5.3.4)服从自由度为n的2

233、分布，记为22(n)。其中，自由度是指独立变量的个数。2分布的概率密度为(5.3.5)f(y=2)的图形如图5-5所示。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.3 2分布与分布与2阶原点矩的分布阶原点矩的分布2分布（续）2分布的期望值和方差为 E(2)=n；D(2)=2n；(5.3.6)Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)图图55 2分布与上分布与上分位点分位点f(y)y0y0f(y)2分布n=11-2(n)n=5n=152分布上分位点5.3.3 2分布与分布与2阶原点矩的分布阶原点矩的分布2分布（续）又由于，(5.3.7

234、)于是，可知2分布也是一个特殊的分布。对于给定的正数，030)时，t分布近似于N(0,1)分布。但对于较小的，t分布与N(0,1)分布相差很大。 t分布与无关，且只存在阶数kn-1的矩。例如，当n=2时，就根本没有矩。对于给定的正数，01，则满足条件(5.3.17)的点t (n)为t (n)分布的上分位点，如图5-6所示。由t (n)分布的上分位点定义及h(t)图形的对称性质知t1-(n)=-t (n)，t (n)分布的上分位点可查表求得。例如，对于=0.1,n=25，查得t (n)=1.3163。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回5.3.5 样本方差的

235、分样本方差的分布与样本标准差的分布布与样本标准差的分布样本方差的分布如果X N(,2)，X1,X2,X3,Xn是X的一个样本，则与样本方差有关的统计量(5.3.18)于是，样本方差的期望值和方差为 E(S2)=2；D(S2)=24/ n；(5.3.19)样本标准差的分布如果X N(,2)，X1,X2,X3,Xn是X的一个样本，则与样本标准差有关的统计量(5.3.20)Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回5.3.6 F分布与两个分布与两个样本方差比的分布样本方差比的分布 F分布设U 2(n1)，V 2(n2)，并且U,V相互独立，则称随机变量(5.3.21

236、)服从自由度为(n1,n2)的F分布，记为F F(n1,n2)。 F分布又称为R.A.Fisher分布。 F(n1,n2)分布的概率密度为(5.3.22)(y=F)的图形如图5-7所示。由定义可知，如果F F(n1,n2)，则1/F F (n2,n1)。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.6 F分布与两个分布与两个样本方差比的分布样本方差比的分布 F分布(续)Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)图图57 F分布与上分布与上分位点分位点(y)y0y0(y)F分布n1=10,n2=25 1- F(n1,n2)F分布上分

237、位点n1=10,n2=5n1=10,n2=15.3.6 F分布与两个分布与两个样本方差比的分布样本方差比的分布 F分布(续)对于给定的正数，01，则满足条件(5.3.23)的点F (n1,n2)为F(n1,n2)分布的上分位点，如图5-7所示。 F分布的上分位点有表可查。F分布的上分位点有如下性质： F 1-(n1, n2)=1/ F (n2,n1).(5.3.24)可利用该性质求出F分布表上未列出的上分位。例如，F 0.95(12, 9)=1/ F0.05 (9,12)=1/2.80=0.357.Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.6 F分布与两个分

238、布与两个样本方差比的分布样本方差比的分布两个样本方差比的分布如果X1,X2,X3, Xn1是来自N(1,12)的一个样本， Y1,Y2,Y3,Yn2是来自N(2,22)的一个样本，而且相互独立，则两个样本方差比(5.3.25)Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回5.3.7 样本相关系数的分布样本相关系数的分布样本相关系数的理论分布是非常复杂的，只有在特殊情况下，如总体=(X,Y)服从二维正态分布时，才能准确地求出它的概率密度函数。从=(X,Y)中抽取n个样本，并定义样本相关系数为(5.3.26)有的概率密度为(5.3.27)可见，的分布仅与总体相关系数

239、和样本大小n有关。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.7 样本相关系数的分布样本相关系数的分布样本相关系数（续）当=0时，利用函数和B函数的关系并做变换z=x2，则的概率密度可化为(5.3.28)做变换，(5.3.29)于是有(5.3.30)可证明，t t(n-2)。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回5.3.8 样本矩的极限分布样本矩的极限分布统计量的确切分布，一般很少而且困难，实用价值不多。对于我们经常用到的统计量，我们能够比较容易地找出它们的极限分布。因为当n时，统计量的极限分布与确切分布非常近似，如果样

240、本的容量足够大时，我们可以用极限分布代替确切分布。如果X1,X2,X3,Xn1是相互独立，且来自同一总体X，若总体X的k阶原点矩E(Xk) k存在，且总体X的k阶中心矩D(Xk)2k-k2=mk也存在，则当n时，Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.8 样本矩的极限分布样本矩的极限分布这是因为X1,X2,X3,Xn独立且与X同分布，故Xk1,Xk2,Xk3,Xkn独立且与Xk同分布。故有E(Xk1)=E(Xk2)=E(Xk3)=E(Xkn)=k.由辛钦大数定理有由依概率收敛的序列性质有(5.1.10)其中g为连续函数。也可证明，当n时，样本k阶中心矩随

241、机收敛到总体的k阶中心矩，子样的方差随机收敛到总体的方差。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)5.3.8 样本矩的极限分布样本矩的极限分布又由于X1,X2,X3,Xn的相互独立性，有(5.3.31)于是，由勒维定理，当n时，正态随机变量(5.3.32)的分布函数组成的序列趋近于极限分布函数(x)。因此有，如果总体X有有限矩2k，那么k阶样本矩A k渐近地服从正态分布(5.3.33)这是我们进行矩估计的理论基础。Ch5 抽样与抽样分布抽样与抽样分布5.3 抽样分布抽样分布(new)返回5.4 抽样方法与抽抽样方法与抽样误差样误差5.4.1抽样方法5.4.2抽样

242、平均误差Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差抽样方法与抽样误差(new)返回5.4.1 抽样方法抽样方法利用统计量进行统计推断时，需要估计样本统计量与总体参数真值之间的偏误。这个偏误，通常用样本统计量的估计标准差Z来衡量。Z又叫抽样平均误差，抽样平均误差是统计推断的一个重要精度指标，它是抽样过程中的系统性误差。抽样平均误差Z的大小，与抽样的方法有关。一般的抽样方法，主要有简单随机抽样、分层抽样、等距抽样、整群抽样和两阶段抽样等。而每一种抽样方法，均又可分重

243、置抽样和不重置抽样为两种。不同的抽样方法对Z的影响是不同的。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.1 抽样方法抽样方法简单随机抽样是按随机原则直接从总体N个单位中抽取n个单位作为样本。不论是重置抽样或不重置抽样，抽样都要保证每个单位在抽选中有相等的中选机会。这种方法除了要求有一个总体抽样框X外，不需要利用任何其他信息，所以也称为单纯随机抽样。简单随机抽样是抽样中最基本也是最简单的方式。以上各节所讨论的抽样方法都是指简单随机抽样。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)总体样本简单重置抽

244、样总体样本图图58 简单随机抽样简单随机抽样简单不重置抽样5.4.1 抽样方法抽样方法分层抽样也叫类型抽样，就是先将总体分成不同的“层或者类”，然后在每一“层或类”进行随机抽样。分层抽样，可防止简单随机抽样的样本构成与总体结构不一致。目的是提高样本的代表性。它的数学描述是：将总体N个单位分为k组，使N=N1+N2+Nk，然后从每组的Ni中取ni构成容量为n的样本，n=n1+n2+nk。由于ni是按比例确定的，因此分层抽样也叫比例抽样。采用按比例抽样是为了保持样本结构和总体结构相同，避免样本平均数由于各组比重差异而引起误差。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与

245、抽样误差(new)样本，n个单位总体，N个单位N1n1n2.ni.nkN2.Ni.Nk图图59 分层抽样分层抽样5.4.1 抽样方法抽样方法等距抽样也称机械抽样或系统抽样，它是先按某种标志对总体各单位进行顺序排列，然后在样本框内每隔一定距离抽取一个样本单位。具体是设总体由N个单位组成，现在需要抽取一个容量为n的样本，先将总体N个单位按一定标志排队，然后将N划分为n个单位相等部分，每部分包含k个单位，即N=kn。现在从第一部分顺序为1，2，i，k单位中随机抽取第i个单位，而在第二部分中抽取第i+k单位，第三部分中抽取第i+2k单位，在第n个部分抽取第i+(n1)k单位，共n个单位组成一个样本，而

246、且每一个样本单位的间隔均为k。等距抽样的特点是，当第一个单位随机确定之后，其余各个单位的位置也就确定了。因此用这种方法共可能抽取k套样本。按有关标志排队实质上是运用类型抽样的一些特点，有利于提高样本的代表性。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)总体，N个单位样本，n个单位1,2,3,i,k;k+1,.,k+i,.,2k(n-1)k,.,(n-1)k+i,.,nk;12.n-1n图图510 等距抽样等距抽样5.4.1 抽样方法抽样方法整群抽样也称集团抽样，它是将总体各单位划分若干群，然后从其中随机抽取部分群，对中选群的所有单位进行全面调查的抽

247、样方法。设总体的全部N单位划分为R群，每群包含M单位，则N=RM。现在从总体R群中随机抽取r群组成样本，并分别对中选r群的所有M单位进行调查。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)总体，N个单位样本，n个单位第1群子群1.第2群第R群子群r图图511 整群抽样整群抽样5.4.1 抽样方法抽样方法两阶段抽样两阶段抽样是整群抽样和简单随机抽样的结合。它是两个两阶段的抽样。第一阶段是在总体R群中随机选择r群；第二阶段是在中选的r群中分别从各群Mi单位中随机抽取mi个单位，构成一个样本；这就是两阶段抽样。其中，总体单位数 N=M1

248、+M2+MR，样本单位数n=m1+m2+mr，各群Mi单位数可以相等，也可以不等，抽取的各mi可以相等，也可以不等。为了研究方便，一般假定各群Mi单位数都等于M，于是有N=RM，同样也假定各mi都等于m，于是也有n=rm。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)总体，N个单位样本，n个单位第1群子群1.第2群第R群子群r图图512 两阶段抽样两阶段抽样返回5.4.2 抽样平均误差抽样平均误差抽样必然带来抽样误差。衡量误差大小的指标是抽样平均误差。抽样平均误差又叫抽样的系统性误差。抽样平均误差的大小与抽样的方法有关。以样本平均数为例，各

249、种抽样方法对样本平均数抽样平均误差的影响是不一样的。但要说明的是，不论是什么抽样方法，总有样本平均数的期望值等于总体平均数，其样本平均数的分布也要修改成(5.4.1)这是抽样估计的理论基础。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差简单随机抽样如果X 是一个容量为N的总体，总体平均数为，总体标准差为，X1,X2,X3,Xn是X的一个随机样本，则不论是简单重复抽样还是简单不重复抽样，总有(5.4.2)但样本平均数的抽样平均误差在重复抽样条件下(5.4.3)在不重复抽样条件下(5.4.4)Ch5 抽样与抽样分布抽样

250、与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差简单随机抽样（续）由于所以，习惯用(5.4.5)代替在简单不重复抽样条件下的样本平均数的抽样平均误差。这说明，在大样本条件下，简单重复抽样与简单不重复抽样的差别不是很大。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差分层抽样在一个分层的总体X中，可证明，总体方差=层间方差+层内方差的平均数(5.4.6)如果从总体X中按比例抽取n个样本，则(5.4.7)Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样

251、方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差分层抽样（续）但样本平均数的抽样平均误差在重复抽样条件下(5.4.8)在不重复抽样条件下(5.4.9)即在分层抽样条件下，样本平均数的抽样平均误差只与总体的层间方差平均数有关。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差等距抽样等距抽样的平均误差与总体排列的顺序有关，如果抽样的起点是随机取样，那么它的抽样误差就十分接近简单随机的平均误差。为了简便，通常是用简单随机的平均误差来衡量等距抽样的平均误差。Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽

252、样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差整群抽样整群抽样实质上是以群代替总体单位，以群平均数代替总体单位观察值之后的简单随机抽样。而且是简单不重复抽样。因此有(5.4.10)设2为群平均数的群间方差(5.4.11)于是，样本平均数的抽样平均误差(5.4.12)Ch5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)5.4.2 抽样平均误差抽样平均误差两阶段抽样两阶段抽样是整群抽样和简单随机抽样的结合。因此有(5.4.13)设2为组平均数的组间方差，为组内方差的平均数(5.4.14)于是，样本平均数的抽样平均误差为(5.4.15)C

253、h5 抽样与抽样分布抽样与抽样分布5.4 抽样方法与抽样误差抽样方法与抽样误差(new)返回Ch5 内容小结内容小结5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样抽样方法方法与抽样误差与抽样误差(new)Ch5 Ch5 抽样与抽样分布抽样与抽样分布抽样与抽样分布抽样与抽样分布Ch6统计推断介绍如何利用样本对总体进行特征估计和推断。下一章下一章Ch5 抽样与抽样分布抽样与抽样分布5.1 随机抽样随机抽样(new)5.2 随机变量的分布随机变量的分布(new)5.3 抽样分布抽样分布(new)5.4 抽样方法与抽样误差

254、抽样方法与抽样误差(new)思考与练习思考与练习5.1，什么是随机抽样？，什么是随机抽样？5.2，总体参数与样本统计量的区别与联系？，总体参数与样本统计量的区别与联系？5.3，样本容量与样本个数的区别与联系？，样本容量与样本个数的区别与联系？5.4，重重复复抽抽样样与与不不重重复复抽抽样样有有什什么么区区别别与与联联系系？在在什什么么情情况况下下，可可用用重重复复抽样代替不重复抽样？抽样代替不重复抽样？5.5，为什么重复抽样的误差总是大于不重复抽样的误差？原因是什么？，为什么重复抽样的误差总是大于不重复抽样的误差？原因是什么？5.6，什什么么是是简简单单随随机机抽抽样样、分分层层抽抽样样、等等

255、距距抽抽样样、整整群群抽抽样样和和两两阶阶段段抽抽样样？它们各有什么区别与联系？它们各有什么区别与联系？5.7，为什么说，二阶段抽样是整群抽样和类型抽样的结合形式？，为什么说，二阶段抽样是整群抽样和类型抽样的结合形式？5.8，类型抽样中的分组和整群抽样中的分群有什么不同意义和不同要求？，类型抽样中的分组和整群抽样中的分群有什么不同意义和不同要求？5.9，试试说说明明多多阶阶抽抽样样的的抽抽样样误误差差是是由由各各阶阶段段抽抽样样误误差差综综合合而而成成，并并说说明明逐逐阶段误差对总误差的作用。阶段误差对总误差的作用。5.10，在在一一个个分分层层的的总总体体X中中，试试证证明明，总总体体方方差

256、差=层层间间方方差差+层层内内方方差差的的平平均数。均数。5.11，什么是抽样分布？正态分布和，什么是抽样分布？正态分布和t分布有什么不同？分布有什么不同？5.12，什么是中心极限定理？，什么是中心极限定理？5.13，以样本方差，以样本方差S2作为总体方差作为总体方差 2的估计量，为什么分母是的估计量，为什么分母是n-1而不是而不是n？ Ch5 Ch5 抽样与抽样分布抽样与抽样分布抽样与抽样分布抽样与抽样分布Ch7相关与回归分析统计学原理统计学原理n7.1相关与回归的基本概念n7.2相关分析n7.3一元线性回归分析n7.4多元线性回归分析(new)n7.5回归诊断与残差分析(new)主要介绍：

257、相关分析，回归技术，回归诊断方法。Ch7主要内容Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)Ch7 学习目的学习目的1，掌握相关与回归的基本概念2，掌握相关分析技术3，掌握一元线性回归方法4，掌握多元线性回归方法5，掌握回归诊断方法Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元

258、线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)Ch7相关与回归分析统计学原理统计学原理n7.1相关与回归的基本概念n7.2相关分析n7.3一元线性回归分析n7.4多元线性回归分析(new)n7.5回归诊断与残差分析(new)7.1相关与回归的基本概念n7.1.1确定性关系与相关关系n7.1.2回归函数与经验方程n7.1.3相关与回归分析n7.1.4相关表与相关图n7.1.5相关关系的种类Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性

259、回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回7.1.1确定性关系与相关关系n确定性关系也叫函数关系。n Y (X=X t)，(7.1.1)n即只要给定一个X，就可以确定一个Y，Y值随X的值变化，则变量Y,X之间，就是一种确定性的函数关系。Y(X=X t)是这两个变量之间的函数表达式。这个函数表达式，对应着一个具体的因果数学定理。nn相关关系也叫统计关系或者经验关系。n相关关系的特征是，“2个以上变量的变化方向大致是规则的”，n变量Y,X之间的某种近似规则关系，不是一种精确的确定性关系，只是一个经验关系n Y(X=X t)+；(7.1.2)n是Y与

260、(X=X t)的偏差，且总假定E()=0。n这种经验关系就是统计相关关系。n统计相关关系，常常表现为一种统计定律。统计定律和相关关系，是相关回归分析的主要研究对象。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回7.1.2回归函数与经验方程n存在统计相关关系的变量Y,X之间，有nY(X=X t)+；(7.1.2)n因为，E()=0，所以，E(Y|X= X t)(X t)是给定X=X t条件下Y的期望值，(X t)就是Y关于X的期望函数。它实际反映的是Y,X之间存在的统计规律。n因为统计规律，总是可以在日常的实践过程中，不断回归重现。于是，期望函数，也称为

261、Y关于X的回归方程或回归函数，记为n (X=X t)E(Y|X= X t)(7.1.3)n回归函数的具体表达式，通常也叫经验函数或者经验公式。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回7.1.3相关与回归分析n相关与回归分析：n是研究相关关系的一种有力数学工具。它是建立在对客观事物进行大量试验和观察的基础上，在不确定的现象中，寻找隐藏的统计规律性的数理统计方法。具体步骤是：n第一步，根据研究的目的，通过观察和实验取得资料。n第二步，整理资料。分组编制相关表，以便进行分析。n第三步，绘制相关图。把成对的相关资料，绘成散布图或曲线图，从图形中，初步判断

262、变量之间是否存在相关关系，以及相关的基本形式。n第四步，相关关系的解析。建立回归方程，计算估计标准误差、相关系数等，以反映变量之间的关系、误差大小及密切程度，并运用数理统计方法，进行检验和评价。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念返回7.1.4相关表与相关图n相关表与相关图，是研究相关关系的直观工具。一般在进行详细的定量分析之前，可以先利用它们，对现象之间存在的相关方向、形式和密切程度，作大致的判断。n相关表，是一种反映变量之间相关关系的统计表。将某一变量，按其取值的大小顺序排列，然后再将与其相关的另一变量的值，对应排列，便可得到简单的相关表。n

263、利用相关表，便可得到相关图。相关图又称散布图。它是以直角坐标系的横轴代表变量X，纵轴代表变量Y，将两个变量的值，用坐标点(Xt, Y t)的形式描绘出来，用来反映两变量之间相关关系的图形。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.1.4相关表与相关图n【例7-1】利用某国1951-1970年的消费Y和可支配收入X数据，可整理得相关表与相关图。Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念年份序号t可支配收入Xt消费Yt19511226.6206.319522238.3216.719533252.62301954

264、4257.4236.519555275.3254.419566293.2266.719577308.5281.419588318.8290.119599337.3311.2196010350325.2196111364.4335.2196212385.3355.1196313404.6375196414438.1401.2196515473.2432.8196616511.9466.3196717546.3492.1196818591.2535.8196919631.6577.5197020684.7616.8图图71 消费消费Y 和可支配收入和可支配收入X相关图相关图YX0200200600

265、400400600返回7.1.5相关关系的种类n按相关的程度可分为完全相关、不完全相关、不相关n按相关的方向可分为正相关、负相关n按相关的形式可分为线性相关和非线性相关n按所研究的变量的多少可分为单相关、复相关和偏相关Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念正线性相关正线性相关负线性相关负线性相关YX0YX=1+2X.0非线性相关非线性相关非线性相关非线性相关YX0YX图图72 线性相关与非线性相关线性相关与非线性相关0返回7.2相关分析n7.2.1相关系数n7.2.2相关系数与相关程度n7.2.3相关系数的检验n7.2.4等级相关系数及其检验Ch7

266、相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回7.2.1相关系数n相关系数也叫单相关系数。n它是在线性相关的条件下，用来测定变量Y ,X之间相关程度的一个重要指标。通常以表示总体的相关系数，以表示样本的相关系数。n存在线性相关的变量总体(Y ,X)，定义为n(7.2.1)n式中：Cov(X,Y)是变量X和Y的协方差，Var(X)和Var(Y)分别是X和Y的方差。n对来自总体(Y , X)的n组

267、样本观察值(Y t, X t)，t=1,2,3,n-1,n，记为n(7.2.2)n其中SX,Y=Cov(Xt,Yt)是样本(Y t, Xt)的协方差，SX和SY分别是X和Y 的样本标准差。样本相关系数，是根据样本观察值计算的。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析7.2.1相关系数n总体值为常数，在很多情况下，是无法直接按定义计算的，只能通过样本相关系数，去估计值。n容易证明，样本相关系数，是总体相关系数的一致估计量。n可以证明，存在线性相关的变量之间，不论是总体相关系数，还是样本相关系数，均有0|1，0|1。n为便于计算，引进如下符号：nn(7.2.3)Ch7 相关与回

268、归分析相关与回归分析7.2 相关分析相关分析7.2.1相关系数n【例7-2】利用某国1951-1970年的消费Y和可支配收入X数据，计算它们之间的相关系数。n解：根据相关系数的公式，有n于是Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析年份序号t可支配收入Xt消费YtXtXtYtYtXtYt19511226.6206.351347.5642559.6946747.5819522238.3216.756786.8946958.8951639.6119533252.623063806.76529005809819544257.4236.566254.7655932.2560875.1

269、19555275.3254.475790.0964719.3670036.3219566293.2266.785966.2471128.8978196.4419577308.5281.495172.2579185.9686811.919588318.8290.1101633.484158.0192483.8819599337.3311.2113771.396845.44104967.8196010350325.2122500105755113820196111364.4335.2132787.4112359122146.9196212385.3355.1148456.1126096136820

270、196313404.6375163701.2140625151725196414438.1401.2191931.6160961.4175765.7196515473.2432.8223918.2187315.8204801196616511.9466.3262041.6217435.7238699196717546.3492.1298443.7242162.4268834.2196818591.2535.8349517.4287081.6316765196919631.6577.5398918.6333506.3364749197020684.7616.8468814.1380442.242

271、2323合计-7889.37206.3347155928881293166305平均-394.465360.315173578144406.5158315.3返回7.2.2相关系数与相关程度n如果|=1，表明(Y , X )之间是完全线性相关，完全线性相关，是一种精确的线性函数关系；n如果|=0，表明(Y , X)之间没有关系或者线性无关；n如果0|1，(Y, X)是一种线性统计关系，线性统计关系，是最常见的相关关系；01是正的线性相关；-10是负的线性相关。n|值越大，则线性关比较系密切，反之，则线性关系不密切。n同理，|=1，表示样本(Y t,X t)为完全线性相关；=1，表示(Y t,

272、X t)为完全正线性相关，样本的所有点(Y t,X t)都在一条直线上；=-1，表示(Y t,X t)为完全负线性相关，样本的所有点(Y t,X t)也都在一条直线上；n=0，表示样本点(Y t ,X t)在散点图上的分布是杂乱无章的，(Y t,X t)之间无相关关系；n0|t/2，拒绝H0，表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析7.2.3相关系数的检验nF统计量检验n作统计假设n零假设H0：=0，备择假设H1：0。n计算样本相关系数的F值n，n选择显著性水平，取=1%或者=5%。根据和自由度1,n-2，求F分布的两个临界值 F1-/2(1

273、,n-2),F/2(1,n-2)，且 F1-/2(1,n-2) F/2(1,n-2)或FF1-/2(1,n-2)，拒绝H0，表示Y, X之间相关显著。n说明: F检验是双侧检验，有两个临界值F1-/2(1,n-2),F/2(1,n-2)，且F1-/2(1,n-2)/2，拒绝H0，表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析7.2.3相关系数的检验n【例7-3】利用某国1951-1970年的消费Y和可支配收入X的相关系数，在=5%时，是否可以认为Y和X之间存在显著性的线性相关关系。n解：作统计假设nH0：=0，H1：0。n计算样本相关系数的t值。已知=

274、0.999689，求得t=170.071。n选择显著性水平，取=5%。根据和自由度n-2，求得t分布的临界值t/2(n-2)= t2.5%(20-2)=2.102。因为|t|=170.071t/2=2.102，所以拒绝H0，表示Y, X之间相关显著。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回7.2.4等级相关系数及其检验n等级相关系数（又称为顺序相关系数）。n设有Xt和Yt两个数列，依数量的大小或者品质的优劣，分为1,2,3,n-1,n个等级，以VX,t表示各个Xt的等级数，以VY,t表示各个Yt的等级数，则等级相关系数s为n(7.2.6)n式中，n是样本容量。该公式可由

275、两个等级变量的相关系数，推导而来。n与相关系数类似，s的取值范围为0|s|1。s为正值，存在正的等级相关关系，s取负值，存在负的等级相关。s=1，表明两种现象的等级完全相同，存在完全正相关；s=-1，表明两种现象的等级完全相反，存在完全负相关。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析7.2.4等级相关系数及其检验n等级相关系数检验。n当样本容量n20时，可利用以下的t统计量，进行s的检验n(7.2.7)n当总体等级相关系数s=0时，可以证明：t统计量服从自由度为n-2的t分布。在给定显著性水平下，如果|t|t/2(n-2)，接受H0，表示Y, X之间相关不显著；若|t|t/

276、2(n-2)，拒绝H0，表示Y, X之间相关显著。n同样也可以参照样本相关系数的检验方法，构造新的统计量t2去进行F检验，或者直接查相关系数表检验。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析7.2.4等级相关系数及其检验n【例7-4】某校对学生某专业课程的复习时间和考试成绩进行调查。抽查10同学的有关数据如下表。计算复习时间与考试成绩的相关系数和等级相关系数。根据以上结果，能否得出复习时间越长考试成绩越高的结论。n解：Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析序号t复习时间考试成绩Dt2=(VX,t-VX,t)2时间Xt排队等级VX,t成绩Yt排队等级VX,

277、t133863024487403114104228520555936168691517108958.50.2589794709119958.50.2510131096100合计-55-552.57.2.4等级相关系数及其检验n解：首先对复习时间X与考试成绩Y按从小到大的顺序确定等级。对于Xt或者Yt相同的，取其应得等级的平均数。n其次，计算相关系数。根据公式，得=0.587，t=2.05。在=5%、自由度=n-2=8条件下，得t/2(n-2)=2.306。因为|t|=2.05t/2(n-2)=2.306，表示Y, X之间相关不显著，难以判断复习时间X与考试成绩Y之间存在显著的线性关系。n最后，

278、计算等级相关系数s。根据公式，得s=0.9848，ts=16.04。在=5%、自由度 =n-2=8条件下，得 t/2(n-2)=2.306。因为 |ts|=16.04t/2(n-2)=2.306，表示Y, X之间相关显著，存在复习时间越长考试成绩越高的现象。Ch7 相关与回归分析相关与回归分析7.2 相关分析相关分析返回7.3一元线性回归分析n7.3.1标准的一元线性回归模型n7.3.2一元线性回归模型的估计n7.3.3一元线性回归模型的检验n7.3.4误差项t的自相关检验n7.3.5一元线性回归模型的预测Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与

279、回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断与残差分析(new)返回7.3.1标准的一元线性回归模型n总体回归函数n设因变量为Y，自变量为X；若Y的数学期望存在，且服从如下的分布n YN (1+2X,2)(7.3.1)n式中1，2和2是不依赖于X的未知参数。则方程n Y=1+2X+u;uN (0，2)(7.3.2)n就称为一元线性回归模型（或称为相关方程）。其中，是随机误差项，E()=0。n又由于Y的数学期望是X的函数，n E(YX)=1+2X(7.3.3)nY的取值主要由X的

280、取值决定，因此，E (YX)是一个关于X的回归期望，它从平均意义上表达了Y与X的统计规律性，于是，E(YX )也可以作为Y的估计，故n X=1+2X(7.3.4)n称为总体一元回归估计方程或者回归估计函数，1，2是这个回归方程中的回归系数，其图形表现为一条直线。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.1标准的一元线性回归模型n误差项的标准假定n误差项的期望值恒为零，即nE(tXt)=0(7.3.5)n误差项的方差是同观察时点t无关的常数，即nVar(tXt)=E(t2Xt)=2(7.3.6)n时点不同的误差项之间不相关，即nCov(t,s)=E(ts

281、)=0;ts(7.3.7)nt的概率分布与1，2和X无关。nX是给定的变量（确定变量），即X,不是有统计从属关系的随机变量。nCov(Xt,t)=E(Xtt)=0(7.3.8)nt服从正态分布，即ntN (0，2)(7.3.9)n以上假定最早是由德国数学家高斯提出来的，也称为高斯假定或者标准假定。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+2X.0Y=1+2X+u u t7.3.1标准的一元线性回归模型n满足以上假定的一元线性回归模型，称为标准的一元线性回归模型。满足假定的一元线性回归模型，称为标准线性正

282、态回归模型。n应当指出的是，在现实的情况是由于种种原因，以上假定常常不能得到满足。其最一般的模型及回归函数为nY=1+2X +u , X = E ( YX) =1+2X(7.3.10)nu为随机误差项，E(u)=0,E(2)=2，Y与u同分布，且均为非正态分布，我们以下的讨论均以(7.3.10)式为基础，其余变量的解释如前。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析图图73 总体回归与随机误差总体回归与随机误差YX= 1+2X.0Y=1+2X+u u t7.3.1标准的一元线性回归模型n样本回归函数，就是根据样本资料(Yt,X t)，对总体回归函数进行拟合的估

283、计函数。由于样本(Yt,X t)来源于总体(Y, X)，因此，样本回归线与总体回归线，有相同的函数形式。由样本关系方程n(7.3.11)n有样本回归函数n(7.3.12)n式中，Yt和X t分别是Y和X的第t次观察值；t为样本回归线上与X t相对应的值，它是对E(YtX t)的估计；为样本回归系数，是对总体回归系数的1，2的估计；t=Ytt是实际观察值与样本估计值之差，亦称残差，是一个可计算的量；n为样本容量；是对2的估计。n样本回归函数是总体回归函数的近似反映。n回归分析的主要任务，就是充分利用样本的信息，采用适当的方法，使得样本回归函数，尽可能接近真实的总体回归函数。Ch7 相关与回归分析

284、相关与回归分析7.3 一元线性回归分析一元线性回归分析返回7.3.2一元线性回归模型的估计n回归系数的估计n最小二乘法，简记为OLS法。它的准则是使t的平方和最小，即n(7.3.15)n由极值条件，有联立方程n(7.3.16)n整理得正规方程组n(7.3.17)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.2一元线性回归模型的估计n回归系数的估计（续）n求解正规方程组，得n(7.3.18)n利用(7.2.3)式，则最小二乘估计量，又可简写为n(7.3.19)Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.2一元线性回归模

285、型的估计n【例7-5】利用某国1951-1970年的消费Y和可支配收入X数据，建立消费对可支配收入的回归估计方程。n解：因为消费Y和可支配收入X之间是显著线性相关，所以，可以建立Y,X之间的一元回归估计模型nY=1+2X+u,X =E(YX)=1+2Xn根据最小二乘估计方法，得回归估计方程nX=5.168775+0.900324X，S =3.174108481,2=0.9993781n(2.205544043)(0.005293811)d=1.225513nCh7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.2一元线性回归模型的估计Ch7 相关与回归分析相关与回

286、归分析7.3 一元线性回归分析一元线性回归分析年份序号t可支配收入Xt消费YtXtXtYtYtXtYtX,tt=Ytt19511226.6206.351347.5642559.6946747.58209.1821-2.88214653819522238.3216.756786.8946958.8951639.61219.7159-3.01593491319533252.623063806.765290058098232.5906-2.59056514819544257.4236.566254.7655932.2560875.1236.9121-0.41211935319555275.3254.

287、475790.0964719.3670036.32253.02791.37208475719566293.2266.785966.2471128.8978196.44269.1437-2.44371113219577308.5281.495172.2579185.9686811.9282.9187-1.5186651619588318.8290.1101633.484158.0192483.88292.192-2.09200022519599337.3311.2113771.396845.44104967.8308.8482.35200961196010350325.2122500105755

288、113820320.28214.917897442196111364.4335.2132787.4112359122146.9333.24681.953234828196212385.3355.1148456.1126096136820352.06353.03646756196313404.6375163701.2140625151725369.43985.560218361196414438.1401.2191931.6160961.4175765.7399.60061.599371305196515473.2432.8223918.2187315.8204801431.2021.59800

289、6182196616511.9466.3262041.6217435.7238699466.04450.255475404196717546.3492.1298443.7242162.4268834.2497.0157-4.915663065196818591.2535.8349517.4287081.6316765537.4402-1.640201357196919631.6577.5398918.6333506.3364749573.81333.686717418197020684.7616.8468814.1380442.2422323621.6205-4.820475975合计2107

290、889.37206.33471559288812931663057206.38.52651E-13平均10.5394.465360.315173578144406.5158315.3360.3154.26326E-147.3.2一元线性回归模型的估计n最小二乘估计量的性质n可以证明，在高斯假定能够得到满足的条件下，n(7.3.20)n其方差n(7.3.21)n回归系数的最小二乘估计量，是最优的线性无偏估计量和一致估计量。n以上性质，在文献中被称为高斯马尔可夫定理。该定理表明，在高斯假定条件下，最小二乘估计量，是一种最佳的估计方式。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元

291、线性回归分析7.3.2一元线性回归模型的估计n随机误差项的方差估计n数学上可以证明，2的无偏估计S2可由下式给出：n(7.3.23)n在一元线性回归模型中，残差t必须满足1，2最小二乘估计要求所导出的两个约束条件：n(7.3.24)n因而失去了2个自由度，所以，残差t的自由度为n-2。nS越小，表明实际观测点与所拟的样本回归线的离差程度越小，即回归线具有较强的代表性；反之，S越大，表明实际观测点与所拟合的样本回归的离差程度越大，即回归线的代表性较差。因此，S又叫做回归估计的标准误差。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.2一元线性回归模型的估计n【

292、例7-6】利用例7-2、例7-5的有关数据，计算其消费对可支配收入回归估计方程的回归估计标准误差。n解：已知n=20,(Y)=7206.3,(Y2)=2888129,(XY)=3166305,n(2)=(Y2)-5.168775(Y)-0.900324(XY)n=2888129-5.1687757206.3-0.9003243166305n=181.3493637nS2=(2)/(n-2)=181.3493637/18=10.07496465nS=3.174108481nLXX=359506.4,(X)=7889.3,(X)/n=394.465n另外可计算回归系数1，2估计

293、值的标准差分别为(2.205544043)和(0.005293811)。n上述结果如果用Excel软件计算将更为简单。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回7.3.3一元线性回归模型的检验n回归模型检验的种类n包括理论意义检验、一级检验和二级检验。n理论意义检验，主要涉及参数估计值的符号和取值区间，如果它们与实质性科学的理论及其人们的经验不相符，就说明模型不能很好地解释现实的现象。n一级检验，又称为统计学检验，它是利用统计学的抽样理论，来检验回归方程的可靠性，具体可分为拟合程度评价和显著性检验。一级检验，是所有回归分析必须通过的检验。n二

294、级检验，又称为经济计量学检验，它是对标准线性回归模型中的高斯假定条件能否满足，进行检验，具体包括序列相关、异方差性检验等。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.3一元线性回归模型的检验n由于n(7.3.30)nLYY是实际观察值与其样本均值的总的离差平方和，SSR是由回归直线解释的那部分离差平方和，称为回归平方和，SSE是残差平方和，是用回归直线无法解释的部分离差平方和。n公式两端同除以LYY，则n(7.3.31)n显然，各个样本观察值与样本回归线靠得愈近，SSR在LYY中的比例就越大。因此，可定义这一比例为可决系数n(7.3.32)Ch7 相关与

295、回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.3一元线性回归模型的检验n可决系数2，是对回归模型拟合程度的综合度量指标，2越大，模型拟合程度越高；2越小，模型拟合程度越差。可决系数2具有如下性质：n021；当样本观察值(Yt,X t)都处于回归直线上时，SSE=0，2=1；当观察值(Yt,X t)并不全部处于回归直线上时，SSE0，02t /2，拒绝零假设H0，表示Y,X之间相关显著。n对一元线性回归模型，利用(7.3.18)，有n(7.3.36)n可以证明：检验H0：2=0等价于检验H0：=0，如果检验认为20，就意味着0，即认为X对Y的解释作用是真实的。由于tt(n

296、-2)，可以证明，t2=FF(1,n-2)，于是在一元线性回归模型中，对2的t检验和对LYY的解释平方和做F检验也是完全等效的。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析返回7.3.4误差项t的自相关检验n自相关或称序列相关：n如果误差项之间存在相关关系，nCov(t,s)=E(ts)0;ts; ts(7.3.37)n则称这种现象为误差项t的自相关或称序列相关。n如果进一步有nt=et-1 +t; t N(0,2); 且E (t s)=0;ts; ts。 (7.3.38)n其中-1e0;ts；如果散布图有一种异号残差相随的倾向，就表明存在负相关E(ts)0;t

297、0，则记为“+”，若残差t|t|。Ch7 相关与回归分析相关与回归分析7.3 一元线性回归分析一元线性回归分析7.3.4误差项t的自相关检验n为了进一步判定在各种情况下，是否存在正的或负的自相关的问题，Durbin-Waston对任意的样本容量n和多达5个解释变量的情形，给出了d的分布及d的两个值dL（下界）和dU（上界）。如果d值落在0,dL范围内，则认为存在正自相关；如果d值落入dU,4-dU范围内，则认为存在负自相关；而当d落入dU,4-dU范围内时，则认定不存在自相关；但当d落入dL,dU或者4-dL,4-dU范围内时，则不能认定是否存在自相关。Ch7 相关与回归分析相关与回归分析7.

298、3 一元线性回归分析一元线性回归分析不确定区域不确定区域图图75 Durbin-Waston 统计统计f(d)d拒绝 H0，存在正自相关0H0：e=0,H1：e0。拒绝 H0，存在负自相关24不拒绝H0dLdU4-dL4-dU7.3.4误差项t的自相关检验nD-W双侧检验的具体步骤：n作统计假设nH0：e=0，H1：e0。n计算样本残差t，计算(7.3.41)式d统计量。n选择显著性水平，取=1%或者=5%。根据，查d统计量表求临界值 dL/2， dU/2，若d4-dU/2，拒绝H0选择H1存在自相关；若dU/2d4-dU/2，则接受H0，表示不存在自相关；如果dL

299、/2ddU/2，或者4-dL/2dF/2，拒绝零假设H0，表示自变量与因变量的线性关系显著。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)方差来源自由度平方和均方差F统计量回归p-1SSR= XYSSR/(p-1)(SSR/(p-1)/(SSE/(n-p)残差n-pSSE=eeS2=SSE/(n-p)总和n-1LYY=SSR+SSE，Y Y= XY+ ee返回7.4.4多元线性回归模型的预测n回归预测的基本公式n0=X0 (7.4.25)n其中，0=( 0)11，X0=(1, X20, X30, X40,. ,X p0)1p, =( )1p。n设X 0给

300、定时Y的真值为Y0, 且Y0=(Y0)11, u0=(u0)11,e0=(e0)11, =(1, 2,3, 4,. , p)1p,有n Y0=X0 + u0,u0N (0，2)(7.4.26)n于是预测的残差e0n(7.4.27)n利用期望值与方差的运算规则，以及估计量的期望值与方差，可以证明n(7.4.28)n在此基础上，亦可以证明，0是Y0的最优线性无偏估计预测，即在高斯假定得到满足的条件下，(7.4.25)式就是Y0的最佳预测方式。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)7.4.4多元线性回归模型的预测nY0的区间估计：n由(7.4.27)、

301、(7.4.28)式可知，在高斯假定条件下，e0服从于标准正态分布，即ne0N (0，Var(e0)(7.4.29)n由于Var(e0)中的2是未知的，通常用其无偏估计量S2来代替。用Se0来表示预测的标准误差的估计值，n(7.4.30)n数学上可以证明n(Y0- 0)/Se0 t(n-p)(7.4.31)n对于给定的置信度为1-，有nPro0-t/2(n-p)Se0 Y0 0 + t /2(n-p) Se0=1-，(7.4.32)n于是可以得出Y0的1-的置信区间为n 0-t/2(n-p)Se0 Y0 0+ t /2(n-p)Se0，(7.4.33)n式中，t /2(n-p)是置信度为1-、自

302、由度为n-p的t分布的临界值。该区间以0为中点，长度为2t /2(n-2)Se0。中点0随X0线性地变化。因此，置信区间的上、下限曲线对称地落在回归向量平面两侧，而呈喇叭型。Ch7 相关与回归分析相关与回归分析7.4 多元线性回归分析多元线性回归分析(new)返回7.5回归诊断与残差分析n7.5.1残差分析n7.5.2异方差性的补救措施n7.5.3序列相关的补救措施Ch7 相关与回归分析相关与回归分析7.1 相关与回归的基本概念相关与回归的基本概念7.2 相关分析相关分析7.3 一元线性回归分析一元线性回归分析7.4 多元线性回归分析多元线性回归分析(new)7.5 回归诊断与残差分析回归诊断

303、与残差分析(new)返回7.5.1残差分析n即使方程通过了相关系数或F检验，也不能排除数据的异常值和周期性因素干扰问题。这些问题的严重后果是，所有建立在高斯假定基础上的OLSE，可能是一个毫无意义的估计。因为它不仅没有反映现象的现实，相反还夸大了方程估计的可靠性。n如何判断数据中有异常值和周期性因素干扰呢？n残差分析是一个有力的工具。它的具体做法是，编制残差序列图，进行符号检验及序列相关检验，分析和猜测误差的来源，设法改进及剔除之，缩小误差，建立新的稳妥模型。残差分析也叫回归诊断。它是经济计量学检验的一部分。n检查是否有异常数据。n检查数据是否有周期性变化和倾向性变化。n检查回归模型是否合适。

304、n异方差性的检验。n误差项t的序列相关检验。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.1残差分析n检查是否有异常数据n所谓异常数据，就是与其它数据产生的条件，有明显的不同的数据。异常数据的存在，使估计结果出现很大的偏差。异常数据产生的原因：第一，未被作为解释变量的因素，比如是质的、制度的因素，在特定的观测期内突然发生了作用，使因变量产生一定的突变；第二，在编制统计资料的阶段，发生了非概率性的观测误差和汇总误差；第三，由非正态分布所产生的概率误差，在高斯假设条件下，变成了异常数据。n在高斯假定条件下，由(7.4.33)式可知，在1-水平下有

305、残差置信带n-t/2(n-p) Se0Y0 - 0+t /2(n-p)Se0，(7.5.1)n即n-t /2(n-p)Se0 0+t /2(n-p)Se0，(7.5.2)n所以，检查所有残差t，看是否都在残差置信带内；如果有数据在残差置信带外，就要辩明是否是异常数据。对异常数据要予以剔除。然后重新估计方程。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.1残差分析n残差分析Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)图图78 残差分析残差分析异方差存在的证据异方差存在的证据0Y0t2t模型选择不当模

306、型选择不当Xt残差的非随机变动残差的非随机变动00ttt置信带内的残差分布置信带内的残差分布+ t/2(n-p) S- t/2(n-p)S7.5.1残差分析n检查数据是否有周期性变化和倾向性变化。n周期性变化和倾向性变化，可以通过观察残差分布图来得到初步答案。通常的做法是，以t= Yt t作为纵坐标，以序号t为横坐标，编制残差序列分布图。观察残差点(t, t)的分布。一般而言，在utN (0，2)条件下，残差点的分布应该是完全随机的，应该在残差置信带内上下随机波动；并且不能有任何的趋势。同样，残差点的分布也不能有任何周期性的变化。其周期性的存在性可以用符号游程检验的方法判定。若t0，记符号为“

307、+”，若t0，记符号为“”，则一个残差序列t,t=1,2,3,n可获得一个符号序列，连续同号的点称为一个游程或者一个连窜，一个游程中符号的个数叫做游程的长度。利用游程的个数及游程的长度，可以检查数据是否有周期性变化或者明显的倾向。如果游程的随机检验不能通过，则有理由怀疑数据和模型有问题。有关符号检验的方法参见第六章。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.1残差分析n检查回归模型是否合适。n记e=Y，由(7.4.3)式，如果X和Y之间有线性关系，则nY= X +u;u N (0，2I)(7.5.3)n=X =X (XX)-1XY=HY

308、(7.5.4)n其中H=X (XX)-1X，于是有ne=Y=(IH)Y=(IH)u， (7.5.5)n此处应用了(IH) X =0，则有nE(e )=0，Cov(e, e )=2(IH)，Cov(, e )=0，(7.5.6)n如果X和Y之间有非线性关系，则有nCov(, e )0，(7.5.7)ne与相关。编制以t= Yt t作为纵坐标、以t为横坐标的残差图并观察之。如果残差图出现一段全为负（或正），紧接着一段全为正（或负），然后又接着一段全为负（或正）的现象；则说明回归模型选择不当，应改用非线性模型去拟合它。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(

309、new)7.5.1残差分析n异方差性的检验n所谓的异方差性，是指E(u2)2I，而是E(u2)=2a2(t)，其中a2(t)是随序号t变化的正数。由于在E(u2)=2 I条件下，有Cov(e, e )=2(IH)，Cov(, e )=0；于是如果E(u)2I，则nCov(e, e )2(IH)；且Cov(, e )0，(7.5.8)n编制以t2作为纵坐标、以t为横坐标的残差图并观察之。如果t2和t之间出现有规则的或者系统性的类型，而且这种有规则的或者系统性的类型，又是可以通过数据变换消除掉的，则表明模型有异方差性存在。n误差项t的序列相关检验n在回归模型中，通常假定t是相互独立的，但如果变量数

310、列特别是时间数列，不满足独立性这一要求，则误差项之间可能存在相关关系，这种现象称为误差项t的自相关或称序列相关。自相关最简单的情形是一阶自回归过程nt=et-1+t(7.5.9)n其中-1e0为正的自相关，e0为负的自相关；而新的误差项t符合高斯假设，即E(t)=0，E(t2)=2I，且E(t s)=0;ts。关于误差项的序列相关检验，参见本章第三节。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)返回7.5.2异方差性的补救措施n异方差性并不破坏OLSE的无偏性和一致性，但估计不是有效的或者渐近有效的。由于缺乏有效性，使得通常的假设检验不太可靠。补救

311、的方法分为两类：n当E(u2)=2a2(t)为已知时，设异方差线性回归模型为nY= X + u,E(u2)=2a2(t)=2 t(7.5.10)n由于E(u2)=2 t已知，用t去除(7.5.10)式的两端，有n(7.5.11)n在这个新的模型中，误差项u/ t满足高斯假定，因此可利用OLSE对去进行有效估计。n如果E(u2)=2a2(t)=2t为未知时，可对2 t进行一些合理的假定，将原来的模型变换成能满足同方差性假定的模型。通常的做法是设nE(u2)=2 t =2XI (7.5.12)n或者E(u2)=2 t=2XXI (7.5.13)n或者E(u2)=2 t =2E(Y)= 2(X )(

312、7.5.14)n用t去除(7.5.10)式的两端，也可以得(7.5.11)式，再利用OLSE，可求得的有效估计。n在2 t为未知时的另一种做法是，不对Y= X +u进行估计，而对nlnY= lnX + u (7.5.15)n进行回归。这种方法叫对数变换。对数变换可以降低异方差性的程度。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)返回7.5.3序列相关的补救措施n出现序列相关，OLSE不再是有效的。因此，必须寻求补救的办法。补救的方法也分为两类：n序列相关的结构为已知时n序列相关的结构为未知时Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差

313、分析回归诊断与残差分析(new)7.5.3序列相关的补救措施n序列相关的结构为已知时：如设序列相关的结构为(7.5.9)式，且e为已知。n因为在时间t内可以有Yt= Xt + ut(7.5.16)n于是在时间t-1内也有Yt-1= Xt-1 + ut-1(7.5.17)n用e去乘(7.5.17)式的两端，有neYt-1= eXt-1 + eut-1(7.5.18)n(7.5.16)式减(7.5.18)式，有nYt-eYt-1=(Xt - eXt-1) +t(7.5.20)n由于t满足OLSE假定，所以可用OLSE方法对(7.5.20)式进行估计。回归方程(7.5.20)式称为广义差分方程。它是

314、一个差分形式的Y对X的回归。特别地，如果e=1，可得到一阶差分算子方程nYt-Yt-1=(Xt - Xt-1) +tYt=Xt+t(7.5.21)n如果e=-1，则得到2期移动平均回归模型nYt+Yt-1=(Xt + Xt-1) +t(7.5.22)n即n(7.5.23)n它是一个移动平均数对另一个移动平均数的回归。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.3序列相关的补救措施n序列相关的结构为已知时：如设序列相关的结构为(7.5.9)式，且e为未知。n此时e的值需要估计猜测。传统的做法是，先利用Y对X进行回归，计算出第一次的回归残差et

315、= Yt t，然后进行Durbin-Waston检验，再利用d和e的近似关系n(7.5.25)n求得e的估计值e，做Y*t=Yt -eYt-1和X*t=Xt - eXt-1变换，再以Y*和X*做OLSE回归，nYt-eYt-1=(Xt - eXt-1) + t； t N (0，2I)(7.5.26)n求得广义差分方程的回归系数，并再次计算回归残差e*t=Y*t*t。然后再进行Durbin-Waston检验，如此反复，直到完全消除序列相关为止。n特别是当广义差分模型成立时，对自变量的最优预测将不是nt=Xt ;t=2,3,4,n-1,nn而是nt =Xt +(7.5.27)n其中代表Y*t对X

316、*t的回归误差，。Ch7 相关与回归分析相关与回归分析7.5 回归诊断与残差分析回归诊断与残差分析(new)7.5.3序列相关的补救措施n【例7-8】利用例7-6、例7-7的有关数据，试消除，消费与可支配收入之间，可能存在的自相关。n解：利用例7-6的结果，得回归估计方程的所有估计参数nX=5.168775+0.900324X,S=3.174108481,2=0.9993781n(2.205544043)(0.005293811)d=1.225513n利用例7-7的D-W统计检验结果，知在=5%显著水平上，还不能做出是否存在显著自相关的决定。虽然，显著自相关的存在性不能确定，但自相关存在的可能

317、性还是有的。利用d和e的近似关系，得n因此，必须设法消除之。n做Y*t=Yt-eeYt-1和X*t=Xt - eeXt-1变换，做nYt -eYt-1=(1-e)1+(Xt - eXt-1)2+tn的OLSE回归，求得广义差分方程nYt -eYt-1=4.636258855(1-e)+0.894803994(Xt - eXt-1),n(2.155056645)(0.00797102)nS=2.973263,2=0.99865279 ,d=1.883341n其中LXX=139135.7445,(X)=4872.764,(X)/n=256.4613。nt(2)=0.894803994/0.0079

318、7102=112.2571274，t和2，均可以满足广义差分模型的检验。又从d=1.883341知道，在=5%显著水平上，dU/2=1.41，4-dU/2=2.59，dU /2d100%或者kX100%，则表明时间、空间在从01过程中，指标X的变化总体上是增加的，增加的平均幅度为KX-100%或者是kX-100%。n反之，如果KX100%或者kX100%，KX -100%，kX -100%均为负数，则表明在从01过程中，指标X的变化总体上是下降的，下降的平均相对幅度为KX-100%或kX-100%的绝对值。n如果KX=100%或者kX=100%，则表明指标X的平均变化不升不降，基本维持原来的值

319、。8.1.1 统计指数及其作用统计指数及其作用返回Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类n通过观察指数值的变化，我们可以了解现象X的变化情况及其动态演变过程。概括的讲，统计指数主要有以下两个方面的作用：n一是综合反映复杂现象总体变动的程度和方向；n二是通过指数体系，对现象的总变动进行因素分析，研究各因素对现象总变动的影响程度和实际效果。8.1.2 统计指数的计算统计指数的计算n个体指数kXn反映简单个体X指标具体变动情况， X是一个可以直接计算比较的量。因此，n(8.1.4)n显然，kX的计算相当简单。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8

320、.1.2 统计指数的计算统计指数的计算n总指数KXn表明的是复杂现象总体X指标的综合变动。但X可能并不是一个可以直接比较的量。因此，总指数KX的计算，存在怎样把一个不能直接比较的量X转换为可以直接比较的量X*的问题。此时，总指数KX的计算十分复杂。n历史上，总指数计算主要经历过以下几种方法：n1），简单算术平均法n2），综合平均法n3），加权平均法Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8.1.2 统计指数的计算统计指数的计算n1）简单算术平均法n(8.1.5)n比如，著名道琼斯股价指数，在初始的时候，就是采用此种算法。n(8.1.6)n其中，po,i第i只股票的基期价

321、格；pt,i第i只股票的即期价格。n但是，这种简单算术平均方法，许多情况下是不符合总指数的对比要求的。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8.1.2 统计指数的计算统计指数的计算n2），综合平均法n(8.1.7)n这是对简单算术方法的一种改进。n但依然没有解决不能直接加总的量X的对比问题。它只是一种权衡处理。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8.1.2 统计指数的计算统计指数的计算n3），加权平均法n通过权的变换，解决不能直接加总的量的对比的问题。这是现阶段总指数计算的理论共识。这里的方法，有综合方法和平均方法两种。通过综合方法计算的总

322、指数，叫综合总指数；通过平均方法计算的总指数，叫平均总指数。它们共同的计算基础是n(8.1.8)n即，KX与X1/X0成正比，其计算涉及十分复杂的计算条件。n目前指数理论讨论的指数，主要就是这种总指数。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类返回8.1.2 统计指数的性质统计指数的性质返回Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类n相对性。指数是总体各变量在不同场合下对比形成的相对数。n不同时间上对比所形成的指数时间性指数。n不同空间上对比所形成的指数区域性指数。n综合性。反映一组变量在不同场合下的综合变动。n代表性。指数是总体水平的一个代表性设置

323、。是一个以代表性样本，来反映整个现象总体的综合性数值。n平均性。指数所表示的综合变动，是所研究现象每个项目变量共同变动的一般水平，也可说是变量平均的变动水平。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类n对比性质对比性质指数化指标的性质指数化指标的性质考察范围和计算方法考察范围和计算方法动态指数动态指数静态指数静态指数种类种类数量指标指数数量指标指数质量指标指数质量指标指数个体指数个体指数总指数总指数综合总指数综合总指数平均总指数平均总指数简单简单加权加权个体指数个体指数总指数总指数8.1.3 统计指数的主要种类统计指数的主要种类返回Ch8 统计指数统计指数8.1 统计指数

324、及其种类统计指数及其种类n动态指数:又称时间指数，它是将不同时间的同类现象水平进行对比的结果，反映现象在时间上的变化过程和程度。n静态指数：又称空间指数，它是将不同空间的同类现象水平进行对比的结果，反映现象在空间上的差异程度。n数量指标指数：如果X是数量指标，指数KX或kX反映的是事物数量方面的变动，则该指数就是一个数量指标指数。如产品产量指数，商品销售量指数。数量指标指数，统一记为q或q；n质量指标指数：如果X是质量指标，指数KX或X反映的是事物相对水平或者平均水平的变动，则该指数就是一个质量指标指数。如产品价格指数，产品成本指数。质量指标指数，记为P或P。n个体指数：考察现象总体中个别现象

325、或者个别项目的数量对比关系。其计算方法相对简单。XX1/X0。n总指数：考察整个现象总体的数量对比关系。其计算方法相对复杂。qq1/q0和PP1/P0，其具体计算，涉及十分复杂的条件假设。8.1.3 统计指数的主要种类统计指数的主要种类8.1.4 指数编制的基本问题指数编制的基本问题n编制指数时，需要解决的具体问题，主要有项目的选择、基期的确定、权数的确定，以及计算公式的选择等。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8.1.4 指数编制的基本问题指数编制的基本问题n项目的选择n指数主要用于反映现象的综合变化程度，因而应以总体的全面数据资料作为计算依据。但将总体产全部项

326、目都计算在内，实际往往是不可能的或不必要的。在实际应用中，编制指数所依据的数据几乎均为样本数据。因此，样本选择得是否科学与合理，是决定指数准确性的重要前提。一般而言，除数据本身的准确性外，所选样本还应具备以下要求。n第一，充分性。即要求样本容量应足够大。若总体所包括的项目很多，而样本容量很小，往往不能代表总体的性质。比如，编制消费价格指数，至少应选几百种乃至上千种的代表消费项目，才能使指数较准确地反映消费价格的变动水平。n第二，代表性。即要求样本能充分反映总体的性质。在选择样本项目时，要求所选的每一项目与所代表的实际项目，在性质上应保持一致，而各样本项目之间，在性质上应有较大差异。比如，编制物

327、价指数时，首先应对商品项目进行科学的分类，使类内同质、类间异质，然后在各类中选择能代表价格变动趋势的商品，作为代表性商品。n第三，可比性。即要求在不同时间或空间上，用于对比的各样本项目在定义、计算口径、计算方法、计量单位等方面保持一致。Ch8 统计指数统计指数8.1 统计指数及其种类统计指数及其种类8.1.4 指数编制的基本问题指数编制的基本问题n基期的确定n所有指数都有一个用于比较的基期或基准点。基期的选择，通常由计算指数的预期目的和用途决定。就时间性指数而言，基期的确定应注意以下几点。n第一，选择一个正常时期或典型时期作为基期。即用作比较的基期，应能代表事物发展的正常状态或典型状态，而非正

328、常的波动时期通常不具有代表性，不宜选作基期。n第二，计算期距基期的长短应适当。计算期距基期的间隔，应根据所研究现象的特点和研究目的而定。比如，可采用1周、1月、1季或1年等作为间隔期。一般而言，对于发展变化较快的现象，计算期距基期的间隔可短些，否则可长些。但计算期距基期不宜过长，计算期距基期的时间越久，指数代表性通常就越差。比如价格指数，因商品价格的相对趋势，随时间而变化，而且消费结构和商品质量，也随时间而变化，若计算期与基期间隔过远，指数便失去意义。一般，应选择距计算期较近的时期作为基期。并且随时间的推移，基期应作动态的调整。n权数的确定以及计算公式的选择等，应具体问题具体分析。Ch8 统计

329、指数统计指数8.1 统计指数及其种类统计指数及其种类返回8.2 综合总指数及其应用n8.2.1综合总指数的编制原理n8.2.2综合总指数的类型及应用n8.2.3综合总指数的经济应用返回Ch8 统计指数统计指数8.1 统计指数及其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用8.2.1 综合总指数的编制原理综合总指数的编制原理n编制综合总指数的基本方式，是“先综合，后对比”，也即首先加总个别现象的指数化指标“X”，然后通过综合对比，

330、得到总指数X。但当X为数量指标（Xq）或为质量指标（XP）时，复杂现象总体的指数化指标“X”，是一个不能直接加总的量，是一个不同度量的量，因此，必须寻找一个适当的同度量因素，使“X”转换为同“值”且能够直接加总的量。n引入一个媒介因素f，使其转化为可直接加总的量；n(8.2.1)n比如n(8.2.2)n于是，P就是q的同度量因素，而q是P的同度量因素。因此，综合总指数的一般形式为n(8.2.3)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.1 综合总指数的编制原理综合总指数的编制原理n也即n(8.2.4)n为进一步的计算X，还需要排除同度量因素（P或者q）的时期影

331、响，固定同度量因素的时期，即对（P或者q）的下标进行选择！选择的标准是指数的经济分析意义。选择的结果一般有5类总指数。n这5类总指数分别是：n拉氏指数LX、n帕氏指数PX、n马歇尔埃奇沃斯指数EX、n费雪指数FXn扬格指数IX。Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用返回8.2.2 综合总指数的类型及应用综合总指数的类型及应用n拉氏指数LX：n也叫基期加权综合总指数；由德国统计学家拉斯佩雷斯(E.Laspeyres,1864年)制定。n(8.2.5)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型

332、及应用n【例8-1】某商场的商品销售数据如下，计算其价格总指数和销售量总指数。n解：由拉氏指数LX公式，有n结论：5种商品综合起来，其价格平均上涨了13.38%，销售量平均增长了8.97%。由于价格平均上涨了13.38%，使销售额增加了78650-69370=9280（百元），又由于销售量平均增长了8.97%，使销售额增加了75590-69370=6220（百元）。商品类别计量单位销售价格（元）销售量销售额（百元）p0p1q0q1p0q0p1q1p0q1p1q0大米100kg300.0360.0240026007200936078008640猪肉kg18.020.084000950001512

333、0190001710016800食盐500g1.00.8100001500010012015080服装件100.0130.0240002300024000299002300032100电视机台4500.04300.051061222950263162754021930合计-69370846967559078650拉氏指数拉氏指数Lx计算表计算表Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n帕氏指数PX：n也叫报告期加权综合总指数；由德国统计学家帕舍(H.Paasche,1874年)制定。n(8.2.6)Ch8 统计

334、指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n【例8-2】某商场的商品销售数据如下，计算其价格总指数和销售量总指数。n解：由帕氏指数PX公式，有n结论：5种商品综合起来，其价格平均上涨了12.05%，销售量平均增长了7.69%。由于价格平均上涨了12.05%，使销售额增加了84696-75590=9106（百元），又由于销售量平均增长了7.69%，使销售额增加了84696-78650=6046（百元）。商品类别计量单位销售价格（元）销售量销售额（百元）p0p1q0q1p0q0p1q1p0q1p1q0大米100kg300.036

335、0.0240026007200936078008640猪肉kg18.020.0840009500015120190001710016800食盐500g1.00.8100001500010012015080服装件100.0130.0240002300024000299002300032100电视机台4500.04300.051061222950263162754021930合计-69370846967559078650帕氏指数帕氏指数PX计算表计算表Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n马埃指数EX：n是拉氏

336、指数LX和帕氏指数PX进行算术平均的结果；是对拉氏方法和帕氏方法的一种改进。由英国经济学家马歇尔(A.Marshall)和埃奇沃斯(F.Y.Edgeworth)1887-1890年制定。n(8.2.7)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n费雪指数FX：n是对拉氏指数LX和帕氏指数PX直接进行几何平均的结果；是对拉氏方法和帕氏方法的进一步改进。也叫理想指数。由美国经济学家沃尔什(G.M.Walsh)、庇古(A.C.Pigou)、费雪(IrvingFisher)制定。n(8.2.8)Ch8 统计指数统计指数8

337、.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n【例8-3】某商场的商品销售数据如下，计算其价格总指数。n解：由马埃指数EX和费雪指数FX，有商品类别计量单位销售价格（元）销售量销售额（百元）p0p1q0q1p0q0p1q1p0q1p1q0大米100kg300.0360.0240026007200936078008640猪肉kg18.020.0840009500015120190001710016800食盐500g1.00.8100001500010012015080服装件100.0130.02400023000240002990023000

338、32100电视机台4500.04300.051061222950263162754021930合计-69370846967559078650马马埃埃指数指数EX和和费雪指数费雪指数FX计算表计算表Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n扬格指数IX：n也叫固定加权综合总指数；是在权衡了理论和实际的基础上，对拉氏方法和帕氏方法的折衷改进。由英国经济学家扬格(A.Young)和罗威(J.Lowe)制定。因此也叫扬格-罗威指数。n(8.2.9)n式中的Pc或者qc是指正常时期的同度量因素。Ch8 统计指数统计指数8

339、.2 综合总指数及其应用综合总指数及其应用8.2.2 综合总指数的类型及应用综合总指数的类型及应用n综合总指数作为总指数的基本编制方式之一，在实践中获得广泛的应用。而在不同的场合，往往需要不同形式的综合总指数。一般而言，人们选择总指数形式的主要标准，应该是指数的经济分析意义。除此之外，还要考虑实际编制工作的可行性和可操作性，以及对指数分析性质的某些特殊要求。从理论上说，费雪指数FX、马歇尔埃奇沃斯指数EX，均要优于拉氏指数LX和帕氏指数PX，但因为资料的时效性问题，其FX和EX的编制可行性较差；拉氏指数LX和帕氏指数PX的编制可行性，相对较好，但不能完全满足理论分析特别是特殊分析的要求；扬格指

340、数IX，则是在权衡了理论和实际的基础上，对拉氏方法和帕氏方法的折衷改进。因此，拉氏指数LX和扬格指数IX，在应用上相对要多一些。Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用返回8.2.3 综合总指数的经济应用综合总指数的经济应用n工业生产指数：n反映一个国家或者地区各种工业产品产量的综合变动程度，是衡量经济增长水平的重要指标之一。世界各国都非常重视，但采用的编制方法却不完全相同。我国采用基期加权综合指数的拉氏方法。国外采用固定加权算术平均指数方法。n(8.2.10)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.3 综合总指数的经济应用综合总

341、指数的经济应用n产品成本指数：n是概括反映生产各种产品的单位成本水平的综合变动程度，是企业或者部门进行成本管理的有效工具。有拉氏成本指数L，帕氏成本指数P，n(8.2.11)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.3 综合总指数的经济应用综合总指数的经济应用n空间价格指数：n又称地域性价格指数，用于比较不同地区或者国家各种商品价格的综合变异程度。它是进行地区对比和国际对比的一种重要分析工具。常常采用马埃指数EX。n(8.2.12)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用8.2.3 综合总指数的经济应用综合总指数的经济应用n股票价格

342、指数：n反映股票市场上各种股票价格变动趋势，简记为SPI（StockPriceIndex）。编制方法有拉氏法L、帕氏法P。如上证指数，香港恒生指数，美国道琼斯股票价格指数，标准普尔指数，伦敦金融时报指数，法兰克福DAX指数，巴黎CAC指数，瑞士苏黎世SMI指数，日本日经指数，。n(8.2.13)Ch8 统计指数统计指数8.2 综合总指数及其应用综合总指数及其应用返回8.3平均总指数及其应用n8.3.1平均总指数的编制原理平均总指数的编制原理n8.3.2平均总指数的类型及应用平均总指数的类型及应用n8.3.3平均总指数的经济应用平均总指数的经济应用返回Ch8 统计指数统计指数8.1 统计指数及其

343、作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用8.3.1 平均总指数的编制原理平均总指数的编制原理n平均总指数的编制原理，是“先对比，后平均”，即先通过对比计算个别现象的个体指数X，然后将个体指数加以加权平均，得到总指数X。n(8.2.14)n在这种方法中，必须考虑好两个问题。一是选择什么样的权w？=？；二是采用什么样的方式进行加权平均求总指数X。从应用的角度看，权w一般应具有总值指标的特征为好，即，nn其时期选择，应根据个体指数

344、X加权平均的方式确定；加权平均的方法，有算术平均方法、调和平均方法和几何平均方法。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用返回8.3.2 平均总指数的类型及应用平均总指数的类型及应用n算术平均总指数AX：n它的一般形式为n(8.2.15)n可以证明，算术平均总指数AX与拉氏指数LX是等价的。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用8.3.2 平均总指数的类型及应用平均总指数的类型及应用n【例8-5】某企业的三种商品生产数据如下。用算术平均方法计算其平均成本总指数和生产量总指数。n解：根据算术平均总指数AX公式，有n结论：3种商品综合起来，

345、其平均成本上涨了14.73%，生产量平均增长了4.59%。由于平均成本上涨了14.73%，使总成本增加了424.5-370=54.5（万元），又由于生产量平均增长了4.59%，使总成本增加了387-370=17（万元）。Ch8 统计指数统计指数8.2 平均总指数及其应用平均总指数及其应用商品名称计量单位总成本（万元）个体成本指数kp=p1/p0个体产量指数kq=q1/q0kpw0kqw0m1/kpm1/kqp0q0=w0p1q1=m1甲件2002201.141.03228206192.98213.592乙台50501.050.9852.54947.6251.020丙箱1201501.201.1

346、0144132125136.363合计-370420-424.5387365.6400.975算术平均算术平均总指数（总指数（拉氏指数拉氏指数Lx）计算表计算表8.3.2 平均总指数的类型及应用平均总指数的类型及应用n调和平均总指数HX：n它的一般形式为n(8.2.16)n可以证明，调和平均总指数HX与帕氏指数PX也是等价的。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用8.3.2 平均总指数的类型及应用平均总指数的类型及应用n【例8-6】某企业的三种商品生产数据如下。用调和平均方法计算其平均成本总指数和生产量总指数。n解：根据调和平均总指数HX公式，有n结论：3种商品综

347、合起来，其平均成本上涨了14.88%，生产量平均增长了4.74%。由于平均成本上涨了14.88%，使总成本增加了420-365.5=54.5（万元），又由于生产量平均增长了4.74%，使总成本增加了420-400.975=19.025（万元）。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用商品名称计量单位总成本（万元）个体成本指数kp=p1/p0个体产量指数kq=q1/q0kpw0kqw0w1/kpw1/kqp0q0=w0p1q1=w1甲件2002201.141.03228206192.98213.592乙台50501.050.9852.54947.6251.020丙箱1

348、201501.201.10144132125136.363合计-370420-424.5387365.6400.975调和平均总指数调和平均总指数HX（帕氏指数帕氏指数PX ）计算表计算表8.3.2 平均总指数的类型及应用平均总指数的类型及应用n几何平均总指数GX：n它的一般形式为n(8.2.17)Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用8.3.2 平均总指数的类型及应用平均总指数的类型及应用n【例8-7】某企业的三种商品生产数据如下。用几何平均方法计算其平均成本总指数和生产量总指数。nn解：根据几何平均总指数GX公式，有Ch8 统计指数统计指数8.3 平均总指数及

349、其应用平均总指数及其应用商品名称计量单位总成本（万元）个体成本指数kp=p1/p0个体产量指数kq=q1/q0w0/w0p0q0=w0p1q1=w1甲件2002201.141.030.54054乙台50501.050.980.13514丙箱1201501.201.100.32432合计-370420-1.00000几何平均总指数几何平均总指数GX计算表计算表8.3.2 平均总指数的类型及应用平均总指数的类型及应用n平均总指数的各种形式，在分析上没有绝对优劣之分。但从实用的角度看，算术平均总指数AX，计算比较简便，含义直观，故应用的最为广泛；其次是调和平均总指数HX；几何平均总指数GX计算较复杂

350、，故使用较少。不过，在缺乏必要的指数权数资料时，人们往往不得不编制简单平均指数。依据幂平均数的性质，如果是对同样一些个体指数进行平均，则算术平均指数AX会偏大，而调和计算平均指数HX则偏小，这些偏差不能由指数的经济分析意义来加以解释；相对而言，几何平均总指数GX则比较适宜，因此，在这种情况下，为了避免不加权而引起的指数偏差，人们一般乐于采用简单几何平均指数形式。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用返回8.3.3 平均总指数的经济应用平均总指数的经济应用n消费者价格指数：n又称为生活费用指数，是综合反映各种消费品价格变动程度的重要经济指数，简记为CPI（Consu

351、merPriceIndex）。该指数可以用于分析市场物价的基本动态，反映通账、货币购买力、工资水平。它是政府制定物价政策和工资政策的重要依据。n(8.2.18)Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用8.3.3 平均总指数的经济应用平均总指数的经济应用n零售价格指数：n是综合反映城乡商品零售价格变动趋势的重要经济指数，简记为RPI（RetailPriceIndex）。nn(8.2.19)Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用8.3.3 平均总指数的经济应用平均总指数的经济应用n农副产品收购价格指数：n(8.2.20)n反映各种农副产品收

352、购价格的综合变动程度。Ch8 统计指数统计指数8.3 平均总指数及其应用平均总指数及其应用返回8.4指数体系与因素分析n8.4.1指数体系及其作用n8.4.2构造指数体系的方法n8.4.3总量变动的因素分析n8.4.3平均数变动的因素分析返回Ch8 统计指数统计指数8.1 统计指数及其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用8.4.1指数体系及其作用n指数体系：n广义：若干个内容上相互关联的统计指数所结成的体系。n狭义：几个

353、指数之间在一定的经济联系基础上所结成的数量关系式。其典型的表现形式是：被分析指标的统计指数等于被分解指标的统计指数之乘积。比如，n指数体系一般保持两个对等关系，一是各因素指数的乘积等于总变动指数；二是各因素变动影响额之和等于实际发生的总变动额。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.1指数体系及其作用n若干个指数体系的例子：n总成本指数=产量指数单位产品成本指数；n销售额指数=销售量指数销售价格指数；n总产值指数=产量指数产品价格指数；n总产值指数=员工人数指数劳动生产率指数；n增加值指数=员工人数指数劳动生产率指数增加值率指数；n销售利润指数=销售量指数销

354、售价格指数销售利润率指数；.n同时，有n总成本变动额=产量变动引起的成本变动单位产品成本变动引起的成本变动；n销售额变动额=销售量变动引起的销售额变动销售价格引起的销售额变动；n总产值变动额=产量变动引起的总产值变动产品价格变动引起的总产值变动；n总产值变动额=员工人数变动引起的产值变动劳动生产率变动引起的产值变动；n增加值变动额=员工人数变动引起的增加值变动劳动生产率变动引起的增加值变动增加值率变动引起的增加值变动；n销售利润变动额=销售量变动引起的利润变动销售价格变动引起的利润变动销售利润率变动引起的利润变动；.Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.1

355、指数体系及其作用n如果记c为总变动指标，ab为c的影响因素，则c=ab指数体系可表为nc=ab，c=ab，c=a+b，(8.3.1)n记x为总变动指标，qpo为x的影响因素，则x=qpo指数体系可表为nx=qpo，x=qpo，x=q+p+o，(8.3.2)n其中c=ab指数体系称为二因素指数体系，x=qpo指数体系称为三因素指数体系。n对于二因素指数体系，其影响因素ab常常一为数量指标aq，一为质量指标bp，因此又记为n(qp)=qp，(qp)=qp，(qp)=q+p，(8.3.3)Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.1指数体系及其作用n指数体系的作用：

356、n1，因素分析：分析现象的总变动中各有关因素的影响程度；n2，指数推算：即根据已知的指数推算未知的指数。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析返回8.4.2构造指数体系的方法n以二因素指数体系为例，n第一步，建立分析指标与影响指标之间的内在经济联系；并从概念上，将分析指标分解为一个数量指标q和一个质量指标p；n例：概念上销售额(qp)=销售量q销售价格p；n第二步，在概念指标关系的基础上，使用如下逻辑直接导出指数体系；n因为销售额(qp)=销售量q销售价格p；n所以销售额指数(qp)=销售量指数q销售价格指数p；n第三步，保证指数体系成立的前提条件是，等式的左边的

357、分析指标销售额，是一个可比的总值指标，所以销售额指数是两个时期的销售额之比；但等式右边的数量指标指数，要求使用拉氏指数q=Lq，质量指标指数，则要求使用帕氏指数p=Pp。于是有Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.2构造指数体系的方法n以二因素指数体系为例，（续）n(8.3.4)n第四步，综合推广以上分析，得二因素指数体系n(8.3.5)Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.2构造指数体系的方法n构造指数体系的的方法图解：构造指数体系的的方法图解：n概念上(q p)=q p；n指数体系(q p)=qp，(qp)=qp，

358、(qp)=q+p，n要求Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.2构造指数体系的方法Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析n二因素指数体系的构造方法，可以推广到三因素、乃至多因素指数体系，比如，因为，n销售利润x=销售量q销售价格p销售利润率on=销售额(qp)销售利润率on=销售量q销售单位利润(po)；n于是n销售利润指数x=销售量指数q销售价格指数p销售利润率指数on=销售额指数qp销售利润率指数on=销售量指数q销售单位利润指数po；n所以，三因素指数体系可表为n(8.3.6)8.4.2构造指数体系的方法Ch8 统计指数

359、统计指数8.4 指数体系与因素分析指数体系与因素分析n保证三因素指数体系成立的条件，是n(8.3.7)n多因素指数体系方法可依此类推。返回8.4.3总量变动的因素分析Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析n因素分析，就是利用指数体系，从数量方面，分析现象总体中各因素变动的影响程度和绝对效果。n因素分析一般有4个步骤：n第一步，明确分析对象及其影响因素。这里的分析对象，是各种具体的统计指标，如商品销售额、总产值、总成本等等；其影响因素，一般根据分析对象的概念进行分解确定，如概念上，销售额=销售量销售价格，所以销售量、销售价格就是销售额的影响指标。n第二步，建立分析对

360、象的指数体系。方法如上。n第三步，收集资料，计算指数体系两个关系式中的各项数值。n第四步，根据计算的结果，做出分析结论和简要的文字说明。8.4.3总量变动的因素分析Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析n总量变动的因素分析程序8.4.3 总量变动的因素分析总量变动的因素分析n【例8-8】某商场的商品销售数据如下。试对销售额的变动进行因素分析。n解：(1)因为，销售额(qp)=销售量q销售价格p，n所以，(qp)=qp，qp+q+p，商品类别计量单位销售价格（元）销售量销售额（百元）p0p1q0q1p0q0p1q1p0q1p1q0大米100kg300.0360.02

361、40026007200936078008640猪肉kg18.020.0840009500015120190001710016800食盐500g1.00.8100001500010012015080服装件100.0130.0240002300024000299002300032100电视机台4500.04300.051061222950263162754021930合计-69370846967559078650总量变动因素分析总量变动因素分析计算表计算表Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.3 总量变动的因素分析总量变动的因素分析n有n并且有n(2)分析结论

362、：5种商品综合起来，由于价格平均上涨了12.05%，使销售额增加了84696-75590=9106（百元），又由于销售量平均增长了8.97%，使销售额增加了75590-69370=6220（百元）。价格与销售量共同影响的结果，使销售额增长了22.09%，即增加84696-69370=15326（百元）。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析返回8.4.4 平均数变动的因素分析平均数变动的因素分析n平均数变动是指平均指标指数的变动；n平均指标指数是两个平均指标之比；其指数本身是一个相对数，属于广义的指数范畴；n在总体分组的条件下，平均数的变动受两个因素影响：一是各组

363、的变量水平；二是总体的结构。n平均数变动是这两个因素共同影响的结果。nn平均数变动的因素分析可参照总量变动的因素分析方法:数量指标指数使用拉氏数量指标指数，质量指标指数则使用帕氏质量指标指数。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.4 平均数变动的因素分析平均数变动的因素分析n平均数变动的因素分析程序Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析8.4.4 平均数变动的因素分析平均数变动的因素分析n【例8-9】某企业职工人数和车间劳动生产率数据如下。试对企业劳动生产率的变动进行因素分析。n解:(1)因为，劳动生产率=组劳动生产率组结构数

364、，n所以，劳动生产率总指数=组劳动生产率总指数组结构总指数。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析平均数变动因素分析平均数变动因素分析计算表计算表车间类别职工人数（元）劳动生产率（万元/人）总产值（万元）f0f1x0x1x0f0x0f1x1f1一车间2002404.44.588010561080二车间1601806.26.499211161152三车间1501209.09.2135010801104合计5105406.326.183222325233368.4.4 平均数变动的因素分析平均数变动的因素分析n可变构成指数n固定构成指数n结构影响指数n并且有n(2)分

365、析结论：由于各车间劳动生产率的提高，使企业总的劳动生产率提高了2.66%，人均提高6.18-6.02=0.16（万元），但车间职工人数的变化，使企业总的劳动生产率下降了4.75%，人均下降0.30（万元）。综合起来，车间劳动生产率与职工人数的共同影响，使企业总的劳动生产率下降了2.3%，人均下降0.14（万元）。Ch8 统计指数统计指数8.4 指数体系与因素分析指数体系与因素分析返回 8.5统计指数数列n8.5.1指数数列的构成和种类指数数列的构成和种类n8.5.2指数数列指数数列的衔接的衔接 n8.5.3不变价格的更换与应用不变价格的更换与应用返回Ch8 统计指数统计指数8.1 统计指数及

366、其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用 8.5.1指数数列的构成和种类Ch8 统计指数统计指数8.5 指数数列指数数列n指数数列：指数数列：n将同一种类，不同时间的多个指数按计算时间的先后次序排列将同一种类，不同时间的多个指数按计算时间的先后次序排列起来，就构成了指数数列。起来，就构成了指数数列。n指数数列的表现：指数数列的表现：n定基指数数列定基指数数列锁比指数数列锁比指数数列n环比指数数列环比指数数列 8.5.1指

367、数数列的构成和种类Ch8 统计指数统计指数8.5 指数数列指数数列n 年份t环比指数(上年=100)锁比指(1979=100)1980107.3107.31981104.7112.31982102.4115.01983102.0117.31984107.2125.81985123.1154.81986109.8170.01987111.9190.31988130.1247.51989124.8308.9199097.7301.81991102.7309.91992109.8340.31993116.6396.81994120.6478.61995113.6543.61996103.6561.6

368、199797.9549.8指数数列的变动规律？指数数列的变动规律？ Ch9 返回 8.5.2指数数列的衔接Ch8 统计指数统计指数8.5 指数数列指数数列n一个指数数列，往往因为某种原因，需要更动基期或者改变指数内涵的部分内容，重新编制成为一个新的指数数列。于是，新旧数列的衔接是必要的。衔接新旧指数数列，使之成为一个完整的指数数列，其前提是：新旧两个指数数列中有一个年份，必须同时计算出新旧数列的两个数值，并以这两个数值求得一个换算系数R，然后将旧数列中每一个数值乘以换算系数R，一一加以换算，以衔接到新的指数数列中来。换算系数使用如下公式：nR=交替年份的新的指数值/交替年份的旧的指数值n假定有

369、A、B两个指数数列如表所示，要求将A数列衔接到B数列中去。n解：R=100/120=0.833nX1=110R=1100.833=91.67nX2=100R=1000.833=83.33n显而易见，为了研究现象的长期变化趋势及其规律性，指数数列的衔接是有必要的。不过必须明确的是，由于指数理论是针对复杂现象总体而展开讨论的，新旧数列的衔接只是一种近似的处理办法，所以，得出的结论只能是大致的情况。年份t19891990199119921993A100110120-BX1X2100120140返回 8.5.3不变价格的应用Ch8 统计指数统计指数8.5 指数数列指数数列n不变价格的制定，本身是为了消

370、除价格因素变动的影响，以反映工业生产真实的发展状况，然而，随着社会的发展和科学技术的进步，以及国家价格政策的不断改变调整，新老产品的不断更替，各种产品之间的比价，也不断发生变化，经过一段时间后，不变价格必须进行适当的修订，n不变价格本身也不是长期不变的。建国以来，不变价格已经变更过多次：1950年、1952年、1957年、1970年、1980年、1990年，而目前使用的是2000年全国统一不变价格。这样一来，在分析较长时期工业产量动态，凡遇到不变价格更换时，计算工业产量指数，就得想办法消除不变价格本身变动因素的影响。n消除不变价格变动影响，其步骤为：不变价格更替年份，按新旧两种不变价格，同时算

371、出工业总产值指标，以新不变价的产值为分子、旧不变价的产值为分母对比，求得不变价格的换算系数；然后将各年计算的旧不变价产值，分别乘以不变价格的换算系数，近似求得以往各年新不变价的产值；最后再求产量指数。返回n8.6.1股票价格指数股票价格指数n8.6.2世界上几种重要的股票指数世界上几种重要的股票指数返回Ch8 统计指数统计指数8.1 统计指数及其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用 8.6统计指数的应用股票指数的编制n股

372、票价格指数n是即期(计算期或报告期)股价与基期股价相比的相对变化数。股票价格指数简称为股价指数，它的编制，通常以某一时点为基期，选择若干种股票在基期的价格水平作为100(或为10，或为1000)，然后用即期股价与基期股价相比，计算出升降的百分比，就是即期的股价指数。n股票价格指数是股市价格变动的重要尺度。股票价格指数数列，可以反映股票价格的平均水平和变动趋势。n股票价格指数，一直是股票投资人决策的重要指针。股价指数主要有以下几种编制方法：n简单算术平均法n综合平均法n加权平均法 8.6.1股票价格指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n简单算术平均法n(8.6.1)n

373、其中，po,i第i只股票的基期价格；pt,i第i只股票的即期价格。n综合平均法 8.6.1股票价格指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n加权平均法n该法又称为价值加权平均法，是以发行量或成交量作为权数，计算股票价格指数。根据选择权数的时期，又分为以下两个方法。n1）基期加权平均法n(8.6.3)n其中，qo, i第i只股票的基期发行量或成交量。n2）即期加权平均法n(8.6.4)n其中，qt, i第i只股票的即期发行量或成交量。 8.6.1股票价格指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用返回n1，道琼斯股价指数n2，斯坦达德普尔股价指数n3，

374、NYSE指数、AMEX指数、NASDAQ指数n4，金融时报股价指数n5，日经股价指数n6，香港恒生股价指数 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n1，道琼斯股价指数n是由道琼斯公司计算和发布的股价指数，它是美国历史上最悠久的股票价格指数。道琼斯指数之名取自于该公司的两个创始人，即查尔斯亨利道和爱德华琼斯之姓。道琼斯指数在初始的时候，是根据11种具有代表性的铁路公司的股票价格编制而成的。指数构成，经过1897年、1916年、1928年和1938年四次变动，由11种股票逐渐增为32种、40种直至目前的65种，而且成份股也由铁路股让位于新兴的工

375、业股票。道琼斯指数，于1928年10月1日首次公布了30家工业股票平均指数，并以当天为基期，基数为100。道琼斯股份指数目前有以下四种：n(1)道琼斯工业指数（简称DJIA）。n(2)道琼斯交通指数。n(3)道琼斯公用事业指数。n(4)道琼斯综合指数。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n(1)道琼斯工业指数（简称DJIA）。是历史最悠久，使用最广泛，影响最大的一种指数。它按价格加权平均法，计算出美国30家最著名、最具代表性的工商业股票价格指数。这30家公司，包括通用汽车公司、国际商用机器公司(IBM)、可口可乐公司、波音飞机公司、杜邦

376、公司、柯达公司等。这30家公司的股票价值，占纽约证券交易所总股值的14，占美国证券交易所总股值的15。指数随时间的变化而变化，大致可以反映整个工商业股票的价格水平和变动趋势，已被各大电视媒体、报刊经常引用。n(2)道琼斯交通指数。该指数由8家铁路公司、8家航空公司和4家卡车运输公司共20家公司构成。n(3)道琼斯公用事业指数。公用事业是指电话、电讯、煤气电力供应行业。该指数由15家公司构成。n(4)道琼斯综合指数。该指数由30家工商业公司、20家交通运输公司和15家公用事业公司构成。指数只包括在纽约证券交易所和美国证券交易所上市的公司股票，而不包括柜台交易市场的公司股票。 8.6.2世界上几种

377、重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n道琼斯股价指数最初的计算方法，是采用股价平均法。后来，由于经济结构的变动、股票分割及发行新股票等情况，其计算方法略有变化。1928年开始，用新的方法即价格加权平均法计算，即将各种采样股票的股价平均数，除以一个新的除数，使平均数不受影响。如1983年4月7日，道琼斯工业指数、道琼斯交通指数、道琼斯公用事业指数、道琼斯综合指数的平均数除数分别为1.292、1.574、2.709和5.82。目前，上述四种道琼斯指数，每分钟计算一次，每天在华尔街日报上刊出。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指

378、数的应用统计指数的应用n2，斯坦达德普尔股价指数n也叫标准普尔指数，由斯坦达德和普尔公司计算和公布。该指数包括500种股票，其中400家公司属于85个不同的工业产业；40家公司属于商业银行、保险等金融产业；20家公司属于航空、铁路交通、卡车运输等交通运输公司；40家公司属于电脑、电讯等公用事业产业。斯坦达德普尔指数，简记为S&P500股价指数，以19411943年为基期，基数为100，采用价值加权平均法计算。美国联邦储备委员会和商务部均使用这个指数，并认为它比道琼斯工业指数更能确切地反映股票的实际平均价格。因此，它日益成为代表美国股票市场变动的基本指标。除综合指数之外，还有工业、公共事业、交通

379、运输业和金融四种行业的斯坦达德普尔行业指数。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n3，NYSE指数、AMEX指数、NASDAQ指数n(1)NYSE指数。是纽约证券交易所(简称NYSE)上市的1570家公司的股票价值综合指数。该指数1966年开始公布，采用价值加权平均法计算，并在交易所每半小时公布一次。除了综合指数之外，还有工业、公共事业、交通运输和金融四种行业的NYSE行业指数。n(2)AMEX指数。是美国证券交易所（简称AMEX或ASE)上市的股票价值综合指数。该指数1965年开始公布，采用价值加权平均法计算，并在交易所每小时公布一次

380、。n(3)NASDAQ指数。是美国证券交易商协会自动报价系统（简称NASDAQ)公布在柜台交易市场(简称OTC)上市的5000家公司的股票综合指数。该指数也采用价值加权平均法计算。此外，除了综合指数之外，还有代表银行业、工业、保险业、其他金融业、交通运输和公用事业的NASDAQ的行业指数。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n4，金融时报股价指数n是由英国伦敦金融时报编制发表的、反映伦敦证券交易所工业和其他行业的股票价格变动的几种指数的总称。金融时报股价指数主要有以下三种。n(1)普通股票指数。该指数由英国工业的有一定代表性的30家大公

381、司的30种股票组成，以1935年7月1日的股价为基期，基数为100。n(2)综合精算股票指数。该指数由700种股票组成，以1962年4月l0日为基期，基数为100，按各股票的平均价格统计算出。n(3)FT100股价指数。FTl00股价指数是金融时报(FT)100股价指数的简称，由100家有代表性的大公司组成，以1984年1月3日为基期，基数为1000。指数通过伦敦股票市场自动报价系统，可以随时得到所统计股票的市价，并以此计算前一分钟的交易指数，能迅速地反映股市行情的每一种变动情况。因此，该指数越来越受到人们重视，成为英国股市行情相变动趋势的重要指标。 8.6.2世界上几种重要股票指数Ch8 统

382、计指数统计指数8.6 统计指数的应用统计指数的应用n5，日经股价指数n是由日本经济新闻社编制并公布，反映日本股票市场价格变动的股票价格指数。其计算方法，采用的是道琼斯指数所用的加权平均法，基期为1950年9月7日。按计算对象和采样股票数目的不同，该指数分为以下两种。n(1)日经225种股价指数。该指数由在东京证券交易所第一市场上市的225家公司的225种股票组成，其中，制造业150家、金融业15家，运输业14家以及其他行业46家。该指数自1950年开始一直延续下来，具有可比性和连续性，成为了解和分析日本股市长期演变及趋势的最常用指标。n(2)日经500种股价指数。该指数从1982年1月4日开始

383、编制。由在东京证券交易所第一市场上市公司的半数(500家)股票组成。指数样本并不固定，根据前三个结算年度各股份公司的经营状况、股票成交量、时价总额等情况，每年4月更换采样股票。由于所选股票数量多，该指数具有广泛的代表性。因此，能比较全面地反映日本股市行情和产业结构的变化。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用n6，香港恒生股价指数n是由香港恒生银行自1969年11月24日起编制、反映香港股票市场股票价格变动的指数，也是香港股票市场上历史最悠久、影响最大的一种股价指数。指数由在香港上市的33家有代表性的大公司的股票组成，其中，金融业4家，房

384、地产9家，公共事业6家，工商业包括航运业、酒店业等14家。指数采用价值加权平均法计算，以1964年7月31日为基期、基数为100，每天计算并发布三次。恒生指数具有成份股代表性强，计算频率高，指数连贯性好等特点。因此，成为香港股市行情及其变化趋势的重要指标。 8.6.2世界上几种重要股票指数Ch8 统计指数统计指数8.6 统计指数的应用统计指数的应用返回Ch8内容小结n8.1统计指数及其种类统计指数及其种类n8.2综合总指数及其应用综合总指数及其应用n8.3平均总指数及其应用平均总指数及其应用n8.4指数体系与因素分析指数体系与因素分析n8.5指数数列指数数列n8.6统计指数的应用统计指数的应用

385、股票指数的编制股票指数的编制Ch8 统计指数统计指数8.1 统计指数及其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数的应用Ch9时间序列分析介绍如何研究一个时间序列的变化规律。下一章下一章Ch8 统计指数统计指数8.1 统计指数及其作用统计指数及其作用8.2 综合总指数及其应用综合总指数及其应用8.3 平均总指数及其应用平均总指数及其应用8.4 指数体系与因素分析指数体系与因素分析8.5 指数数列指数数列8.6 统计指数的应用统计指数

386、的应用思考与练习思考与练习8.1，何为统计指数？它的主要作用是什么？，何为统计指数？它的主要作用是什么？8.2，什么叫数量指标指数和质量指标指数？举例说明。，什么叫数量指标指数和质量指标指数？举例说明。8.3，统计指数有那些性质？，统计指数有那些性质？8.4，编制总指数有哪两种方法？各有什么特点？，编制总指数有哪两种方法？各有什么特点？8.5，拉拉氏氏指指数数、帕帕氏氏指指数数、马马歇歇尔尔埃埃奇奇沃沃斯斯指指数数、费费雪雪指指数数和和扬扬格指数格指数的出发点是什么？各有何优缺点？的出发点是什么？各有何优缺点？8.6，工工业业产产量量指指数数、零零售售物物价价指指数数、居居民民消消费费价价格格

387、指指数数是是如如何何编编制制的？的？8.7，平均总指数在什么条件下与综合总指数等价？试证明说明。，平均总指数在什么条件下与综合总指数等价？试证明说明。8.8，为为什什么么要要编编制制指指数数数数列列？在在进进行行长长期期分分析析对对比比之之前前，如如何何处处理理长期数列基础数据中的若干问题？长期数列基础数据中的若干问题？8.9，什么是指数体系？如何构造一个专门的指数体系？，什么是指数体系？如何构造一个专门的指数体系？8.10，什么是因素分析？因素分析的步骤是什么？，什么是因素分析？因素分析的步骤是什么？ Ch8 Ch8 统计指数统计指数统计指数统计指数Ch9 时间序列分析时间序列分析n9.1

388、时间序列概述时间序列概述n9.2 时间序列的对比分析时间序列的对比分析n9.3 长期趋势分析长期趋势分析(new)n9.4 季节变动的测定季节变动的测定n9.5 循环变动的测定循环变动的测定统计学原理统计学原理介绍如何对一个时间序列进行规律性研究，以及时间序列规律性测定的基本方法。Ch9 主要内容主要内容Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定Ch9 学习目的学习目的1，掌握时间序列的基本概念2，掌握时间序列的分析指标3，

389、掌握长期趋势分析的基本方法4，掌握季节变动测定的基本方法5，掌握循环变动测定的基本方法Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定Ch9 时间序列分析时间序列分析n9.1 时间序列概述时间序列概述n9.2 时间序列的对比分析时间序列的对比分析n9.3 长期趋势分析长期趋势分析(new)n9.4 季节变动的测定季节变动的测定n9.5 循环变动的测定循环变动的测定统计学原理统计学原理返回9.1 时间序列概述时间序列概述n9.1.1

390、时间序列的概念时间序列的概念n9.1.2 时间序列的种类时间序列的种类n9.1.3 时间序列的编制时间序列的编制Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定返回9.1.1 时间序列概念时间序列概念n时间序列n也称为动态数列，它是将某一现象在不同时间t上的数值Y，按时间的先后次序排列所形成的序列。n它的一般表示为n t:1,2,3,4,5,n-1,n.n Yt :Y1,Y2,Y3,Y4,Y5,Yn-1,Yn;(9.1.1)n反

391、映的是，一个现象在一个时间段里的变化过程。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述图图9-1 时间序列过程时间序列过程Yt112015601005t1080202530409.1.1 时间序列概念时间序列概念n时间数列构成要素：n现象的发生时间t，n现象在某个时间上的指标值Yt。nt值的自然数排序，是因为要求对应某个时间过程；t的起始值可以是正数，可以是零，也可以是负数；不论t值的起点从什么数开始，只要保证t的取值是一个自然数排序即可。nt的单位可以是年、季、月、日、小时、分、秒或其它任何时间形式。同一时间序列中，各个Yt的时间单位相同。n时间序列中的Yt值，是具有某种

392、性质特征的指标值，其指标性质，是区分时间序列类型的依据。n时间数列的作用：n一是计算各种水平指标和速度指标，考察社会经济现象发展变化的方向和程度；n二是用于建立数学模型，描述社会经济现象发展变化的特征和趋势，揭示其变动规律；n三是将互有联系的时间序列，进行对比分析研究，揭示现象之间的联系程度及其动态演变关系。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述返回9.1.2 时间序列的种类时间序列的种类n时间序列的种类n主要根据序列指标值Yt的表现形式来确定。一般有，绝对数时间序列、相对数时间序列、平均数时间序列三种。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述

393、绝对数时间序列相对数时间序列平均数时间序列表现形式时期序列时点序列时点序列时期序列时期序列时点序列图图9-2 时间序列的分类时间序列的分类9.1.2 时间序列的种类时间序列的种类n如果Y是绝对数指标，那么Yt序列就为绝对数时间序列；如果Y是相对数或者平均数指标，则Yt序列就为相对数或平均数时间序列。其中，绝对数时间序列为基础数列；相对数序列和平均数序列，为绝对数序列的衍生数列。通常两个以上的绝对数序列，才能构造出一个相对数序列或平均数序列。n时期数列，是指现象在一段时间内的活动总量；时点数列，是指现象在某一瞬间时点上的总量。时点数列有别于时期数列的特征是，时点指标前都有一个与时间有关的定语：年

394、(季、月、日)底、年(季、月、日)初。如人口数指标，是时期指标，但年底人口数指标，却是一个时点指标。相对数序列或平均数序列，亦可如绝对数数列般，分为时期和时点数列两种。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.1.2 时间序列的种类时间序列的种类n时间序列的种类（续）Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述年份t国内生产总值(亿元)年末总人口(万人)人口自然增长率居民消费水平(元/人)199018547.911433314.39803199121617.811582312.98896199226638.111717111.60107019933

395、4634.411851711.451331199446759.411985011.211781199558478.112112110.552311199667854.612238910.422726199774772.412362610.062944199879552.81248109.533094资料来源：中国统计年鉴1998国内生产总值等时间序列国内生产总值等时间序列返回9.1.3 时间序列的编制时间序列的编制n编制时间序列的目的，是为了进行动态分析，通过同类指标在不同时间上的动态对比，来研究社会经济现象的发展过程或趋势。因此，保证数列中各指标值之间的可比性，是数列编制的基本原则，具体要求

396、是：n1，指标值所属时间应当统一；n2，总体范围应一致；n3，经济内容应一致；n4，计算方法应一致；n5，计算价格和计量单位应一致。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述返回9.2 时间序列的对比时间序列的对比分析分析n9.2.1 时间序列的水平分析时间序列的水平分析n9.2.2 时间序列的速度分析时间序列的速度分析Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定返回9.2.1 时间序列的水平分析时间序列

397、的水平分析n发展水平：n也叫现象Y在某个时间t上的代表水平。它是时间序列中，各时间上对应的指标数值，简记为Yt。Yt值的大小，代表现象Y在某一时间t上所能达到的水平状态。通常又随时间数列记为nt:1,2,3,4,5,.,n-1,nnYt :Y1,Y2,Y3,Y4,Y5,.,Yn-1,Ynn或者nt:0，1,2,3,4,5,n-1,nnYt:Y0,Y1,Y2,Y3,Y4,Y5,.,Yn-1,Yn，n其中，数列的首项Y0或者Y1，称为期初发展水平，末项Yn称为期末发展水平，其余项统称为期中发展水平。Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.1 时间序列的水

398、平分析时间序列的水平分析n平均发展水平：n就是发展水平数列Yt的平均数。它是时间数列Yt的平均数，说明的是现象Y，在某一段时间内0/1n上所达到的一般水平。统计上，习惯称这种平均数，为数列平均数、序时平均数或者动态平均数，简记为。在证券市场上，对股票价格或价格指数的分析，常用到该指标。n由于数列指标Y的表现形式不同，因此，的计算有不同的方法。Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.1 时间序列的水平分析时间序列的水平分析n平均发展水平（续）：n绝对数时间序列时期数列序时平均数的计算n设时期序列Yt :Y1,Y2,Y3,Y4,Y5,.,Yn-1,Yn；

399、则序列平均数n(9.2.2)n【例9-1】根据下表数据，计算1990-1998年年平均国内生产总值。n解：因为GDP数列为时期数列，所以1990-1998年的年均GDP，为1990-1998年的GDP总额除以1990-1998年的总年数，即Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析年份t199019911992199319941995199619971998国内生产总值(亿元)18547.921617.826638.134634.446759.458478.167854.674772.479552.89.2.1 时间序列的水平分析时间序列的水平分析n平均发展水

400、平（续）：n绝对数时间序列时点数列序时平均数的计算n总的计算原理是，先把时点序列化成时期序列，然后再用时期序列平均数的计算方法，去解决时点序列的平均数计算问题。n具体步骤是两次平均：第一步，计算出相邻两个时点之间的平均数，得平均指标绝对数时期序列，Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析图图9-3 绝对数时点数列的计算绝对数时点数列的计算Y1tY2Y3Y4Y5YnYn-2Yn-1f1f2f3f4fn-2fn-19.2.1 时间序列的水平分析时间序列的水平分析n第二步，利用时点间隔长度t加权平均，求平均指标绝对数时期序列的平均数n(9.2.4)n(9.2.4)

401、式也叫二次平均公式。如果时点间隔长度均相等，即t=，则n(9.2.5)n这相当于对原序列Yt的首项和末项，进行折半处理，因此(9.2.5)式也叫首末折半公式。Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.1 时间序列的水平分析时间序列的水平分析n【例9-2】某种股票1999年各统计时点的收盘价数据如下表。计算1999年的年平均价格。n解：收盘价数列为时点数列，因此必须先把收盘价时点数列，化为价格平均数时期数列，然后再进行加权平均，求1999年的年平均价格，即Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析统计时点t1,13,17

402、,110,112,31收盘价（元）15.214.217.616.315.8时间1.13.13.17.17.110.110.112.31-平均价格（元）(15.2+14.2)/2(14.2+17.6)/2(17.6+16.3)/2(16.3+15.8)/2-9.2.1 时间序列的水平分析时间序列的水平分析n【例9-3】某种商品6月份的库存数据如下表，计算6月份的日平均库存。n解：因为库存是时点指标，所以库存序列是时点序列。计算6月份的日平均库存，必须先把时点序列，置换成时期序列，即6月份的日平均库存数列。6月份由若干个时点组成的时间段构成，但这些时段内的日库存，是一个常量，所以时点库存序列，与该

403、时段内的日平均库存序列等价。于是6月份的日平均库存为Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析日期t1-45-78-1314-2021-2324-2829-30库存(台)49523929433851日平均库存(台)495239294338519.2.1 时间序列的水平分析时间序列的水平分析n【例9-4】根据下表数据，计算1991-1998年年平均总人口。n解：因为年末总人口是时点指标，所以，年末总人口序列是时点序列。因此，可以根据年末总人口序列Yt，经过两次平均得1991-1998年的年平均总人口nn也可以根据年平均人口序列，用时期序列方法，求得1991-19

404、98年的年平均总人口=1991-1998年的年平均人口数/1991-1998年的总年数，即Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析年份t199019911992199319941995199619971998年末总人口(万人)114333115823117171118517119850121121122389123626124810年平均总人口(万人)-115078116497117844119183.5120485.5121755123007.51248189.2.1 时间序列的水平分析时间序列的水平分析n相对数时间序列序时平均数的计算n由于相对数指标时间

405、序列，是由两个有联系的绝对数指标数列相应项对比的结果，即，nnn因此，相对数指标时间序列序时平均数的计算，不能根据相对指标时间序列直接计算。而是先分别求出构成相对数的分子a分母b的序时平均数，然后再进行对比，求得相对数序列的序时平均数，其基本公式为。nn平均数时间序列序时平均数的计算n方法同相对数时间序列序时平均数的计算。Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.1 时间序列的水平分析时间序列的水平分析n【例9-5】某种商品1-6月份的流转速度及相关数据如下表，计算1-6月的平均流转次数。n解：因为商品的流转次数是一个相对指标，因此，相对指标的平均数不

406、能直接求，而必须根据相关指标的情况去求。根据指标的含义，商品流转次数=商品销售额/商品平均库存；于是1-6月份的商品流转次数的月平均数=1-6月份的商品销售额的月平均数/1-6月份的商品平均库存的月平均数。由于销售额序列和平均库存序列均是时期序列，所以1-6月份的销售额的月平均数n n1-6月份的商品平均库存的月平均数n则，1-6月份的商品流转次数的月平均数Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析月份t123456商品流转次数y2.293.162.141.922.502.09商品销售额(万元)a240303257248263284平均库存额(万元)b1059

407、61201291051369.2.1 时间序列的水平分析时间序列的水平分析n增长量：n也叫增减水平。它是报告期水平与基期水平之差，说明现象在观察期内增减的绝对数量。由于基期确定的方式不同，增长量有逐期增长量与累计增长量之分。n 设时间序列为n Yt :Y0,Y1,Y2,Y3,Y4,Y5,Yn-1,Yn，n则n逐期增长量nt=Yt-Yt-1,t=1,2,3,n-1,n(9.2.6)n累计增长量n St=Yt-Y0,t=1,2,3,n-1,n(9.2.7)n逐期增长量与累计增长量之关系n(9.2.8)Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.1 时间序列的

408、水平分析时间序列的水平分析n平均增长量：n就是逐期增长量序列t的平均数，用以说明现象在观察期内平均增长的数量，简记为。设增长量序列t为，nt :1,2,3,4,5,.,n-1,nnt:1,2,3,4,5,n-1,nn则的计算公式为n(9.2.9)Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析返回9.2.2 时间序列的速度分析时间序列的速度分析n发展速度：n是报告期水平与基期水平之比，用于说明现象在观察期内发展变化的相对程度。由于采用的基期不同，有定基发展速度和环比发展速度之分。n设时间序列为nYt :Y0,Y1,Y2,Y3,Y4,Y5,Yn-1,Yn，n则n定基发

409、展速度n(9.2.10)n环比发展速度n(9.2.11)n定基发展速度和环比发展速度的关系n(9.2.12)Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2.2 时间序列的速度分析时间序列的速度分析n增长速度：n又称为增长率，是报告期增长量与基期水平之比值，用以说明现象的相对增长程度。由于选择的基期不同，有定基增长速度和环比增长速度之分。n设时间序列为nYt :Y0,Y1,Y2,Y3,Y4,Y5,Yn-1,Yn，n则n定基增长速度n(9.2.13)n环比增长速度n(9.2.14)Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析9.2

410、.2 时间序列的速度分析时间序列的速度分析n增长速度：平均发展速度：就是环比发展速度序列的平均数。用于描述现象在整个观察期内，发展速度平均变化的程度。由于环比发展速度序列是一个几何序列，几何序列的序时平均数计算，不能采用一般的序时平均数方法，而是采用几何平均法（水平法）和高次方程法（累计法）。n设环比发展速度序列为nbt:b1,b2,b3,b4,b5,bn-1,bn，n如果采用几何平均法（水平法），则有n(9.2.16)n如果采用高次方程法（累计法），则有n(9.2.17)n解高次方程(9.2.17)，求出。n平均增长速度：也叫平均增长率，是用来反映现象在整个观察期内，平均增减变化的一般程度，

411、它通常用平均发展速度减1来求得，即n(9.2.18)Ch9 时间序列分析时间序列分析9.2 时间序列的对比分析时间序列的对比分析返回9.3 长期趋势分析长期趋势分析n9.3.1 时间序列的构成分析时间序列的构成分析n9.3.2 时距扩大、移动平均法时距扩大、移动平均法n9.3.3 趋势模型法趋势模型法Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定返回9.3.1 时间序列的构成分析时间序列的构成分析n事物的发展变化，同时受多种因素

412、的影响。在众多影响因素中，有些对事物的发展变化，起着长期的、决定性的作用，使事物的发展变化，呈现出某种趋势和一定的规律性；有些则对事物的发展，起着短期的、非决定性的作用，致使事物的发展，呈现出某种不规则性。时间序列各个观察值Yt，正是这些因素共同作用的结果。n从统计分析的结果看，时间序列的影响因素，大体上可分为4种，即长期趋势T、循环波动C、季节变动S和随机变动I。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)图图9-4 *股票价格走势图股票价格走势图Kt112014015601005t10802025301609.3.1 时间序列的构成分析时间序列的构成分析n长期

413、趋势T：n是指现象在一个相当长的时间内，受某种因素影响，所展现出来的一种基本趋势。它的具体表现为，不断增加或者不断减少；或者表现为只围绕某一常数值波动，无明显的增减变化的水平运动。也称为趋势变动。n循环变动C：n指一年以上的周期变化，它是以若干年为周期，上升与下降交替出现的循环往复的运动。最常见的循环变动，是经济发展中的繁荣衰退萧条繁荣的经济周期运动，也称为商业循环。n季节变动S：n指一年以内，随着季节的更替而呈现的周期性变化。这种周期性变化，周而复始，历年重现，季节变化规律非常明显。如时令商品的逐月或逐季的销售情况。n季节变动与循环变动，都表现为涨落相同的循环波动，但二者本质不同。从周期的规

414、律性来说，季节变动有固定的周期，如年、月、日；循环变动的周期都在一年以上，规律性较低，一般研究其平均周期。从波动的成因来说，季节变动，主要是由自然和制度性因素引起的；而循环变动，则是由经济系统内部的因素引起的，如投资的周期性波动，导致经济总量的周期性波动。n随机变动I：n是指时间序列中，由于偶然性因素的影响，而表现出来的不规则波动，也称为不规则变动；它一般是大量随机干扰造成的起伏波动，是时间序列中无法由T、S、C解释的剩余部分。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.1 时间序列的构成分析时间序列的构成分析n分析模型。时间序列的分析，一般是建立在两种模

415、型上：n第一种，加法模型n Yt=Tt+St+Ct+It；t=1,2,3,4,5,n-1,n；(9.3.1)n其中，Tt、St、Ct、It相互独立，Yt是这四种因素相加的结果。Yt、Tt、St、Ct、It的度量单位相同。n第二种，乘法模型n Yt=TtStCtIt；t=1,2,3,4,5,n-1,n；(9.3.2)n其中，Tt、St、Ct、It是相互影响的关系，Yt是这四种因素的乘积。Yt、Tt的度量单位相同，而St、Ct、It是比率，用百分数表示。n时间序列分析的目的，就是要在某种模型的基础上，从观察值Yt中将影响因素Tt、St、Ct、It分离出来，一一测定它们的影响程度，分析研究它们各自的

416、统计规律，从而达到对现象Yt的深刻认识。n两种模型中，实际应用较多的是乘法模型，一般认为它的假设比较合理。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)返回9.3.2 时距时距扩大法扩大法n时距扩大法，是测定长期趋势最原始的方法。它将时间序列指标值所属的时间单位，予以扩大，然后对新时间单位内的指标值进行合并，便得到一个扩大了时距的时间序列。其作用是，消除较小时距单位内偶然因素的影响，显示现象变动的基本趋势。n【例9-7】我国1985-2002年松脂产量如表所示。松脂是一种重要的林产品，其产量，受气候和各种自然灾害的影响，而出现明显的丰歉波动。但如果把时间单位扩大为3

417、年，合并计算出时距为3年的松脂产量或者年平均产量，其持续增长的趋势就非常明显。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.2 时距时距扩大法扩大法nCh9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)年份序号t产量Yt合并时距m=33年时距平均198513439471985-19874278971986241682719873522917198844613701988-1990461150.31989548683719906435244199174404311991-1993496847.31992846933119939580780

418、1994105692701994-19965660741995115481331996125808191997137011831997-19996052721998145431561999155714772000165510572000-2002559378200117563689200218563388图图9-5 我国松脂产量及变动趋势图我国松脂产量及变动趋势图1152t101634 5 6 7 89Yt6070504030121113 1417 18产量变动趋势产量变动趋势平均产量变动趋势平均产量变动趋势n应注意的问题：n第一，扩大方法只适用于时期序列，因为只有时期序列才具有可加性。n第二

419、，扩大的时距多大为宜，取决于现象自身的特点。对于周期波动的序列，扩大的时距，应与周期相吻合；对于一般的时间序列，则要逐步扩大时距，以能够显示趋势变动为宜。n第三，扩大的时距要一致，相应的发展水平才具有可比9.3.2 移动平均法移动平均法n移动平均法，是测定长期趋势的基本方法。它是在时间序列中，按一定间隔长度逐期移动计算序时平均数，消除短期不规则变动的影响，从而显示原时间序列的基本趋势。移动平均法有多种形式，常用的是简单移动平均法和加权移动平均法。n简单移动平均法，也叫中心移动平均法。指的是，计算的移动平均数，必须代表移动中项的趋势值。当移动的时期间隔长度数m取奇数m=3,5,7,或者偶数m=4

420、,6,8,时，中心化的处理方法是不同的。所以，移动平均法，有奇数项移动平均和偶数项移动平均。n加权移动平均法，是对各期指标值进行加权计算移动平均数。在中心化移动过程中，移动平均数，代表着移动中项时期的长期趋势值。因此，加权移动平均法，一般计算奇数项加权平均数，各期权数是二项展开式的系数。n设奇数项加权移动平均的项数为m，则取m-1次二项展开式的系数为权，加权计算时间序列中对应指标值的移动平均数。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.2 移动平均法移动平均法n奇数项移动平均法n设时间序列为Yt :Y1,Y2,Y3,Y4,Y5,Yn-1,Yn，n奇数项的

421、中心化移动平均数，经一次移动计算就可得出n(9.3.3)n式中，m为移动平均的时期间隔长度，t为每个移动平均数中项的时期数，Mt(1)是中项为第t期的一次移动平均数。n以m=3为例，有nm=5,7,9,.的情形可类推。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.2 移动平均法移动平均法n偶数项移动平均法n设时间序列为Yt :Y1,Y2,Y3,Y4,Y5,Yn-1,Yn，n偶数项的中心化移动平均数，必须经二次移动计算，才可得出n(9.3.4)n式中，m为移动平均的时期间隔长度，t为每个移动平均数中项的时期数，Mt(2)是中项为第t期的移动平均数，它是二次移动

422、平均的综合结果。n以m=4为例，有nm=6,8,10,.的情形可类推。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.2 移动平均法移动平均法n【例9-8】用移动平均法测定我国1985-2002年松脂产量的长期趋势。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)年份序号t产量Yt移动平均趋势Mt,m=3移动平均趋势Mt,m=419851343947-19862416827427897-19873522917467038454126.519884461370490374.7474289.919895486837461150.34662

423、81.319906435244454170.7456965.619917440431448335.3469703.619928469331496847.3498199.819939580780539793.7528415.8199410569270566061555814.5199511548133566074584800.9199612580819610045596587199713701183608386596240.8199814543156605272595438.5199915571477555230574531.5200016551057562074.3559873.8200117

424、563689559378-200218563388-图图9-6 我国松脂产量及移动平均趋势图我国松脂产量及移动平均趋势图13t5791113 1517Yt506040307019产量变动趋势产量变动趋势3年移动平均产量趋势年移动平均产量趋势4年移动平均产量趋势年移动平均产量趋势n首先，移动平均后的趋势值，应放在各移动项的中间位置。若移动的时期间隔长度m为奇数时，一次移动平均即得趋势值；若m为偶数时，必须将第一次移动平均得到的值，再做一次2项移动平均，才能得到最后的趋势值。n其次，移动平均的目的，在于消除原序列中的短期波动，因此移动的时期间隔长度m，应长短适中。一般来说，如果现象的发展有一定的规

425、律性，应以周期长度作为移动间隔的长度；若时间序列是季节资料，应采用4项移动平均，如为月份资料，应采用12项移动平均。n最后，简单移动平均法，只适宜于线性趋势的测定，如果现象的发展，呈非线性趋势变动，就要考虑用加权移动平均法进行修匀。返回9.3.3 趋势模型法趋势模型法n趋势模型法：也称曲线配合法。它是根据时间序列nt:1,2,3,4,5,.,n-1,nnYt:Y1,Y2,Y3,Y4,Y5,Yn-1,Ynn的数据特征，建立一个合适的趋势方程，来描述时间序列的变动趋势，推算各时期的趋势值。n建立趋势模型的程序：n第一步，选取合适的模型。判断的方法主要有两种：其一是作散点图，以时间t为横轴，以Yt值

426、或者Yt=(Yt)=lnYt为纵轴，绘出散点图，根据散点的分布来选择趋势方程；其二是增长特征法，如果t=Yt-Yt-1大体相同，可选择线性趋势方程nt=a+bt(9.3.7)n如果(t)t=t -t-1=Yt-Yt-2大体相同，可选择二次曲线趋势方程nt=a+bt+ct2(9.3.8)n如果lnYt-lnYt-1=ln(Yt/Yt-1)大体相同，可选择指数曲线方程nt=abt，lnt=lna+(lnb)t(9.3.9)n如果t/t-1=(Yt-Yt-1)/(Yt-1-Yt-2)大体相同，可选择修正指数曲线方程nt=K+abt，ln(t-K)=lna+(lnb)t(9.3.10)Ch9 时间序列

427、分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.3 趋势模型法趋势模型法n如果(lnYt -lnYt-1)/(lnYt-1-lnYt-2)=ln(Yt/Yt-1)/ln(Yt-1/Yt-2)大体相同，可选Compertz曲线方程n,lnt=lnK+(ln a)bt(9.3.11)n如果(1/Yt-1/Yt-1)/(1/Yt-1-1/Yt-2)大体相同，可选择Logisti曲线方程nt=1/(K+abt)，ln(1/t-K)=lna+(lnb)t(9.3.12)n一般是，根据现象的散点图和增长特征两种表现形态，综合选用趋势方程。n第二步，估计模型参数。趋势方程的自变量是时间t，

428、时间起点可以是任意数，只要保证t的取值，是一个自然数序列即可，对于一般的时间序列nt :1,2,3,4,5,.,n-1,nnYt :Y1,Y2,Y3,Y4,Y5,Yn-1,Ynn可以用一定的方法，把方程中的参数a,b,c,K估计出来。参数估计方法，有分段平均法、最小二乘法、三和法，等等。实际中最常用的方法为最小二乘法。n第三步，计算趋势变动值。将t值依次代入趋势方程，求出的t就是相应的趋势变动值。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.3 趋势模型法趋势模型法n线性趋势方程n对于时间序列nt :1,2,3,4,5,.,n-1,nnYt :Y1,Y2,Y

429、3,Y4,Y5,Yn-1,Ynn当Yt的发展按线性趋势变化时，可以用下列线性模型来描述nt=a+btn式中，t为序列Yt的趋势值，t为时间标号，a,b为待估参数，通常按最小二乘法求得。n最小二乘法，是根据回归分析中的最小二乘原理，对时间序列拟合一条趋势线，使之满足：(Yt-t)2=最小值。然后根据所确定的趋势线，计算出各时期的趋势值，观察和描述现象发展的变化趋势，并对未来的趋势做出预测。最小二乘法，既可以拟合趋势直线，也可以用于趋势曲线拟合。n根据最小二乘法，可得趋势线参数a,b的标准求解方程Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)9.3.3 趋势模型法趋势模

430、型法n线性趋势方程（续）n(9.3.13)n解得n(9.3.14)n上述方程中的变量t，可取任何时期为起点。Ch9 时间序列分析时间序列分析9.3 长期趋势分析长期趋势分析(new)返回9.4 季节变动测定季节变动测定n设现象的时间序列，包含k个季节变动周期（k3），每一季节变动周期有P个时点。以Yij表示第个i季节第个j时点的指标值，则时间序列可以写成n1周期:Y11,Y12,Y13,Y1j,Y1P;n2周期:Y21,Y22,Y23,Y2j,Y2P;nni周期:Yi1,Yi2,Yi3,Yij,YiP;nnk周期:Yk1,Yk2,Yk3,Ykj,YkP;n因为序列的周期内部，交织着季节变动和不

431、规则变动；而不同的周期之间，又显示着趋势变动和其它变动。因此，测定季节变动的核心内容，就是首先要消除趋势变动和不规则变动，最后测定季节变动。n测出的季节变动，在乘法模型中，称为季节指数，在加法模型中，称为季节变差。下面以乘法模型为例，介绍同期平均法和趋势剔除法。同期平均法，是针对不同周期中同一时期计算平均数，进而计算季节指数。它有直接平均法与比率平均法两种。Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定9.4 季节变动测定季节变

432、动测定n9.4.1 直接平均法直接平均法n9.4.2 比率平均法比率平均法n9.4.2 移动平均趋势剔除法移动平均趋势剔除法Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定返回9.4.1 直接平均法直接平均法n直接平均法：先求各周期间的同期平均数，再将同期平均数与全时期总平均数对比，求得季节指数。具体步骤为n第一步，求这k个周期之间，同时期j（同月或者同季）的平均数n(9.4.1)n则计算出来的，是趋势变动和季节变动的综合结果。它

433、消除了不同周期之间随机因素的影响，即n(9.4.2)n第二步，求时间序列的总平均数n(9.4.3)n显然，同一周期内部由季节因素Sj引起的差异，将由总平均数消除掉，得出。n第三步，计算季节指数。将同期平均数除以总平均数，得季节指数n(9.4.4)nS1,S2,S3,SP就是所求的季节指数。理论上。n直接平均法，只适用于具有水平趋势的时间序列。Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定9.4.1 直接平均法直接平均法n【例9-14】利用地区1994-1998年旅游产值数据，用直接平均法求季节指数。(p308)Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定季

434、节指数计算表季节指数计算表直接平均法直接平均法季节一季度二季度三季度四季度年份Ji合计季平均199425.217.112.619.374.218.35199524.418.414.118.975.818.95199623.819.413.8217819.519972619.115.721.682.420.6199825.118.615.120.879.619.9合计124.592.671.3101.6390-年平均24.918.5214.2620.32-19.5季节指数sj1.2769230.9497440.7312821.0420514.0009.4.1 直接平均法直接平均法n【例9-14】

435、利用地区1994-1998年旅游产值数据，用直接平均法求季节指数。Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定1994-1998年某地区旅游业产值季节趋势变动统计图年某地区旅游业产值季节趋势变动统计图12341.20.01.41.00.20.40.60.89.4.1 直接平均法直接平均法n【例9-14】Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定季节一季度二季度三季度四季度年份Ji合计季平均197862.588.079.164.0293.7197971.595.388.568.7324.0198074.8106.396.468.5346.0198175.

436、9106.095.769.9347.5198285.2117.6107.378.4388.51983686.5131.1115.490.3423.3合计456.5644.3582.4439.82123.0-年平均76.08107.3897.0773.30-88.46季节指数sj0.86011.21391.09730.82864.0000地区1978-1983年农业生产资料季度变动趋势表季节指数计算表季节指数计算表直接平均法直接平均法9.4.1 直接平均法直接平均法n【例9-14】Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定地区1978-1983年农业生产资料季度变动趋势表返

437、回12341.20.01.41.00.20.40.60.89.4.2 比率平均法比率平均法n比率平均法，是针对直接平均法的局限性而提出的，先计算各周期的季节比率，然后再将各周期的比率加以平均。主要步骤：n第一步，计算各周期的月或季平均数。在同一周期中，先消除该周期内部由季节因素Sj引起的差异，以显示该周期的趋势变动。n其中n(9.4.5)n第二步，计算各周期的季节比率。n(9.4.6)n第三步，用直接平均法计算季节比率的平均数，得季节指数n(9.4.7)Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定9.4.2 比率平均法比率平均法n【例9-15】利用地区1994-1998年旅

438、游产值数据，用比率平均法求季节指数。n解：利用数据，用比率平均法计算的结果如下表。Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定季节指数计算表季节指数计算表比率平均法比率平均法季节一季度二季度三季度四季度年份Ji合计季平均199425.217.112.619.374.218.35季节指数sj1.35850.92180.67921.04041.00199524.418.414.118.975.818.95季节指数sj1.28760.970980.744060.99741.00199623.819.413.8217819.5季节指数sj1.22050.99490.70771.07

439、691.0019972619.115.721.682.420.6季节指数sj1.26210.92720.76211.04851.00199825.118.615.120.879.619.9季节指数sj1.26130.93470.75881.04521.009.4.2 比率平均比率平均法法n解：利用数据，用直接平均法计算的结果如下表。Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定季节指数计算表季节指数计算表比率平均法比率平均法季节一季度二季度三季度四季度年份Ji合计季平均19941.35850.92180.67921.040419951.28760.970980.744060.

440、997419961.22050.99490.70771.076919971.26210.92720.76211.048519981.26130.93470.75881.0452合计6.394.749583.651865.208424.0-年平均1.2780.9499160.7303721.04168-1.00季节指数sj1.2780.9499160.7303721.041684.0009.4.2 比率平均法比率平均法n解：利用数据，用直接平均法计算的结果如下表。Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定返回12341.20.01.41.00.20.40.60.89.4.3

441、移动平均趋势剔除法移动平均趋势剔除法n方法，适用于具有明显上升或者下降的长期趋势的时间序列。该方法的基本思想是，先剔除时间序列中的长期趋势，然后再计算季节指数。其中，序列中的趋势值，可采用移动平均法求得，也可以采用最小二乘法求得。利用前者分析季节变动的方法，称为移动平均趋势剔除法，利用后者分析季节变动的方法，称为模型趋势剔除法。下面结合实例说明，利用移动平均趋势剔除法，测定季节指数的主要步骤：n第一步，计算中心化的移动平均数。取移动平均项数等于周期长度，即m=P=4,12，按公式计算中心化的移动平均数。并将这个移动平均数，作为长期趋势值。n(9.4.7)Ch9 时间序列分析时间序列分析9.4

442、季节变动测定季节变动测定9.4.3 移动平均趋势剔除法移动平均趋势剔除法n第三步，将第二步的计算结果，仿照同期平均法的步骤，计算其季节指数。n最后，将各季的季节指数加总，理论上有。n如果，n就需要进一步校正，用校正系数R乘以各季（月）的平均季节比率，即为所求的季节指数。n，(9.4.9)Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定年度月份空调产量年度月份空调产量年度月份空调产量199616199711119981122528213312325330415442444530560572695698611871217195722485687582249429569906010

443、181023103211911161118128121512129.4.3 移动平均趋势剔除法移动平均趋势剔除法Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定250502001501000年度t月份j空调销售量y中心化移动平M=T季节比率y/M=sI季节比率平均数s季节指数s*199615-.695-712134.958333.4612633.6041313.670731585635.291671.5867771.510521.511854.12841.3750.1933530.2332470.233453199711144.583330.2467200.2287050.22

444、89072848.458330.165090.1931050.193276.69851.708331.8952461.9221581.923857719552.041673.746998s=11.98941s=1287552.291671.434263.1998.57260.583331.188446611850.541671.9490717224.12129.4.3 移动平均趋势剔除法移动平均趋势剔除法Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定商场1996-1998年空调产量季度变动趋势及季节指数计算表1234567891011121996-4.4612631.5867

445、771.1680190.4784050.2550.19335319970.2467290.165090.5016720.829631.1735941.8952463.7469981.4342631.0624510.4339620.29860.27314119980.210680.221120.5034970.7318091.1884461.949071-合计平均S0.2287050.1931050.5025840.7807191.181021.9221583.6041311.510521.1152350.4561840.26180.233247S*0.2289070.1932760.50302

446、80.7814091.1820631.9238573.6073151.5118541.116220.4565370.26200.2334539.4.3 移动平均趋势剔除法移动平均趋势剔除法Ch9 时间序列分析时间序列分析9.4 季节变动测定季节变动测定返回013243124578691211109.5 循环变动测定循环变动测定n9.5.1 循环变动及其分析目的循环变动及其分析目的n9.5.2 直接测定法直接测定法n9.5.3 剩余法剩余法Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4

447、季节变动测定季节变动测定9.5 循环变动测定循环变动测定返回9.5.1 循环变动及其分析目的循环变动及其分析目的n循环变动，是近乎规律性的从高到低的周而复始的变动。循环变动不同于趋势变动，它不是朝着单一方向的持续运动，而是涨落相间的交替波动；它也不同于季节变动，季节变动有比较固定的规律，且变动周期大多为一年，而循环变动无固定的规律，变动周期多为一年以上，而且周期长短不一，比如可有3年的周期，也可有7,8年的周期，成因也比较复杂。n分析循环变动的目的，是探索现象活动的规律性，研究不同现象之间循环波动的内在联系，为预测决策提供依据。n循环变动的研究，是一个现象平均周期的专题分析，如景气循环、商业周

448、期研究等，它必须从统计分析、经济分析两个角度，进行综合研究。但由于循环变动的规律性，不如趋势变动和季节变动明显，时间周期长短和波动大小不一，因此，很难单独加以描述和分析；再加上测定循环变动的方法很多，不同的方法，得出的结论可能会有差异；所以，循环变动的研究，必须根据现象的特点，具体问题具体分析。n通常的方法是，从时间序列Yt中消去趋势变动Tt、季节变动St和不规则变动It，所剩结果即为循环波动Ct。常用的方法，是直接测定法和剩余法。Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定返回9.5.2 直接测定法直接测定法n对于时间序列Yt=TtStCtIt；t=1,2,3,4,5,n

449、-1,n；n直接测定法的具体步骤是：n第一步，直接计算现象Yt的时间m距发展速度，大致消除趋势变动和季节变动的影响，得到循环变动和不规则的相对数nYt/Yt-m=TtCtIt；t=m+1,m+2,m+3,n-1,n；m=1,4,12。(9.5.1)n对于分月或者分季资料，可令m=4,12，m距发展速度为年距发展速度；如果是年度资料，则m=1，直接测定法变为环比测定法。n第二步，将CtIt进行移动平均MA()，以消除不规则变动It，即得Ct，通常用百分比表示。nMA(CtIt)=Ct；t=m+1,m+2,m+3,n-1,n；m=1,4,12；(9.5.2)n第三步，寻找数据Ct的周期p，再仿照求

450、季节指数的方法，在循环周期p内求循环系数。n理论上，有Ct的合计数，应等于循环周期数p或者循环周期数的倍数，其循环变动的平均数。如果，则必须调整。调整后的循环系数n。(9.5.3)Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定9.5.2 直接测定法直接测定法n【例9-17】利用我国1985-1988年鲜蛋销售产值数据，用直接测定法求循环指数。Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定年份序号t鲜蛋YtYt/Yt-4=CtItCt=MA(CtIt ,3)调整的Ct*1985.1113.1-.2213.9-.337.9-.448.6-1986.1510.80

451、.824427-.2611.50.8273380.9598710.741335.379.71.2278481.1114190.858379.48111.279071.2862570.9934111987.1914.61.3518521.384221.069071.21017.51.5217391.5076921.164432.311161.6494851.608591.242358.41218.21.6545451.5214351.1750461988.11318.41.2602741.3525591.044618.214201.1428571.1531270.890592.31516.91.

452、056251.0627060.820757.416180.989011-合计14.784712.9478710平均1.2320581.29478719.5.2 直接测定法直接测定法n【例9-17】利用我国1985-1988年鲜蛋销售产值数据，用直接测定法求循环指数。Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定图图9-13 鲜蛋销售趋势及其循环变动图鲜蛋销售趋势及其循环变动图t1357911131517Ct1.5210.50C*C*I返回9.5.3 剩余法剩余法n对于时间序列Yt=TtStCtIt；t =1,2,3,4,5,n-1,n；n运用分解分析原理，从时间序列Yt中，剔

453、除长期趋势Tt和季节变动St，再对此消除不规则变动It。具体步骤为n第一步，求季节指数St，再从Yt中剔除季节变动St，求得无季节性资料TtCtIt。nYt/St = TtCtIt；t=1,2,3,4,5,n-1,n；n第二步，求出趋势变动Tt，再从TtCtIt中剔除趋势变动Tt，求得循环和不规则变动的相对数CtIt。nTtCtIt /Tt =CtIt；t=1,2,3,4,5,n-1,n；n第三步，将循环和不规则变动的相对数CtIt，进行移动平均MA()，以消除不规则变动It，即得循环波动值Ct，通常用百分比表示。nMA(CtIt)=Ct；t=1,2,3,4,5,n-1,n；n第四步，寻找Ct

454、数据的周期p，再仿照求季节指数的方法，在循环周期p内求循环指数。Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定年份t季节j上市量yY/y-4=CI移动平均数M=TCy/M=SI季节指数S*Y/S*=TCITCI的趋势值Y/(SI)=CI1993175.17-1.35131755.6272171.167780.781635248-0.82134958.4404773.28620.797428346.8673.731250.6355510.7443762.9525475.404610.83486348589.45250.9502251.08296478.488377.523031

455、.01245119941154.962.06146198.703751.569951.351317114.673379.641441.43987293.981.957917103.71750.9061150.821349114.421681.759851.399484374.891.59816595.933750.7806430.74437100.608583.878271.199459497.081.14211881.32251.1937661.08296489.6428785.996681.0423991995180.610.52019974.181251.0866631.35131759

456、.6529188.11510.676989251.440.54735171.94750.7149660.82134962.6287190.233510.6940741996.1997.373.520.814175104.83130.7013180.7443798.76806109.29920.9036484142.61.375253123.16131.1578321.082964131.6757111.41771.18182119981190.582.214759129.88131.467341.351317141.0328113.53611.24218521071.648944127.298

457、80.8405420.821349130.2736115.65451.126403385.171.15846-0.74437114.4189117.77290.9715214110.290.773422-1.082964101.8409119.89130.8494439.5.3 剩余法剩余法Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定Tt=69.0493+2.118418t；t=1,2,3,4,5,n-1,n；9.5.3 剩余法剩余法Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定上市量y时间Tt=69.0493+2.118418t；t=1,2,3,4,5,

458、n-1,n；C1IJi12345678平均1993-19941-2.0614611.9579171.5981651.1421181995-199620.5201990.5473510.8051810.9662132.1432821.9535381.4975121.1054371997-199830.4980610.6457360.8141751.3752532.2147591.6489441.158460.773422合计平均0.509130.5965430.8096781.1707332.1398341.8534661.4180461.0069921.188053循环指数C*0.428544

459、0.5021180.6815170.9854221.8011271.5600871.1935880.847599C2IJi12345678平均1993-199410.7816530.7974280.8348631.0124511.439871.3994841.1994591.0423991995-199620.6769890.6940740.8771670.916841.3236841.23951.2031730.9300831997-199830.6061030.7371110.9036481.1818211.2421851.1264030.9715210.849443合计平均0.68824

460、20.7428710.8718931.0370371.3352461.2551291.1247180.9406420.999472循环指数C*0.6886050.7432630.8723531.0375851.3359511.2557921.1253120.941139地区1993-1998年农产品业上市量资料循环变动趋势表1-直接法地区1993-1998年农产品业上市量资料循环变动趋势表2剩余法9.5.3 剩余法剩余法Ch9 时间序列分析时间序列分析9.5 循环变动测定循环变动测定返回Ch9 内容小结内容小结9.1 时间序列的概念时间序列的概念9.2 时间序列的对比分析时间序列的对比分析9.

461、3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定Ch9 Ch9 时间序列分析时间序列分析时间序列分析时间序列分析Ch10统计预测与统计预警介绍统计预测的基本方法，以及统计预警的基本原理。下一章下一章Ch9 时间序列分析时间序列分析9.1 时间序列概述时间序列概述9.2 时间序列的对比分析时间序列的对比分析9.3 长期趋势分析长期趋势分析(new)9.4 季节变动测定季节变动测定9.5 循环变动测定循环变动测定思考与练习思考与练习9.1，什么是时间数列？简述时间数列的构成要素？，什么是时间数列？简述时间数列的构成要素？9.2，编制时间数列有何

462、作用？，编制时间数列有何作用？9.3，时间数列分为哪几种？时期数列和时点数列各有什么特点？，时间数列分为哪几种？时期数列和时点数列各有什么特点？9.4，什什么么叫叫发发展展水水平平、平平均均发发展展水水平平、增增长长水水平平、平平均均增增长长水水平平？9.5，什什么么叫叫发发展展速速度度、平平均均发发展展速速度度、增增长长速速度度、平平均均增增长长速速度度？9.6，什什么么是是长长期期趋趋势势、循循环环变变动动、季季节节变变动动、不不规规则则变变动动？它它们们各有何特点？各有何特点？ Ch9 Ch9 时间序列分析时间序列分析时间序列分析时间序列分析Ch10统计预测与预警统计学原理统计学原理n1

463、0.1统计预测的基本问题n10.2趋势预测(new)n10.3季节变动预测(new)n10.4时间数列预警分析(new)主要介绍：统计预测的基本方法，统计预警的基本原理与方法。Ch10主要内容Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(new)Ch10 学习目的学习目的1，掌握统计预测的基本原理与方法2，掌握统计预警的基本原理与方法Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测

464、趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(new)Ch10统计预测与预警统计学原理统计学原理n10.1统计预测的基本问题n10.2趋势预测(new)n10.3季节变动预测(new)n10.4时间数列预警分析(new)10.1 统计预测的统计预测的基本问题基本问题Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(new)n10.1.1统计预测的概念和分类n10.1.2统计预测的

465、基本假设n10.1.3统计预测的步骤n10.1.4预测结果评价与误差分析返回10.1.1 统计预测的概念和分类统计预测的概念和分类Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题n统计预测，就是以统计资料为基础，运用统计方法，建立数学关系模型，对现象的未来发展状况，做出测算和推断。n定性预测法。是以逻辑判断为主，根据个人的经验、阅历、学识和智慧，通过类比、分析和综合的方法，就现象在未来的表现或发展方向，做出直观判断。预测所用的方法比较简单，定量结果较为粗糙。具体方法有，领先指标法、主观概率法、专家意见法、群众评估法等。n定量预测法。在定性的基础上，通过充分描

466、述现象之间的统计依存关系，利用统计资料，建立变量关系模型，从一个变量的数值变化，预测另一个变量的数值变化。具体方法有，因果分析法、趋势预测法、回归预测法、时间序列预测法。定量预测的特点是，方法比较复杂，但预测的精度较高。返回10.1.2 统计预测的基本假设统计预测的基本假设Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题n连续性假设。假设包括两方面内容。其一是指现象的历史传递具有规律性；其二是指预测对象与其影响因素的结构关系，具有相对稳定性。所以，可以对现象的发展过程进行模拟，利用历史资料推断未来。n类推假设。所谓类推，是指预测对象与其他已知事物之间，存在某

467、种程度的相似性，如结构和发展模式相类似，因此可以类比。n相关性假设。现象之间的相关，大多与因果关系有联系，任何事物的变化都有其原因，有一个原因，就必然有一个结果。利用现象之间的相关性，可以建立预测对象与其影响因素之间的数量变动关系，根据已知的影响因素，推断预测对象的未来数值。n动态性假设。规律是客观的，规律的存在是有一定条件的。如果客观条件发生了变化，则原来起作用的规律也就随之改变。因此，必须处理好规律与客观条件的关系。具体地说，就是要注意掌握模型外推预测的适用范围。返回10.1.3 统计预测的步骤统计预测的步骤Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问

468、题n确定预测对象，搜集资料。资料是统计预测的基础。数据资料要求完整、准确，具有可比性。n建立预测模型。资料审核、调整后，要分析其结构形式和变化趋势，提出能够描述其变动特性的预测模型，并估计出模型参数。n检验预测模型。模型估计后，一般要经过检验才能用于预测。精确的统计预测方法，如回归预测模型、随机时间序列模型，都规定了“统计上是否可靠”的检验程序，必须严格执行。n分析预测误差，改进预测模型。对误差产生的原因，要客观分析，改进模型的缺陷，努力提高预测的精度。返回10.1.4 预测结果评价与误差分析预测结果评价与误差分析Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本

469、问题n确定预测精度指标n预测误差。设预测指标的实际值为Y，预测值为，令n=Y-(10.1.1)n则称为预测误差。显然，越小越好。n预测的相对误差。预测误差在实际值中所占比例称相对误差，记为：n =/Y (10.1.2)n该指标克服了预测指标本身量纲的影响，可用于不同预测问题精度的比较。n均方根误差。n个预测误差t2=(Ytt)2;t=1,2,3,n-1,n的平均数称为均方误差（MSE），其算术根就是均方根误差，记为RMSE。即：n(10.1.3)n平均绝对百分误差。n个预测相对误差t;t=1,2,3,n-1,n绝对值的平均数称为平均绝对百分误差，以MAPE表示：n(10.1.4)10.1.4

470、预测结果评价与误差分析预测结果评价与误差分析Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题n误差指标的计算n在预测过程中，用样本期的实际值Y1，Y2，Yn建立预测模型，由此模型估计的数值1，2，n，再现了样本期的状况，称历史模拟。n利用预测模型，对样本期外实际已发生的若干时期情况所作的预测，为事后预测；对尚未发生的未来时期情况所进行的预测，叫事前预测。n不论是事前预测还是事后预测，均可以计算它们的预测误差。事后预测所发生的误差，是已发生的误差，也叫外推误差；事前预测所发生的误差，是尚未发生的误差，是一个未知数，它可以用模拟误差来估计，也可以用外推误差来估计

471、n预测误差，是检验模型预测能力的一个重要指标。为了综合评价模型的预测能力，往往把已掌握的历史数据，分成两个部分，大部分数据作为样本用来建立预测模型，小部分数据用来做外推检验。上述检验的图示如下：事前预测历史模拟样本期间事后预测样本期外内插检验外推检验t0t1t2t3图图101 时间序列预测检验图示时间序列预测检验图示返回10.2 趋势预测趋势预测Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(new)n10.2.1平稳型趋势预测n10.

472、2.2线性趋势预测n10.2.3二次曲线趋势预测n10.2.4成长曲线预测模型返回10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n如果序列Yt : Y1,Y2,Yn的各期数据，围绕某一水平线上下波动，其统计特性不随时间t的推移而变化，则表明预测对象的变动是平稳的，其数列就是一个平稳趋势数列。n严格平稳的趋势数列，其趋势预测值可以写成n t+1=b0，n其中b0为一个与时间t无关的常数。n为了求得未来预测值t+1=b0，可以通过计算数列的序时平均数，消除随机变动影响，显示出现象的趋势水平b0。通常有以下处理方法：n固定平均法。

473、严格平稳的趋势数列n移动平均法。存在潜在趋势的数列n一次指数平滑法。严格平稳的趋势数列10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n固定平均法：以全部样本数据Y1,Y2,Yn: t=n 的平均数n(10.2.1)n作为未来值t+1的一个估计n(10.2.2)n若Yt+1已经观察到，则nt+1=Yt+1t+1(10.2.3)n是预测误差。上述预测公式，各期的观察值赋予相同的权数1/n。如果对各期的观察值采用不等权组合n(10.2.4)n可期望得到比(10.2.2)式更好的预测结果，此时n(10.2.5)n这里12n，n是近期

474、的权，1是远期的权，目的是保证各期观察值对预测值的影响由近及远逐渐减少。10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n移动平均法：方法适用于存在潜在趋势的平稳趋势预测。n就是随时间的推移，不断舍弃老的数据，而加入新的数据求平均值，以此作为对未来值的估计。这一方法与固定平均法的区别是，它是从变参数的角度，来处理平稳趋势数列的预测问题。n它的预测模型是n t+1=bt，n其中bt是一个与t有关的局部常数均值，它可以按一定的规则，顺序地从序列Yt:t=1,2,3,.,n总体中抽取m个样本数据，计算顺序平均数来求得。n简单移动平均

475、法n加权移动平均法10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n简单移动平均法：n从序列Yt:t=1,2,3,.,n总体中抽取第t期的前m个样本数据Yt,Yt-1,Yt-2,Yt-m+1;mn，并以Mt(1)表示第t期的m项一次移动平均数n(10.2.6)n用作t+1期的预测值，即n t+1= Mt(1)=bt(10.2.7)n同样，也可以从序列Yt:t=1,2,3,.,n总体中，抽取第t+1期的前m个数据Yt+1,Yt,Yt-1,Yt-m+2;m12m-2m-1，对(10.2.6)式进行加权计算平均数：n(10.2.10

476、)n作t+1期的预测，有n t+1= Mt(1)=bt(10.2.11)n同样，也可以取相同权0,1,2,m-2,m-1，且012m-2m-1，对(10.2.8)式加权n(10.2.12)n并作t+2期的预测，则n t+2= Mt+1(1)=bt+1(10.2.13)n如此反复，也求得t+1= bt，t+2=bt+1，t+3=bt+2，t+4=bt+3，等等。10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n一次指数平滑法：n是对移动平均法的改进。将(10.2.6)式变形写成如下形式：n(10.2.14)n显然，(10.2.1

477、4)式有递推功能，可递推求出一次移动平均数序列。由于Mt-1(1)作为Yt-1，Yt-2，Yt-m的平均数，对这个序列具有代表性，故Yt-m可作为Mt-1(1)的估计值，则n(10.2.15)n令1/m=，St(1)=Mt(1)，得到nSt(1)=Yt +(1-)St-1(1),(10.2.16)n称为一次平滑公式。St(1)称为第t期的一次平滑值，为平滑系数。平滑公式(10.2.16)做向前一期预测，于是n t+1=St(1)=bt，t= St-1(1)=bt-1(10.2.17)n有t+1=t+(Yt - t)=t +t ,(10.2.18)n平滑预测含有误差校正机制。当本期预测误差Yt-

478、t =t0时，就在下一期把预测值增大一些；因此，其实是预测误差纠正系数。10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n利用平滑公式(10.2.16)做向前一期预测，需要确定和平滑初始值S0(1)。和S0(1)的确定，是重要的技术问题。n首先，由于是纠错系数，不同的值，其预测能力和纠错能力，也就有所不同。通常，主要是依据时间序列波动的状况来考虑的取值。当时间序列的波动较大时，=0.40.9；反之，当波动较小时，=0.10.3。如果不容易判断，可取几个不同的值进行试算，然后选用误差较小的。n其次是S0(1)的确定，这与样本序列

479、的项数m有关。m30，经过多次平滑运算，初始值的影响越来越小，可取S0(1)=Y0（或Y1）；m30，平滑运算的次数有限，初始值的影响仍很大，宜取S0(1)=(Y1+Y2)/2或S0(1)=(Y1+Y2+Y3)/3。n在实际应用中，指数平滑法一般不直接用作预测(因为有比其简单而更有效的方法可供选用)，而是用来平滑数列中的季节成分或随机成分，为其它预测方法做技术准备。比如，为了能更好的平滑数据，常常采用二次乃至更高次的滑动平均。例如，若nSt(1)=1Yt+(1-1) St-1(1)；1=1/n1(10.2.21)n则nSt(2)=2 St(1)+(1-2) St-1(2)；2=1/n2(10.

480、2.22)nSt(3)=3 St(2)+(1-3) St-1(3)；3=1/n3(10.2.23)n(10.2.22)式就是二次指数平滑公式。(10.2.23)式则是三次指数平滑公式。在此基础上，可形成隐藏着其它趋势的序列预测公式。10.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n【例101】我国19852002年的粮食播种面积如表111。试用移动平均法和指数平滑法预测2003年的播种面积。n根据Yt样本期的分布状况，1985年以来我国粮食播种面积没有明显的上升、下降趋势变动，所以可选用平稳趋势型的预测方法。年份tYtMt(1

481、)，n=3/Y,(%)Mt(1),n=3/Y,(%)St(1),=0.85/Y,(%)198511084519861109331987111268111015.31988110123111015.3-0.0081111085.8-0.00874111230.1-0.01005331989112205110774.70.012748110639.70.013951110289.10.01707531990113466111198.70.019982111354.80.018606111917.60.01364631991112314111931.30.003407112488.5-0.00155

482、113233.7-0.0081891992110560112661.7-0.01901112679.8-0.01917112452-0.01711251993110509112113.3-0.01452111629-0.01013110843.8-0.00302961994109544111127.7-0.01446110826.8-0.01171110559.2-0.00926771995110060110204.3-0.001311100350.000227109696.30.00330471996112548110037.70.022305109962.80.022969110005.4

483、0.02259091997112912110717.30.0194371112180.015003112166.60.006601519981137871118400.017111112315.30.012934112800.20.00867241999113161113082.30.000695113288.8-0.00113113639-0.00422392000108463113286.7-0.04447113328.2-0.04486113232.7-0.04397532001106080111803.7-0.05396110916.3-0.04559109178.5-0.029208

484、72002103891109234.7-0.05144108054.5-0.04008106544.8-0.02554382003106144.7105382.7104289.1MAPE0.0201960.0177770.01483310.2.1 平稳型趋势预测平稳型趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n【例101】我国19852002年的粮食播种面积如表101。试用移动平均法和指数平滑法预测2003年的播种面积。n根据Yt样本期的分布状况，1985年以来我国粮食播种面积没有明显的上升、下降趋势变动，所以可选用平稳趋势型的预测方法。n（1）简单移动

485、平均法。取n=3，M87(1)=(110845+110933+111268)/3=111015.3，故88=M87(1)=111015.3；同理，2003=(108463+106080+103891)/3=106144.7。n（ 2）加权移动平均法。取 2=1， 1=2， 0=3，可计算M87(1)=（1110845+2110933+3111268）/6=111085.8，它代表1988年的模拟值；同理，可计算出2003年预测值2003=（1108463+2106080+3103891）/6=105382.7。n（3）指数平滑法。取平滑系数=0.85，平滑初始值S87(

486、1)=(Y85+Y86+Y87)/3=111015.3，从1987年起开始计算平滑值，即S87(1)=0.85111268+0.15111015.3=111230.1作为1988年的模拟值；同理，2003=S2003(1)=0.85103891+0.15106544.8=104289.1。n（4）从19852002各年的相对误差来看，上述三种预测方法都达到了较好的预测效果，三项简单移动平均、加权移动平均和指数平滑法的MAPE，分别为2.02%、1.78%和1.48%，差别不大。返回10.2.2 线性趋势预测线性趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n

487、加权最小二乘法。n二次指数平滑法。10.2.2 线性趋势预测线性趋势预测Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n加权最小二乘法（简称WLS）n是OLS法的一种改进形式。它在构造参数评价函数时，采取远小近大，逐期递减原则，对各期离差平方逐次加权。最常用的方法是，对每个离差平方赋予一个指数权数n-t，01，Yt随t的增加而增加；若b0，b1，Yt的趋势值t随t的减少而趋于极限值0。 n为确定指数曲线模型中的a,b，可采取“线性化”方法，将其化为对数直线形式，即两端取对数，有nln t =lna+(lnb)tn然后根据最小二乘法，得到求解lna ,lnb的标准方程

488、n(9.3.21)n求出lna,lnb后，再取其反对数，即得a,b。10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n修正指数曲线趋势方程n对于时间序列nt:1,2,3,4,5,.,n-1,nnYt:Y1,Y2,Y3,Y4,Y5,Yn-1,Ynn如果Yt的发展按指数规律变化，或者Yt的逐期观察值，按一定的百分比增长或衰减，但存在一个增长极限K，则可以用修正指数曲线模型来描述nt=K+abt ，n求K ,a,b的方法，是先用“差分化”将修正指数曲线模型化为指数曲线模型n()t=a(1-1/b)bt，n即用()t去拟合时间序列(Y)

489、t，用最小二乘法求出a,b后由(Yt-t)=0求出Kn(9.3.22)n求K,a,b更一般的方法是三和法。其基本思想是，将时间序列观察值，等分为三个部分，每部分有m个时期，根据趋势值t的三个局部总和，分别等于原序列Yt的三个局部总和，来确定K,a,b。10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n设观察值的三个局部总和，分别为S1,S2,S3，即n (9.3.23)n根据三和法的要求，有n(9.3.24)n解得n(9.3.25)10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋

490、势预测(new)n【例9-12】利用我国1978-2001年小麦单产数据，用修正指数曲线法拟合小麦单产的长期趋势。nn解：将1978-2001年数据等分为3部分，于是m=8，根据三和法公式解得年份序号t小麦单产Yt修正指数曲线t年份序号t小麦单产Yt修正指数曲线t年份序号t小麦单产Yt修正指数曲线t1978118452013.5187311986930452847.6535619941734263508.4702121979221452128.74257419871029852938.91360219951835423580.768121980318902240.604275198811297

491、03027.55493619961937343650.9914391981421152349.28359519891230453113.65270719972041023719.1997011982524452454.84436219901331953197.27990219982136853785.4507261983628052557.37606319911431053278.50741619992239473849.8006791984729702656.96561719921533313357.40410520002337383912.3041091985829402753.69744

492、919931635193434.03685520012438063973.014004合计S1=1915519155.03267S2=2519525195.00308S3=2998029979.9989910.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n则小麦单产修正指数曲线方程为nt=60284133.08(0.971305)tnt=1,2,3,n-1,nn将t=1,2,3,23,24依次代入趋势方程，结果列入计算表的第4栏中。图图9-10 我国小麦单产变动及修正指数曲线趋势图我国小麦单产变动及修正指数曲线趋势图13t5791

493、113 1517Yt40503020101921 23 25单产变动趋势单产变动趋势修正指数曲线趋势修正指数曲线趋势10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)nCompertz曲线趋势方程n对于时间序列nt:1,2,3,4,5,.,n-1,nnYt:Y1,Y2,Y3,Y4,Y5,Yn-1,Ynn如果Yt的发展按增长曲线规律变化，且初期增长缓慢，以后逐渐加快，达到一定程度后，增长率又逐渐下降，最后接近一条水平线。并且增长曲线的两端，都有一条水平渐近线，其上渐近线为Y=K，下渐近线为Y=0。则Yt可以用Compertz曲线模型

494、来描述n,n式中，a,b, K为待估参数，0a1,0b0。n为确定a,b, K，可先“对数化”得一个修正指数曲线模型nlnt=lnK+(lna)btn然后按修正指数曲线模型求参数的方法，确定Compertz曲线模型中的a,b, K。10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)n如果是用三和法求a,b,K，则n (9.3.26)n并且有n10.2.4 成长曲线预测成长曲线预测 Ch10 统计预测与预警统计预测与预警10.2 趋势预测趋势预测(new)nLogisti曲线趋势方程nLogisti曲线的特点，与Compertz曲线

495、特点相似。但方程却为修正指数曲线的倒数nt=1/(K+abt)，n确定a,b, K的方法是，“倒数化”得一个修正指数曲线模型n1/t=(K+abt)，n然后按修正指数曲线模型求参数的方法，用1/Yt去拟合1/t，求出a,b, K。返回10.3 季节变动预季节变动预测测Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(new)n10.3.1分解分析预测法n10.3.2合成分析预测法n10.3.3季节模型的指数平滑法返回10.3.1 分解分析

496、预测法分解分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n分解分析预测，就是从时间序列Yt中，把趋势变动Tt、季节变动S*t、循环变动Ct、随机变动It分离出来，并在此基础上向前延伸推断。以乘法模型为例，n因为Yt =TtS*tCtIt；t =1,2,3,n-1,n；(10.3.1)n所以，预测的理论公式应为nt =E(Yt)=Tt S*tCt；t =1,2,3,n-1,n；(10.3.2)n但在实际应用中，Ct难以确定，而且，在做短期预测时，Ct不是主要因素，通常把它归入随机变化t= CtIt之中，即nYt =TtS*t t；t =1,2,3,n

497、-1, n； (10.3.3)n于是，在E(t)=1，E(t2)=2条件下，有预测公式为nt = E(Yt)=Tt S*t (10.3.4)n注意到在预测公式(10.3.4)中，只有Tt是时间t的函数，而S*t却是周期函数，即如果周期长度P=4,12，则有nS*t =.=S*t-3P=S*t-2P =S*t-P=S*t =S*t+P =S*t+2P=S*t+3P =。(10.3.5)n于是，只要求出现在时期t的趋势值Tt，以及相应的季节变动值S*t，并适当外推，便可得出未来时期t+K的预测值nt+K =Tt+K S*t+K ；t =1,2,3,n-1, n；K=1,2,.,P； (10.3.6

498、)n显然，如果是加法模型，则t+K的预测值为nt+K =Tt+K+S*t+K ；t =1,2,3,n-1, n；K=1,2,.,P； (10.3.7)10.3.1 分解分析预测法分解分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n如果Yt呈水平趋势变动。此时，序列Yt的主要因素是季节变动，因此，可直接用同期平均法求出季节指数S*t-P；然后利用周期函数特性S*t =S*t-P=S*t+P，得出nS*t+K =S*t+K-P；t =1,2,3,.,n-1, n；K=1,2,.,P；KP； (10.3.8)n又由于Yt的季节周期平均数，可代表长期趋势值

499、，且这个周期平均数数列，大体是稳定的n(10.3.9)n其中，是样本期最后一个周期的平均数，其余类推。所以，进行外推预测时，可令n。(10.3.10)n于是，未来时期t+K的预测值n(10.3.11)n但若已知t期向前推k期(k P)的几个实际值的最新信息，则预测期的趋势值Tt+k应为n(10.3.12)n则从t+k期起，再向前推K期的预测值t+k+K为nt+k+K =Tt+k+K S*t+k+K=Tt+k S*t+k+K-P ；K=1,2,.,P；K P； (10.3.13)10.3.1 分解分析预测法分解分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(n

500、ew)n【例104】利用【例9-14】的结果，预测该地区1999年各季度旅游产值。n解：以1998年第4季度为预测起点t，则有nS*t-3=1.276923=S*t+1；S*t-2 =0.949744=S*t+2nS*t-1=0.73128=S*t+3；S*t =1.042051=S*t+4n样本期最后一个周期的平均数=Tt=19.9，于是1999年各季度旅游产值nt+1=Tt+1S*t+1=Tt S*t-3 =19.91.276923=25.4108nt+2 =Tt+2S*t+2=Tt S*t-2 =19.90.949744=18.9nt+3=Tt+3S*t+3=Tt S*t-1 =19.9

501、0.73128=14.5525nt+4=Tt+4S*t+4=Tt S*t=19.91.042051=20.736810.3.1 分解分析预测法分解分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n如果Yt存在趋势变动，则应该采用趋势剔除移动平均法来解决预测问题。预测应首先计算S*t。在第十章中求*t时，我们用趋势剔除移动平均法，计算了中心化移动平均值Mt(2)，并用Mt(2)代表趋势变动测定值Tt。但进行外推预测时，直接用Mt(2)作为预测期的趋势序列，却不可行，因为这样对Mt(2)再计算移动平均数，会产生误差的累积。较好的方法是，在求出季节变动测定

502、值S*t后，将它从时间序列中剔除；其结果将显示趋势变动和随机变动，然后对这一列数据建立趋势方程，以消除随机变动，便可以测算各期的趋势值Tt。趋势方程最常用的形式是：nTt=b0+b1t ；t =1,2,3,., n； (10.3.14)n则相应的内插预测公式为：nt=(b0+b1t)S*t；t =1,2,3,., n； (10.3.15)n式中：t为时间序号；b0、b1为参数估计值；Tt和t分别代表t期的趋势值和预测值；S*t为预测期的季节指数。如果认为(10.3.15)式是可以外推的，则从t期起外推K期的预测值nt+K=Tt+K S*t+K =(b0+b1(t+K)S*t+K-P ；t =1

503、,2,3,., n；K=1,2,.,P； (10.3.16)n其中，S*t和S*t+K-P由(10.3.5)式或者(10.3.8)式求出。10.3.1 分解分析预测法分解分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n【例105】利用【例9-18】的结果，预测我国1984年各季度生产资料零售值。n解：以1983年第4季度为预测起点t，有nS*t-3=0.88392=S*t+1；S*t-2 =1.223341=S*t+2nS*t-1=1.090116=S*t+3；S*t =0.802623=S*t+4n同时，其长期线性趋势方程为nTt=69.8738

504、3+1.494151t；t=1,2,23,24n因为1983年第4季度是预测起点t，t=24，所以，其外推K期的长期线性趋势预测方程为nTt+K=69.87383+1.494151(t+K)；t=24；K=1,2,3,4； n从t期起作K期外推预测，则nt+K =Tt+K S*t+K=(69.87383+1.494151(t+K)S*t+K-P ；K=1,2,.,P；P=4；KP；n于是，1984年各季度生产资料零售值为nt+1=(69.87383+1.494151(24+1)S*t-3=94.78063= 25 ；nt+2=(69.87383+1.494151(24+2)S*t-2=133.

505、0038= 26 ；nt+3 =(69.87383+1.494151(24+3)S*t-1=120.1481= 27 ；nt+4 =(69.87383+1.494151(24+4)S*t=89.66107= 28 ；返回10.3.2 合成合成分析预测法分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n对于季节周期序列n周期1:Y11,Y12,Y13,Y1j,Y1P;n周期2:Y21,Y22,Y23,Y2j,Y2P;nn周期i:Yi1,Yi2,Yi3,Yij,YiP;nn周期k :Yk1,Yk2,Yk3,Ykj,YkP;n当给定一个季节j值时，nY1j

506、,Y2j,Y3j,Yij,Ykj=Y1(j),Y2(j),Y3(j),Yi(j),Yk(j)n可写成一个独立的序列；这个序列，是一个周期不同但季节相同的同季序列，它将显示j季节的长期发展趋势。由于j=1,2,3,.,P，因此，整个季节周期序列就是P个独立的序列。它们将显示P个季节的独立发展趋势。我们可以对P个同季节序列，建立各自独立的季节预测模型，并以周期k为起点，外推r期求模型的预测值k+r,(j)，则各个模型的预测值k+r,(j);j=1,2,.,P，便是k+r周期的季节分量值。将各个季节分量值合成，便得k+r周期的预测值。合成分析预测法因此得名。n对同季序列建立趋势模型时，前述的模型趋势

507、法都可运用。但具有变参数性质的指数平滑法更为常用。应当注意的是，只有当同季序列都具有明显的趋势变动规律时，合成分析法才具有优势，实际中要注意其适用性。10.3.2 合成合成分析预测法分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n【例106】利用1978-1983年数据，用合成分析预测法，预测我国1984年各季度生产资料零售值。n解：将我国1978-1983年各季度生产资料零售值表示成n分别处理季度序列数据如图，可见Y1(j),Y2(j),Y3(j),Yi(j)；i=1,2,.,6；j=1,2,3,4大部分可近似表示为线性趋势；于是，可用二次指数平

508、滑法计算各个季度序列。i=1,2,.,t季度Y(1)季度Y(2)季度Y(3)季度Y(4)1978年，周期162.68879.1641979年，周期271.595.388.568.71980年，周期374.8106.396.468.51981年，周期475.910695.769.91982年，周期585.2117.6107.378.41983年，周期686.5131.1115.490.310.3.2 合成合成分析预测法分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n取=0.85；初始值为S0(2)(j)= S0(1)(j)=(Y1(j)+Y2(j)/

509、2，计算的各个季度序列的平滑值，以1983年为预测的起点，其季节序列的长期趋势预测方程为nt+K(P)=at(P) +bt(P)K ；t =6；P=1,2,3,4；K=1,2,.,n；tY(1)Y(2)Y(3)Y(4)tY(1)St(1)(1)St(2)(1)Y(2)St(1)(1)St(2)(1)Y(3)St(1)(1)St(2)(1)Y(4)St(1)(1)St(2)(1)067.0567.0591.6591.6583.883.866.3566.35162.663.267563.834888888.547589.0128879.179.80580.404256464.352564.6521

510、3271.570.2651369.3005995.394.2871393.4959988.587.1957586.1770368.768.0478867.53851374.874.1197773.39689106.3104.4981102.847896.495.0193693.6930168.568.4321868.29813475.975.6329775.29755106105.7747105.335795.795.597995.3121769.969.6798369.47257585.283.7649482.49484117.6115.8262114.2526107.3105.544710

511、4.009878.477.0919775.94906686.586.0897485.55051131.1128.8089126.6255115.4113.9217112.434990.388.318886.46334789.68465143.3652123.8336100.6885283at86.62898t+K(1)=at (1)+bt(1)K130.9924t+K(2)=at (2)+bt(2)K115.4085t+K(3)=at(3) +bt(3)K90.17425595t+K(4)=at (4)+bt(4)Kbt3.0556712.372868.4251110.5142724二次指数平

512、滑计算表二次指数平滑计算表10.3.2 合成合成分析预测法分析预测法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n利用(10.2.28)式求出at 和bt，则1984年(K=1)各季度生产资料零售值为nt+1(1)=86.62898+3.055671=89.68456= 6(1) ；nt+1(2)=130.9924+12.372861=143.3652= 6(2)；nt+1(3) =115.4085+8.425111=123.8336= 6(3) ；nt+1 (4)=90.17425595+10.51427241 =100.6885283= 6(4) ；图

513、图102 我国生产资料的年季度序列我国生产资料的年季度序列1234567t2季度4060801001201403季度4季度1季度销售额Y年度0返回10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n这一方法的特点是，它不仅将Tt处理为时间t的函数，而且将季节指数S*t也看作时间t的函数，为可变季节指数。它是把时间序列的因素分解和指数平滑法结合起来，采用指数平滑法计算Tt和S*t，然后按照(10.3.4)或(10.3.7)式的模式求预测值。对于乘法和加法两种不同的模式，其组成分量的指数平滑公式是不同的。这里仅介

514、绍乘法模型nt = Tt S*t ；t=n；(10.3.17)n温特斯（P.R.Winters）指数平滑法n温特斯线性&季节指数平滑法n带衰减因子的温特斯线性&季节指数平滑法n平滑系数的确定10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n温特斯（P.R.Winters）指数平滑法n这种方法只适用于呈现水平趋势变动的季节序列。于是，可令Tt=at，则Tt=at和S*t的平滑估计公式为：n(10.3.18)n从t期起向前推K期的预测方程是：nt+K =atSt+K-P ； K=1,2,3,.,P；KP； (1

515、0.3.19)n上面各式中，P为季节周期的长度，,为平滑系数，0(,)1；at-1是上期趋势的平滑值，Yt/S*t=Yt/S*t-P则是对现期趋势值的估计；显然，at的估计是通过指数平滑来反映现期趋势的最新变化，并消除现期趋势估计中随机因素的影响来达到的。n同理，S*t的估计也是通过Yt/at与上一周期同期季节指数S*t-P进行平滑计算，来达到这一目的。计算出平滑参数at和S*t后，可根据(10.3.19)进行预测；温特斯指数平滑法只有一个周期(=P)的预测能力。10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(ne

516、w)n温特斯线性&季节指数平滑法n这一方法适用于具有线性趋势的季节变动时间序列。可令，内插趋势Tt=at+ btt ，于是，at、bt和S*t的平滑估计公式为n(10.3.20)n从t期起向前推K期的变参数预测方程是：nt+K =(at+btK)S*t+K-P ；t =n；K=1,2,.,P；KP； (10.3.21)n上面各方程中，P为季节周期的长度，,为平滑系数，0(,)1；bt是t期的趋势增量；at为t期的趋势平滑值，但平滑计算中上一期趋势平滑部分增加了增量bt-1，用于克服对线性趋势值进行平滑时所导致的滞后偏差。bt和S*t则分别对趋势增量和季节指数进行平滑计算，目的也是既要反映趋势增

517、量的最新变化，同时也要消除随机变动。n从预测方程(10.3.21)看出，温特斯线性&季节指数平滑法有无限期的外推预测能力。n在样本期内求模拟趋势值时，宜做一步预测，逐期递推；在样本期外，则利用(10.3.20)求出样本最末期的at、bt，以及最后一周期的季节指数S*t，按K的不同取值作多期预测。10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n带衰减因子的温特斯线性&季节指数平滑法n温特斯线性&季节指数平滑法，做短期预测的精度是相当高的，但做长期预测其能力有限。原因是其对长期趋势的线性假设，是不妥当的。尤其

518、是在at和bt固定而K加大时，趋势部分将不断增长，这样会掩盖季节指数对时间序列的影响，故不宜做中、长期预测。解决这一问题的办法是，将序列的长期趋势，写成一个带衰减因子的线性方程n(10.3.22)n在01条件下，其趋势部分的渐近水平为at+bt/(1-)，从而其增长受到了控制，可望用于中、长期预测。这种方法是对温特斯线性&季节指数平滑法的改进。显然，当=1时，方程为温特斯线性&季节指数平滑模型。趋势序列及季节变动序列的参数平滑估计公式为：n(10.3.23)n则从t期起向前推K期的预测方程便是：n(10.3.24)10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统

519、计预测与预警10.3 季节变动预测季节变动预测(new)n以带衰减因子的温特斯线性&季节指数平滑法为例说明，温特斯线性&季节指数平滑法、温特斯季节指数平滑法是它的特例，可以类推。n平滑系数的确定n趋势平滑系数的作用与简单指数平滑法相同，一般取0.050.3；季节平滑系数可取大些，如0.40.6；趋势增量的平滑系数宜取小值，如0.050.2；衰减因子取大值，0.81。实际应用中，可将取值的各种组合，对样本序列进行模拟预测，并选择计算误差最小的一组值。n平滑初始值的确定n从理论上说，平滑初始值最好是用样本序列之前的历史数据估算，如果无法实施，也可以从样本序列中，取出若干周期的数据来估算平滑初始值，

520、然后从第二周期开始作平滑运算。具体步骤为，至少取2个周期的样本数据nY1,Y2,YP, YP+1,YP+2,Y2P,n第一步，计算前两个周期的期内均值M1,M2，及周期之间的平均增量b0n第二步，计算初始平滑值a010.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n第三步，计算前两个周期内各期的季节因子St，St+P，并求两周期各季节因子的均值St+P*n第四步，对初估季节因子进行归一化处理n第五步，令t =2P，at-1=a0，bt-1= b0，S*t-P =St-P，利用(10.3.20)式对at，bt，

521、S*t -P进行更新。n然后，令t =2P+1，at=at-1，bt= bt-1，S*t-P =St-P，利用(10.3.20)式对at，bt，S*t 进行更新。n.n直到t =2P+P，at=at-1，bt= bt-1，S*t-P =St-P，利用(10.3.20)式对at，bt，S*t 进行更新。10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)n并进行第3个周期内各期值的预测nt+1 =(at+bt)S*t-P ；n第六步，待一个周期内的P个季节因子S*t-全部更新后，重复第四步作归一化处理，作为下一周

522、期预测时的季节因子S*t-P=S*t。n第七步，令t =3P，用第五步、第六步更新新的周期内的at，bt，S*t以及S*t-P=S*t。并完成其预测值t计算。如此反复。直到t =kP。n第八步，在t =kP， at-1=at，bt-1= bt，S*t=S*t-P ，利用下式进行外推预测。n【例107】利用我国1978-1983年生产资料零售数据，用带衰减因子的温特斯线性&季节指数平滑法，预测1984年各季度值。n解：这是具有线性趋势的季节变动数列，因此，可以用带衰减因子的温特斯线性&季节指数平滑法进行预测。n设置平滑初值。序列有6个周期，因此利用第1、2周期的数据计算平滑初值nM1=73.42

523、5，M2=81；b0=(M2-M1)/4=1.89375，a0=M1+3b0/2=76.26563；n于是，S1=0.886882；S2=1.214159；S3=1.063574；S4=0.839172；nS5=0.914797；S6=1.190459；S7=1.079968；S8=0.819412；10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)tStSt+PS*t+PS*t+P10.8868820.9147970.900840.89989221.2141591.1904591.2023091.20104

524、531.0635741.0799681.0717711.07064440.8391720.8194120.8292920.82842合计0.9989484时间tYtatbtS*tS*t-PtMAPE0162.6288379.1464571.50.900840.899892695.31.2023091.201045788.51.0717711.070644868.776.265631.893750.8292920.82842974.882.115911.7987370.9108870.90783574.845610.00060981710106.387.572741.6939991.213825

525、1.209757106.37310.0006873881196.489.781671.1704871.0737121.07011396.859780.0047695211268.584.04926-0.243750.8150270.81229569.509540.0147377381375.983.65816-0.179040.9072710.90527675.852350.0006277981410686.909040.3815181.2196541.216972105.40970.0055685771595.789.027840.4987041.0749421.07257895.58315

526、0.0012210431669.986.62438-0.098210.8069480.80517470.317740.0059762621785.292.794030.845310.9181410.91289684.453380.00876318418117.395.844870.8666191.2238441.216853117.25960.00034430519107.399.394310.9496121.0795291.073363107.20610.0008754822078.497.822030.2486160.8014660.79688878.881250.006138345218

527、6.595.31596-0.23860.9075290.90104886.885690.00445880422131.1105.53871.362551.2421611.23329129.39840.01297938923115.4107.30710.9402611.0754261.067746115.77190.0032226632490.3112.36091.2046930.8036560.79791790.102550.002186556合计0.073166871平均0.00013666n求两周期的均值nS5*=(0.886882+0.914797)/2=0.90084；S6*=(1.2

528、14159+1.190459)/2=1.202309；nS7*=(1.063574+1.079968)/2=1.071771；S8*=(0.839172+0.819412)/2=0.829292；n归一化计算得nS5*=0.899892；S6*=1.201045；S7*=1.070644；S8*=0.82842；n令 a5= a0=76.26563， b5= b0=1.89375； S5*=0.90084； S6*=1.202309； S7*=1.071771；S8*=0.829292；n并取=0.825；=0.998；=0.145；=0.587。n从第3周期开始，利用(10.3.23)式，逐

529、期平滑at、bt、S*t；t=9,10,11,12。n利用公式t+1 =(at+bt)S*t+1-P；t=9,10,11,12预测第3周期的值。第3周期平滑完毕，对S*t归一化处理得S*t。n从第4周期开始平滑at、bt、S*t；t=12,13,14,15。n利用公式t+1 =(at+bt)S*t+1-P；t=12,13,14,15预测第4周期的值。第4周期平滑完毕，对S*t归一化处理得S*t。n重复平滑at、bt、S*t过程，直到t=21,22,23,24。并求出S*t。n从第6周期开始预测。n24+1 =(a24+b24 )S*24+1-4=101.8797；n24+2 =(a24+b24

530、( +2)S*24+2-4=139.9576；n24+3 =(a24+b24( +2+3)S*24+3-4=121.4313；n24+4 =(a24+b24( +2+3+4)S*24+4-4=90.85861。10.3.3 季节模型的指数平滑法季节模型的指数平滑法Ch10 统计预测与预警统计预测与预警10.3 季节变动预测季节变动预测(new)返回10.4 时间序列预时间序列预警分析警分析Ch10 统计预测与预警统计预测与预警10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测(new)10.4 时间序列预警分析时间序列预警分析(

531、new)n10.4.1选择宏观经济监测指标n10.4.2求多指标的综合指数n10.4.3绘制变量控制图返回10.4.1 选择宏观经济监测指标选择宏观经济监测指标Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new)n单一时间数列的循环系数，只能测定出某一指标的循环变动。若要研究整个经济的循环变动全貌和全过程，就需要计算众多的时间数列的循环系数Ct。n分析这众多经济变量的循环变动的谷、峰及其转折点，可以发现它们有不同特点。n根据它们的不同特点，一般又可以把它们划分为三类指标：n即与基准循环指标的基准时期同步的指标，称为同步指标；n比同步指标提前到达峰、谷的指标

532、，称为领先指标；n比同步指标后行到达峰、谷的指标，称为滞后指标。n按照上述指标体系的动态数据特征，我们可以对宏观经济的运行状况做出概略判断，以确定经济的过热或者过冷状况，对国民经济的间接调控提供依据。n具体的说，由于领先指标与同步指标具有正向因果联系，因此，当领先指标超出正常范围值时，就可以预见到，未来的同步指标会发生不正常的变化。所以，正确分析领先指标的预警信号，及时发现经济景气循环的信号，可以促使宏观决策部门采取相应的对策，以避免经济发展的大起大落。10.4.1 选择宏观经济监测指标选择宏观经济监测指标Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new

533、)n下表是根据我国经济统计的现状和需求提出的预警指标体系。序数基准指标领先指标同步指标滞后指标1GNP全民基建投资完成额工农业总产值新增固定资产2新开工项目数工业销售收入期末商品库存3工业贷款额全社会商品零售额职工生活费用价格指数4货币流通量财政收入工商业逾期未还贷款额5工业流动资金总额银行现金支出财政赤字额6货物周转量返回10.4.2 求多指标的综合指数求多指标的综合指数 Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new)n标准循环偏差cn标准循环偏差，就是循环系数减1，再除以其相应的标准差。具体公式为n(10.4.1)n这样做的目的，是消除各指标之间

534、的量纲、单位大小的影响，以便于综合和比较。n综合指数Xn综合指数，是同类多个(m)指标标准循环偏差c的算术平均数。一般多采用加权平均方法。为了方便也可采用简单平均公式n(10.4.2)返回10.4.3 绘制变量控制图绘制变量控制图 Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new)n标准循环偏差使用变量控制图，是一种适用的预警方法。具体是，在宏观经济总体中，按照经济变量的因果关系，划分并选择领先、同步和滞后三类指标，进而选择随机样本。所取样本变量，为标准循环偏差值。这种偏差值在被抽群体中是服从正态分布的。样本的平均数，即综合指数Xt亦是服从正态分布的。于

535、是，可以采用类似工业产品质量管理中的控制图方法，把一个循环变动的周期，划分为不同的区间，进行预警和控制。具体步骤是n第一步，确定规格中心线n(10.4.3)n第二步，确定上、下控制线n(10.4.4)10.4.3 绘制变量控制图绘制变量控制图 Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new)n其中，Am是控制因子，由综合指数X的指标样本构成数m决定，可查表求得。n第三步，确定上、下控制限的中间值线n(10.4.5)n对上述规格中心线等作图，并从峰顶作垂线，垂直交于下控制限线，把一个循环变动周期Xt，划分为十个区间，各区间用不同颜色的灯作为警情信号，构成

536、宏观经济预警图。m123456Am1.8806031.0230660.7285090.5768020.4833247m789101112Am0.4193390.3725540.33670.3082140.2850720.26581504110.4.3 绘制变量控制图绘制变量控制图 Ch10 统计预测与预警统计预测与预警10.4 时间序列预警分析时间序列预警分析(new)n白灯区表示景气开始复苏，但仍处于稍冷期；奶黄灯表示景气已经回升，趋向稳定期；黄灯区表示景气开始高涨，处在比较稳定期；红灯区表示景气已经开始转热，处在稍热期；双红灯区表示景气已经过热，到达峰顶时期；深绿灯区表示景气已经收缩，处在

537、稍热时期；绿灯区表示景气已经恢复正常，回到基本稳定期；蓝灯区表示景气开始转入萧条，但仍处在比较稳定时期；深蓝灯区表示景气已经萧条，进入稍冷期；黑灯区表示景气已经冷到谷底。上述各区间表示经济景气循环的不同阶段，以便于我们对景气循环的阶段进行正确区分。图图10-3 宏观经济预警信号图宏观经济预警信号图Xt%00.40.81.2-0.4-0.8tUCL1/2UCL1/2LCLLCL0123456789101112131415161718192021-1.2返回Ch10 内容小结内容小结10.1 统计预测的基本问题统计预测的基本问题10.2 趋势预测趋势预测(new)10.3 季节变动预测季节变动预测

538、(new)10.4 时间序列的预警分析时间序列的预警分析(new)Ch10 Ch10 统计预测与预警统计预测与预警统计预测与预警统计预测与预警思考与练习思考与练习10.1，用于趋势测定的移动平均数和用于预测的移动平，用于趋势测定的移动平均数和用于预测的移动平均数，有什么区别和联系？均数，有什么区别和联系？10.2，对对两两个个不不同同时时期期的的时时间间序序列列进进行行预预测测时时，用用什什么么评价它们的预测效果比较好？为什么？评价它们的预测效果比较好？为什么？10.3，WLS和和OLS法有什么区别和联系？法有什么区别和联系？ Ch10 Ch10 统计预测与预警统计预测与预警统计预测与预警统计预测与预警

展开阅读全文

华中科技大学统计学课件

最新文档