计量经济学与应用3数据与检验

资源描述

《计量经济学与应用3数据与检验》由会员分享，可在线阅读，更多相关《计量经济学与应用3数据与检验（56页珍藏版）》请在金锄头文库上搜索。

1、计量经济学与应用,3. 数据与检验,本章内容,变量关系与研究方法数据统计概述描述性统计数据的分布与推断性检验数据类型与相关关系,数据统计概述,一些概念总体（population）: 打算研究的全部个体 -大同小异样本（sample）: 总体中，具有代表性的一部分随机化（randomization）: 使样本具有代表性的重要方法参数: 定量反映总体的某个性质通常用希腊字母表示，如 , - 常常未知统计量:定量反映样本的某个性质通常用拉丁字母表示，如 s， p,数据统计概述,总体率由样本率估计例如，设样本的个体数(即样本含量)为n，若x为样本的某指标阳性个体数，则可用样本阳性

2、率估计研究人群的阳性率 (总体阳性率)；由于个体差异和偶然性的影响，样本率也存在抽样误差-由抽样造成样本率与总体率(研究人群的率)的差异样本率是随机的，但在概率意义下也是有规律的-样本率的分布。,统计分析,统计分为描述性统计和推断性统计。描述性统计主要是对一字数据进行概述和描绘。推断性统计是通过检测部分（称为样本）从而得到对整体(称为总体）的一般性认识的过程。为使这种推断有效，样本对总体而言必须具有代表性，且必须设定误差概率。描述性统计是用一组两组反应整体数据特征的信息来对改组数据予以描述。他同事也指用表、图、图形以及其他的图形表达形式来描述一组数据。推断性统计（含估计和假设检验）是

3、指从一个取自全体的样本的特殊性得到有关总体的一般性特征。因此推断性统计相当于归纳推理（恰与由整体特征得出个体特征的演绎推理相反）统计分析通过利用相关经济数据及评估结果，为估计经济变量之间不精确、不能通过实验获得的经济滚系提供适当的技术支持。,变量类型,定性变量分类变量(categorical variable)或名义变量(nominative variable)。分类变量的水平(level) ：代码(code) 用1、2、3、4、5等来表示各个水平。二分类变量(binary variable), 也称0-1变量或假变量(dummy variable) 有序变量(ordinal vari

4、able) 种种可能的“取值”中自然地存在着次序。,变量类型,定性变量离散型变量只能取整数值。例如，手术病人数; 新生儿数连续型变量可以取实数轴上的任何数值。由测量而得到的大多属于连续型变量。“连续”: 指该变量可以在实数轴上连续变动。例如，血压、身高、体重等变量转化只能由高级向低级转化, 不能作相反方向的转化连续型有序分类二值,描述性统计,频数表和直方图平均水平度量变异性度量相对数,频数表与直方图,描述样本特征，直观反映概率分布频数表-连续型变量/离散型变量,直方图,直方图，是一种二维统计图表，它的两个坐标分别是统计样本和该样本对应的某个属性的度量。离散型变量直条图

5、连续型变量- 直方图,平均水平的度量,算术均数直方图接近对称时用几何均数对数值的直方图接近对称时用中位数直方图单蜂而不对称时用当 n 为奇数, 中位数= 第 (n+1)/2 个数值当 n 为偶数, 中位数= 第n/2个数值+ 第 (1 +n/2)个数值2,变异性度量,1. 极差 RR = 最大值最小值R 不稳健. 缺点: 仅取决于两头的数值,与中间的数值无关观察个数越多, 极差越大. 2. 四分位数差距(Inter- quartile range)下四分位数: 25 percentile, P25 or 1 上四分位数: 75 percentile, P75 or 3,变异性度

6、量,3. 方差和标准差离均差: 离均差平方: （） 2 总体方差: 离均差平方在总体中的平均 2 总体标准差: 4. 变异系数在表示离散程度上，标准差并不是全能的，当度量单位或平均数不同时，只能用变异系数了，它也是表示离散程度，是标准差与平均数的比值称为变异系数，记为CV。变异系数可以消除单位和（或）平均数不同对两个或多个资料变异程度比较的影响。CV= 标准偏差SD 平均值,相对数,比：任何两个量之比新生儿性别比= 新生男孩人数新生女孩人数频率：特殊类型的比分子、分母都是个数; 分子是分母的一部分; 数值介于 0 和 1 之间治愈率= 治愈人数治疗人数强度：另一种特殊类型的

7、比分母是一定时段内总的观察人数; 分子是该时段内发生某事件的人数；数值不一定介于 0 和1 之间一般说, 强度可以看作是 “单位时间内校正的频率”, 反映单位时间内某事件发生的频率.,1、均值最常用的变量取值的集中趋势测度(mean). 变量X的均值为: 2、方差和标准差最常用的变量取值的离散测度是方差(variance)及标准差(standard deviation).,方差：,标准差：,3、协方差和相关系数变量X和Y有n对数据(X1，Y1), (X2，Y2), ， (Xn,Yn)。 X和Y的观测值相关程度的一个测度是协方差(covariance).更常用的是相关系数(corre

8、lation coefficient) 其中Sxy是X和Y的协方差，Sx和Sy分别是X和Y的标准差。,五、几个重要的理论概率分布正态分布，t分布， 2分布和F分布。1、正态分布正态分布是最著名的一种分布，其图形为钟形。概率密度函数具有以下形式：其中和2分别是该分布的均值和方差。若X服从均值为，方差为2的正态分布，可用符号表示为XN (, 2),17,正态分布有以下性质：（1）关于均值对称，如图所示。,18,（2）正态曲线下大约68%的面积位于之间，大约95%的面积位于2之间，大约99.7%的面积位于3之间。（3）正态分布完全被它的两个参数和 2所确定。 XN(, 2) ，令Z =(X

9、-)/则ZN (0,1）即Z服从均值为0，方差为1的标准正态分布。 (4)正态分布变量的线性函数亦服从正态分布。,19,2、 2分布若Z1，Z2，, Zk为独立的标准正态变量，则它们的平方和 Z = 服从K个自由度的 2分布。其中术语自由度（df）的含义是2变量用2(K)或2K表示，其中K为自由度数。 2分布的图形如图所示。,20,21,2分布的性质：（1）如图所示， 2分布是一个偏斜分布。偏斜度依赖于自由度的大小，随着df增大，该分布的对称性随之增大。（2）2分布的均值为K，方差为2K，其中K为自由度。（3）若Z1和Z2是自由度分别为K1和K2的2变量，则它们的和Z1+Z2为自由度=

10、 K1+K2的2变量。,22,3、t分布若Z1是一个标准正态变量，Z2为K个自由度的2变量，则服从K个自由度的t分布，用t(k) 或tk表示。t分布是计量经济工作中使用频率最高的分布。,23,t分布的性质：（1）t分布与正态分布一样，是对称的，但比正态分布要平一些。如图2.3所示。自由度充分大时，t分布近似于正态分布。自由度趋向无穷大时，t分布就是标准正态分布。（2）t分布的均值为0，其方差为k/(k-2)。,24,4、F分布若Z1和Z2是独立的自由度分别为K1和K2的2变量，则服从自由度为K1和K2的F分布，用F(K1，K2)或Fk1，k2表示，K1称为分子自由度，K2称为分母自由度。

11、,25,26,F分布的性质：（1）与2分布一样，F分布也是向右偏斜的，如图2.4所示。当K1和K2增大时，F分布趋向正态分布。（2）F分布变量的均值为K2 / (K2-2），（K22），其方差为：,27,（K2 4）,推断性统计工具,t检验 F检验 2 检验方差分析,T检验,T检验，亦称student t检验（Students t test），主要用于样本含量较小（例如n30），总体标准差未知的正态分布资料。 t分布的推导由英国人威廉戈塞特（Willam S. Gosset）于1908年首先发表，当时他还在爱尔兰都柏林的吉尼斯（Guinness）啤酒酿酒厂工作。酒厂虽然禁止员工发表一切与

12、酿酒研究有关的成果，但允许他在不提到酿酒的前提下，以笔名发表t分布的发现，所以论文使用了“学生”（Student）这一笔名。之后t检验以及相关理论经由罗纳德费雪（Sir Ronald Aylmer Fisher）的发扬光大，为了感谢戈塞特的功劳，费雪将此分布命名为学生t分布（Students t）分为单个样本的t检验配对样本均数t检验(非独立两样本均数t检验) 两个独立样本均数t检验,T检验,（1）单个样本t检验又称单样本均数t检验(one sample t test),适用于样本均数与已知总体均数0的比较,其比较目的是检验样本均数所代表的总体均数是否与已知总体均数0有差别。已知总体均

13、数0一般为标准值、理论值或经大量观察得到的较稳定的指标值。单样t检验的应用条件是总体标准s未知的小样本资料( 如n50),且服从正态分布。我们在数据描述中应用的就是这种！,T检验,（2）配对样本均数t检验配对样本均数t检验简称配对t检验(paired t test),又称非独立两样本均数t检验,适用于配对设计计量资料均数的比较,其比较目的是检验两相关样本均数所代表的未知总体均数是否有差别。配对设计(paired design)是将受试对象按某些重要特征相近的原则配成对子，每对中的两个个体随机地给予两种处理。应用配对设计可以减少实验的误差和控制非处理因素，提高统计处理的效率。,T检验,（3

14、）两独立样本t检验两独立样本t 检验(two independent samples t-test)，又称成组 t 检验。适用于完全随机设计的两样本均数的比较,其目的是检验两样本所来自总体的均数是否相等。完全随机设计是将受试对象随机地分配到两组中，每组对象分别接受不同的处理，分析比较处理的效应。或分别从不同总体中随机抽样进行研究。两独立样本t检验要求两样本所代表的总体服从正态分布N(1，12)和N(2，22)，且两总体方差12、22相等,即方差齐性(homogeneity of variance, homoscedasticity)。若两总体方差不等,即方差不齐，可采用t检验,或进行变

15、量变换,或用秩和检验方法处理。,注意事项,t 检验是以正态分布为基础的，资料的正态性可用正态性检验方法检验予以判断。若资料为非正态分布，可采用数据变换的方法，尝试将资料变换成正态分布资料后进行分析。单侧检验和双侧检验中的t值计算过程相同，只是t界值不同，对同一资料作单侧检验更容易获得显著的结果。单双侧检验的选择，应在统计分析工作开始之前就决定，若缺乏这方面的依据，一般应选用双侧检验。正确理解P值的统计意义 P 是指在无效假设 H0 的总体中进行随机抽样,所观察到的等于或大于现有统计量值的概率。其推断的基础是小概率事件的原理,即概率很小的事件在一次抽样研究中几乎是不可能发生的，如发生则拒绝H

16、0。因此，只能说明统计学意义的“显著” 。,U检验,u检验用于已知或未知但n足够大时，用样本标准差s作为的估计值，算得统计量u t检验用于未知且n较小时应用条件与t检验基本一致，只是当大样本（大于30）时用U检验，而小样本时则用t检验，t检验可以代替U检验。,F检验,F检验（F-test），最常用的别名叫做联合假设检验（joint hypotheses test），此外也称方差比率检验、方差齐性检验。它是一种在零假设（null hypothesis, H0）之下，统计值服从F-分布的检验。其通常是用来分析用了超过一个参数的统计模型，以判断该模型中的全部或一部参数是否适合用来估计母体。从两研究总体中随机抽取样本，要对这两个样本进行比较的时候，首先要判断两总体方差是否相同，即方差齐性。若两总体方差相等，则直接用t检验，若不等，可采用t检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等，就可以用F检验。简单的说就是检验两个样本的方差是否有显著性差异这是选择何种t检验的前提条件。,

展开阅读全文