统计方法-与应用-易丹辉课件

上传人:夏** 文档编号:567641855 上传时间:2024-07-21 格式:PPT 页数:70 大小:619.50KB
返回 下载 相关 举报
统计方法-与应用-易丹辉课件_第1页
第1页 / 共70页
统计方法-与应用-易丹辉课件_第2页
第2页 / 共70页
统计方法-与应用-易丹辉课件_第3页
第3页 / 共70页
统计方法-与应用-易丹辉课件_第4页
第4页 / 共70页
统计方法-与应用-易丹辉课件_第5页
第5页 / 共70页
点击查看更多>>
资源描述

《统计方法-与应用-易丹辉课件》由会员分享,可在线阅读,更多相关《统计方法-与应用-易丹辉课件(70页珍藏版)》请在金锄头文库上搜索。

1、统计方法统计方法与应用与应用 中国人民大学统计学院中国人民大学统计学院中国人民大学统计咨询研究中心中国人民大学统计咨询研究中心易丹辉易丹辉二二 一一年七月二十八日年七月二十八日1主要内容主要内容一、统计的理解一、统计的理解二、统计方法的理解二、统计方法的理解三、向量自回归模型三、向量自回归模型四、结构方程模型四、结构方程模型五、五、 Panel Data模型模型六、应用的思考六、应用的思考2一、统计的理解一、统计的理解 数据采集数据采集 整理整理 分析分析 科学科学 艺术艺术 数据数据 规律规律 有用的信息有用的信息 目标目标 对象对象 数据的类型数据的类型 定性定性 定量定量 数据的分布数据

2、的分布 已知已知 未知未知 正态正态 非正态非正态 数据不同,方法(模型)不同数据不同,方法(模型)不同 3 1. 异常(缺失)值处理异常(缺失)值处理 数据的预处理数据的预处理数据表现数据表现 异常值的判断异常值的判断 观察数据的变化观察数据的变化 是否有异常数据出现是否有异常数据出现 原因分析原因分析 规律分析规律分析 是否有冲击或干扰是否有冲击或干扰 瞬间瞬间 持续持续46000080000100000120000140000989900010203Y55.0E+081.0E+091.5E+092.0E+092.5E+093.0E+093.5E+0999:0199:0700:0100:0

3、701:0101:0702:0102:07Y67 2. 数据的转换数据的转换 原因原因 现象的量变与质变现象的量变与质变 数据转换后将更有意义数据转换后将更有意义 更便于解释更便于解释 方法方法 重新分类编码重新分类编码 虚拟变量(哑变量)引入虚拟变量(哑变量)引入 连续变量离散化连续变量离散化 如年龄如年龄 收入收入 多项选择的转化多项选择的转化8二、统计方法的理解二、统计方法的理解 1. 数据的基本描述数据的基本描述 特点特点 基本规律基本规律 表表 图图 特征值特征值(示例示例) 分组分组(类类) 检检验验 2. 变量之间关系变量之间关系 截面截面 线性回归模型线性回归模型 被解释变量被

4、解释变量: 连续连续 离散离散 解释变量解释变量: 连续连续 离散离散91011虚拟变量虚拟变量 当当解解释释变变量量不不是是定定量量测测量量数数据据,或或在在不不同同的的情情况况下下,所所产产生生的的结结果果不不同同,就就需需要要将将解解释释变变量量区区分分开开,可可以以采采用用设设虚拟变量的方法。虚拟变量的方法。虚拟变量是取值仅取虚拟变量是取值仅取1或或0的变量。一般,的变量。一般,基础类型、肯定类型取值基础类型、肯定类型取值“1”,比较类,比较类型、否定类型取值型、否定类型取值“0”。 1213 工具变量法工具变量法 引引入入工工具具变变量量的的目目的的是是改改善善由由解解释释变变量量与

5、与误误差差项项相相关关导导致致OLS估估计计的的不不一一致致性性 工工具具变变量量Z是是与与解解释释变变量量X高高度度相相关关,但但与与误误差差项项不不相相关关的的一一组组变变量量,且且这这些些变变量间是线性独立的量间是线性独立的 1415 线性回归模型线性回归模型 广义线性模型广义线性模型 因子分析因子分析潜变量潜变量 结构方程模型结构方程模型 3. 变量随时间变化规律变量随时间变化规律 时序模型时序模型 纵向数据模型纵向数据模型 164. 模型的应用模型的应用 分析实际现象之间变化关系分析实际现象之间变化关系现象之间关系有一定理论做依据现象之间关系有一定理论做依据,大体关系已知大体关系已知

6、 回归模型回归模型 模型应用的条件模型应用的条件 多水平多水平 结构方程结构方程 联立方程联立方程 现象之间关系没有一定理论做依据现象之间关系没有一定理论做依据,但有相互关系但有相互关系 单变量时间序列模型单变量时间序列模型 AR MA ARMA ARIMA 多变量时间序列模型多变量时间序列模型 VAR SVAR VEC Panel Data 模型作用模型作用 定量的角度定量的角度 分析探讨现象或之间的数量关系分析探讨现象或之间的数量关系 17VAR 、 SVAR与与VEC模型模型 多变量序列之间动态变化关系多变量序列之间动态变化关系 VAR(p) 多平稳序列之间动态变化规律描述多平稳序列之间

7、动态变化规律描述 没有变量序列之间同期的相互关系没有变量序列之间同期的相互关系SVAR (p) 多平稳序列之间动态变化规律描述多平稳序列之间动态变化规律描述 存在变量序列之间同期的相互关系存在变量序列之间同期的相互关系 VEC 具有协整关系的多变量序列之间动态具有协整关系的多变量序列之间动态 变化规律描述变化规律描述 三、向量自回归模型三、向量自回归模型18( (一一) ) 向量平稳性检验向量平稳性检验 我国出口额(我国出口额( )、)、进口额(进口额( )和外汇储备()和外汇储备( ) 示例、进出口与外汇储备示例、进出口与外汇储备19序列序列 趋势类型型 t t 1% 5% 10% 1% 5

8、% 10% y1 C C,t, 0t, 0 -3.7211 -4.0391 -3.4490 -3.1497 -3.7211 -4.0391 -3.4490 -3.1497y2C C,t, 0 -4.1844 -4.0391 -3.4490 -3.1497t, 0 -4.1844 -4.0391 -3.4490 -3.1497y3C C,t, 0 0.1439 -4.0391 -3.4490 -3.1497t, 0 0.1439 -4.0391 -3.4490 -3.1497dy3无无C C和和t, 0 -3.2816 -2.5852 -1.9436 -1.6149t, 0 -3.2816 -2

9、.5852 -1.9436 -1.614920一阶差分后序列图一阶差分后序列图21序列序列 趋势类型型 t t 1% 5% 10% 1% 5% 10% dy1无无C C,t, 0t, 0 -12.5844 -2.5876 -1.9440 -1.6147 -12.5844 -2.5876 -1.9440 -1.6147dy2无无C C,t, 0 -13.9201 -2.5876 -1.9440 -1.6147t, 0 -13.9201 -2.5876 -1.9440 -1.6147dy3无无C C,t, 0 -2.4107 -2.5876 -1.9440 -1.6147t, 0 -2.4107

10、-2.5876 -1.9440 -1.614722(二)(二)模型识别模型识别 对模型阶数对模型阶数p作出选择作出选择 1. 阶数的初选阶数的初选阶数阶数p的初选,通常可以借助序列间的互相关函数进的初选,通常可以借助序列间的互相关函数进行。行。 阶数阶数p要足够大,以完整反映变量之间的动态特要足够大,以完整反映变量之间的动态特征;征; p不宜过大,模型待估计参数增多,自由度减少,不宜过大,模型待估计参数增多,自由度减少,没有足够的样本数目时,可能导致参数不能得到正确没有足够的样本数目时,可能导致参数不能得到正确有效的估计。有效的估计。 和普通线性回归一样,一个待估计参数,一般来和普通线性回归一

11、样,一个待估计参数,一般来说,至少需要说,至少需要10个观测期的数据。个观测期的数据。232. 利用评价指标确认利用评价指标确认利利用用初初选选的的阶阶数数p可可以以构构建建VAR模模型型,参参数数估估计计后后,可以利用几个评价指标帮助判断合适的阶数可以利用几个评价指标帮助判断合适的阶数 (1) LR检验(似然比检验)检验(似然比检验) :附加约束是正确的:附加约束是正确的 服从自由度为服从自由度为M的分布的分布 (2)最终预测误差)最终预测误差FPE(Final prediction error )其中,其中, 是滞后是滞后p期时模型残差的方差估计,期时模型残差的方差估计, n是样是样本量,

12、本量,k是待估计参数的个数是待估计参数的个数 。 FPE(p)=24(3)AIC(Akaike inof criterion) 准则准则 其其中中:指指VAR(p) 模模型型残残差差的的协协方方差差阵阵的的行行列列式式;n是有效的观测数目;是有效的观测数目;m是变量序列的数目;是变量序列的数目;p是阶数是阶数 (4)SC(Schwarz criterion)准则)准则 (5)HQ(Hannan-Quinn criterion)准则)准则 其其中中:L是是似似然然函函数数,k是是待待估估计计参参数数的的个个数数,其其它它符符号意义同上号意义同上 AIC=log +2m2p/n,p=1, k SC

13、=log +(logn),p=1, k +(logn) HQ = 25差分后序列滞后差分后序列滞后4阶检验结果阶检验结果 26VAR(3)AR特征多项式系数特征多项式系数 27AR特征多项式根的倒数分布图特征多项式根的倒数分布图 28原序列原序列VAR(3) AR特征多项式系数特征多项式系数 29原序列原序列VAR(3)AR特征多项式根的倒数分布图特征多项式根的倒数分布图 30迹检验结果迹检验结果 (三三) 变量间协整关系检验变量间协整关系检验 选择序列有线性趋势,选择序列有线性趋势, 协整方程有截距的情况,并选协整方程有截距的情况,并选p=3 31最大特征值检验结果最大特征值检验结果 32

14、(四四) 向量误差修正模型向量误差修正模型 协整方程为协整方程为 VEC模型为模型为 3334四、结构方程模型四、结构方程模型 (StructuralEquationModeling,SEM) (一)(一) 问题的提出问题的提出研究学生学习成绩与什么因素有关研究学生学习成绩与什么因素有关 学习成绩学习成绩 学习能力学习能力 教师要求教师要求 自信自信 同学关系同学关系35回归分析回归分析 假设假设 自变量非随机(不存在测量误差)自变量非随机(不存在测量误差) 自变量之间不存在相关关系自变量之间不存在相关关系学习成绩学习能力教师要求自 信同学关系因因变变量量自自变变量量36因果关系分析因果关系分

15、析 直接因果效应直接因果效应 间接因果效应间接因果效应观测变量的变异:随机误差的变异、系统误差的观测变量的变异:随机误差的变异、系统误差的变异、潜变量的变异变异、潜变量的变异因子分析因子分析学习成绩教师要求自 信同学关系学习能力37因子分析因子分析 探索性因子分析探索性因子分析 已有数据已有数据 探索其规律关系探索其规律关系 验证性因子分析验证性因子分析 已知可能有已知可能有 某种关系某种关系 利用数据验证利用数据验证38结构方程模型(结构方程模型(StructuralEquationModeling,简称,简称SEM),亦称协方差结构模型),亦称协方差结构模型(ConarianceStruc

16、tureModels,简称,简称CSM),),也称线性结构模型(也称线性结构模型(LinearStructuralRelationsModels),或称),或称LISREL模型。模型。 SEM是一般线性模型的扩展,主要用于研究不是一般线性模型的扩展,主要用于研究不可直接观测变量(潜变量)与可测变量之间关可直接观测变量(潜变量)与可测变量之间关系和潜变量之间的关系。系和潜变量之间的关系。 (二)(二) 模型形式模型形式39 协方差结构模型由两部分组成:协方差结构模型由两部分组成: 测量模型测量模型 结构模型结构模型潜变量(潜变量(Latent VariableLatent Variable) 无

17、法直接测量的变量无法直接测量的变量, ,亦称隐变量;亦称隐变量;可测变量(可测变量(Manifest VariableManifest Variable) 可以直接测量的变量可以直接测量的变量, ,亦称显变量。亦称显变量。 外生、内生变量外生、内生变量40测量模型测量模型(MeasurementModel) 亦称为验证性因素分析模型,主亦称为验证性因素分析模型,主要表示观测变量和潜变量之间的要表示观测变量和潜变量之间的关系。模型形式关系。模型形式 41其中,其中, 为为q1q1阶外生观测变量向量,阶外生观测变量向量, 为为p1 p1 阶内生观测变量阶内生观测变量 向量;向量; 为为n1n1阶外

18、生潜变量向量,阶外生潜变量向量, 为为m1m1阶内生潜阶内生潜 变量向量;变量向量; 为为qnqn矩阵,是外生观测变量矩阵,是外生观测变量 在外生在外生 潜变量潜变量 上的因子载荷矩阵;上的因子载荷矩阵; 为为pmpm 阶矩阵,是内阶矩阵,是内 生观测变量生观测变量 在内生潜变量在内生潜变量 上的因子载荷矩阵;上的因子载荷矩阵; 为为q1q1阶测量误差向量,阶测量误差向量, 为为p1 p1 阶测量误差向量,阶测量误差向量, 它们表示不能由潜变量解释的部分。它们表示不能由潜变量解释的部分。(1)(2)42结构模型(结构模型(StructuralModel)又称为潜变量因果关系模型,主要表示又称为

19、潜变量因果关系模型,主要表示潜变量之间的关系。模型形式为潜变量之间的关系。模型形式为 (3)其中,和其中,和 分别是内生潜变量和外生潜变量向量;分别是内生潜变量和外生潜变量向量; 是内生潜变量是内生潜变量 的系数矩阵,亦是内生潜变量间的通的系数矩阵,亦是内生潜变量间的通径系数矩阵;径系数矩阵; 是外生潜变量是外生潜变量 的系数矩阵,也是外的系数矩阵,也是外生潜变量对相应内生潜变量的通径系数矩阵;为残差生潜变量对相应内生潜变量的通径系数矩阵;为残差向量。向量。 43模型的假设模型的假设 假定:假定: 与与 相相互互独独立立, 与与 相相互互独独立立, 与与 相相互互独独立立, 、 及及 为相互独

20、立;为相互独立; 在对角线上为在对角线上为0,且,且 为非奇异阵。为非奇异阵。44(三)模型的设定(三)模型的设定初始理论模型的设定初始理论模型的设定 根根据据理理论论或或以以往往研研究究的的成成果果,构构建建潜潜变变量量和和观观测测变变量量以以及及潜潜变变量量和和潜潜变变量量之之间间的的关关系系,即即设设定定初初始始模模型型。通通常常采采用用路路径径图图的的形形式式表表示示。一一个个潜潜变变量量通通常常会会对对应应几几个个可可测测变变量量,至至于于究究竟竟对对应应多多少少,根根据据研研究究的的具具体体问问题题而而定定,但但一一般般不不宜宜少少于于两两个个。潜潜变变量量可可以以可可以根据理论确

21、定,也可以利用因子分析提取。以根据理论确定,也可以利用因子分析提取。 注意因子分析的运用:因子之间关系注意因子分析的运用:因子之间关系 45客户期望客户抱怨客户忠诚度客户满意度价值感知质量和服务感知企业形象46客户忠诚度企业形 象知名度Q36-1信誉Q36-2规范化、专业化、国际化程度Q36-3业务员的形象Q36-4推荐给亲友Q33继续的可能性Q3247作业量学习状态玩耍状态朋友数目言语推理数学英语统计提问次数例例1 学生成绩的影响因素学生成绩的影响因素48教师要求同学关系学习能力学习成绩49测量模型测量模型=+50=+结构模型结构模型=+51(四)模型参数的估计(四)模型参数的估计参数估计的

22、思路和方法参数估计的思路和方法 估计方法估计方法 最小二乘最小二乘 偏最小二乘偏最小二乘 最大似然最大似然 途径途径 如何实现目标如何实现目标 算法算法 样本量:不同估计方法所需样本量不同样本量:不同估计方法所需样本量不同 为什么?为什么?52参数估计的思路参数估计的思路当初始模型确定,模型(当初始模型确定,模型(1)、()、(2)中变量的数目随)中变量的数目随之确定。模型中,变量之确定。模型中,变量 和和 是不可观测的,因而无是不可观测的,因而无法直接估计。但是,如果模型定义正确,总体协方差法直接估计。但是,如果模型定义正确,总体协方差矩阵与模型拟合协方差矩阵应该相等。矩阵与模型拟合协方差矩

23、阵应该相等。 其中,其中, 是总体协方差矩阵,是总体协方差矩阵, 是含有待估计参是含有待估计参数的模型拟合协方差矩阵。数的模型拟合协方差矩阵。待估计的参数:待估计的参数: =53总体协方差矩阵总体协方差矩阵 未知,需要用样本协方差矩未知,需要用样本协方差矩阵估计阵估计. . 若若S为样本观测变量之间方差和协方差的为样本观测变量之间方差和协方差的矩阵,即要有矩阵,即要有 =S。于是,对协方差结构模型。于是,对协方差结构模型的参数估计就转化为求解一组参数,使得的参数估计就转化为求解一组参数,使得 与与S的差距达到最小。的差距达到最小。 求解模型参数的过程,是不断的将一些参数求解模型参数的过程,是不

24、断的将一些参数代入模型,计算出方差和协方差,使得模型拟合代入模型,计算出方差和协方差,使得模型拟合协方差矩阵协方差矩阵 中的每一个元素都尽可能的接近中的每一个元素都尽可能的接近S中相应元素的过程。中相应元素的过程。 与与S S的接近程度可以通过定义的拟合函数得的接近程度可以通过定义的拟合函数得到测定。到测定。 54不同的估计方法定义的拟合函数不完全相同不同的估计方法定义的拟合函数不完全相同 极大似然估计法对应的拟合函数极大似然估计法对应的拟合函数 其中,其中, 是模型拟合协方差矩阵,是模型拟合协方差矩阵,p是外生变量的是外生变量的数目,数目,q是内生变量的数目,是内生变量的数目,tr是求矩阵的

25、迹是求矩阵的迹 (4)若若 与与S越越接接近近,则则S越越接接近近一一个个(p+q)(p+q)阶阶的的单单位位阵阵,也也就就是是越越趋趋近近于于(p+q),此此时时,第第一一项项与与第第二二项项也也越越接接近近。因因此此,当当 等等于于S时时,极极大大似似然然估估计计的的拟拟合合函函数为零。数为零。55(四)模型的评价(四)模型的评价模型与数据间的拟合程度评价模型与数据间的拟合程度评价 残差矩阵残差矩阵 -S的各个元素越接近于的各个元素越接近于0,表明模型越能很,表明模型越能很好地拟合数据,所建模型越有效好地拟合数据,所建模型越有效 两类指标:绝对拟合指数(两类指标:绝对拟合指数(Absolu

26、teIndex) 相对拟合指数(相对拟合指数(RelativeIndex) 56(五)模型的修正(五)模型的修正模型拟合效果模型拟合效果变量的选择变量的选择变量之间关系的确定变量之间关系的确定模型的调整模型的调整57公司形象工作期望工作感受满意度忠诚抱怨0.553210.66772- 0.030610.6592260.155660.183390.154840.553760.6578775.0071.2177.7480.6365.3580.00全国的客户满意度情况(03年)58全国的客户满意度情况(05年)形象形象71.99客户关系管理客户关系管理70.26忠诚忠诚74.16总体满意总体满意78

27、.12价值感知价值感知73.54质量感知质量感知79.66期望期望84.190.2010.0050.2900.5040.2680.2210.5530.4500.5500.6650.1550.04059人文奥运工程实施效果人文奥运工程实施效果 人文奥运,是一个非常抽象的概念人文奥运,是一个非常抽象的概念.初始模型设定初始模型设定 六个潜变量六个潜变量 对人文奥运氛围产生直接影响,对人文奥运氛围产生直接影响, 每个潜变量都有若干个可测指标测度。每个潜变量都有若干个可测指标测度。数据采集数据采集 电话调查共得到有效样本电话调查共得到有效样本336份份 参数估计参数估计模型修正模型修正 60道德素质意

28、识全民学外语全民健身人文奥运氛围服务意识奥运进社区志愿服务6162 模模型型能能够够同同时时反反映映研研究究对对象象在在时时间间和和截截面面单单元元两两个个方方向向上上的的变变化化规规律律及及不不同同时时间间、不同单元的特性。不同单元的特性。 模型形式模型形式 根根据据模模型型截截距距和和斜斜率率参参数数的的不不同同可可以以有有几种形式:几种形式: 斜率相同且截距相同斜率相同且截距相同 五、五、Panel DataPanel Data模型模型63斜率相同但截距不同斜率相同但截距不同斜率和截距都不同斜率和截距都不同64 模型类型模型类型 固定效应固定效应 随机效应随机效应 参数估计参数估计 模型

29、检验模型检验 回归系数显著回归系数显著 拟合优度检验拟合优度检验 D.W. D.W.检验检验6566统计模型统计模型 应用为目的应用为目的模型用以解决实际问题模型用以解决实际问题 宏观宏观 微观微观 模型改善以应用为前提模型改善以应用为前提 依据依据为什么要用为什么要用 如何用如何用 结果解释结果解释 解决什么问题解决什么问题 如何解决的如何解决的 效果如何效果如何 上市公司财务与业绩上市公司财务与业绩 不同收入居民的消费行为不同收入居民的消费行为 六、六、应用的思考应用的思考67研究内容示例影响心理的因素证券投资者心理证券投资者行为心理学范畴行为金融学范畴68参考文献参考文献1.侯杰泰、温忠

30、麟、成子娟:侯杰泰、温忠麟、成子娟: 结构方程模型及其应用,教育科结构方程模型及其应用,教育科学出版社,学出版社,2004年年7月月2.黄芳铭:结构方程模式黄芳铭:结构方程模式理论与应用,中国税务出版社,理论与应用,中国税务出版社,2005年年4月月3. 张雷、雷雳、郭伯良:多层线性模型应用,教育科学出版社,张雷、雷雳、郭伯良:多层线性模型应用,教育科学出版社,2005年年6月第月第2版版4. 刘红云、张雷:追踪数据分析方法及其应用,教育科学出版社,刘红云、张雷:追踪数据分析方法及其应用,教育科学出版社,2005年年5月月5. Kenneth A. Bollen: Structural Equations with Latent Variables, John Wiley & Sons,1989 6. 易丹辉易丹辉:数据分析与数据分析与EViews应用应用,中国人民大学出社中国人民大学出社,2008年年10月月7. 易丹辉:结构方程模型:方法与应用,中国人民大学出版社,易丹辉:结构方程模型:方法与应用,中国人民大学出版社,2008年年4月月69报告结束,谢谢!报告结束,谢谢!70

展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 建筑/环境 > 施工组织

电脑版 |金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号