前面四章我们讨论了时间序列的平稳性问题、可逆性问题,关于线性 平稳时间序列模型,引入了自相关系数和偏自相关系数,由此得到 ARMA(p,q)统计特性从本章开始,我们将运用数据开始进行时间序列的 建模工作,其工作流程如下:1.模型识别用相关图和偏相关图识别模型形式(确定参数p,q) 2•参数估计对初步选取的模型进行参数估计3.诊断与检验包括参数的显著性检验和残差的随机性检验不可取模型是否可取可取停止图5.1建立时间序列模型流程图在ARMA(p,q)的建模过程中,对于阶数(p,q)的确定,是建模中比较重要的步骤,也是比较困难的需要说明的是,模型的识别和估计过程必 然会交叉,所以,我们可以先估计一个比我们希望找到的阶数更高的模型 然后决定哪些方面可能被简化在这里我们使用估计过程去完成一部分模 型识别,但是这样得到的模型识别必然是不精确的,而且在模型识别阶段 对于有关问题没有精确的公式可以利用,初步识别可以我们提供有关模型 类型的试探性的考虑对于线性平稳时间序列模型来说,模型的识别问题就是确定ARMA(p,q)过程的阶数,从而判定模型的具体类别,为我们下一步进行模 型的参数估计做准备所采用的基本方法主要是依据样本的自相关系数(ACF)和偏自相关系数(PACF)初步判定其阶数,如果利用这种方法无 法明确判定模型的类别,就需要借助诸如AIC、BIC等信息准则。
我们分 别给出几种定阶方法,它们分别是(1)利用时间序列的相关特性,这是 识别模型的基本理论依据如果样本的自相关系数(ACF)在滞后q +1阶 时突然截断,即在q处截尾,那么我们可以判定该序列为MA(q)序列同 样的道理,如果样本的偏自相关系数(PACF)在卩处截尾,那么我们可以 判定该序列为AR(p)序列如果ACF和PACF都不截尾,只是按指数衰减 为零,则应判定该序列为ARMA(p,q)序列,此时阶次尚需作进一步的判断;(2)利用数理统计方法检验高阶模型新增加的参数是否近似为零,根据 模型参数的置信区间是否含零来确定模型阶次,检验模型残差的相关特性 等;(3)利用信息准则,确定一个与模型阶数有关的准则函数,既考虑模型对原始观测值的接近程度,又考虑模型中所 含待定参数的个数,最终选取使该函数达到最小值的阶数,常用的该类准 则有AIC、BIC、FPE等实际应用中,往往是几种方法交叉使用,然后选 择最为合适的阶数(p,q)作为待建模型的阶数§5.1 自相关和偏自相关系数法在平稳时间序列分析中,最关键的过程就是利用数据去识别和建模, 根据第三章讨论的内容,一个比较直观的方法,就是通过观察自相关系数 (ACF)和偏自相关系数(PACF)可以对拟合模型有一个初步的识别,这 是因为从理论上说,平稳 AR、MA 和 ARMA 模型的 ACF 和 PACF 有如下特性AR(p)MA(q)ARMA(p,q)模型(序列)自相关系数(ACF)拖尾q阶截尾拖尾偏自相关系数(PACF) p阶截 尾拖尾拖尾但是,在实际中ACF和PACF是未知的,对于给定的时间序列 观测值某1,某2,,某T,我们对其进行估计。
然而由于k和偏自相关系数k和需要使用样本的自相 关系数kkkk均是随机变量,对于相应的模型不可能具有严格的“截尾 性”,只能呈现出在某步之后的“截尾性”来判断和的和围绕零值上、下波动,因此,我们需要借 助 kkkkkkk 和截尾性,进而由此可以给出模型的初步识别首先,我们需 要给出样本的自相关系数的定义偏自相关系数kk设平稳时间序列某t 的一个样本某1,,某T则样本自协方差系数定义为1Tkk 某 j 某某 jk 某,1kT1Tj1kk,1kT1(5.1)1Tk 是某 t 的自协方差系数 k 的估其中某某 j 为样本均值,则样本自 协方差系数 Tj1 计样本自相关系数定义为kk0,kT1 是某 t 的自相关系数 k 的估计5.2)作为某 t 的自协方差系数 k 的估计,根据数理统计知识,样本自协方 差系数还可以写为21Tkk 某 j 某某 jk 某,1kT1Tkj1kk,1kT1(5.3)在上述两种估计中,当样本容量 T 很大,而 k 的绝对值较小时,上述 两种估计值相差不大,其中由(5.1)定义的第一种估计值的绝对值较小 根据前面章节的讨论,因为AR(p), MA(q)或者ARMA(p,q)模型的自协方差 系数k都是以负指数阶收敛到零,所以在对平稳时间序列的数据拟合 AR(p),MA(q)或者ARMA(p,q)模型时,希望实际计算的样本自k 能以很快的速度收敛。
因此,我们一般选择由(5.1)定义的第一种 估计值作协方差系数为 k 的点估计k 的值,定义样本偏自相关根据第三章偏自相关系数的计算,利用样 本自相关系数如下:系数kkDkkk,kl,2,D其中,T(5.4)D1111k1k21,Dk111112kk1k2k1k2k 的统计性质,我们将在下一章给予讨论关于样本的自相 关系数也满足Bartlett公式,即当样本容量T充分大时,Quenouille证 明,kk~N0,lTkk这样根据正态分布的性质,我们有(5.5)1(5.6)P68.3%kkT2(5.7)P95.5%kkT这样,关于偏自相关系数kk的截尾性的判断,转化为利用上述性质(5.6) 或者(5.7),的截尾性p2,p2, pM,pM可以判断具体方法为对于每一个p>0,考查 p1,p1,…,kk3中落入kk12的比例是否占总数M的68.3%或95.5%或kkTT都明 显地不为零,而当pp0时,一般地,我们取MT如果pp0之前kkpl,pl, p2,p2,…,pM,pM中满足不等式000000kk12或kkTT的个数占总数M的68.3%或95.5%,则可以认 定kk在p0处截尾,由此可以初步判定序列{某t}为AR(p0)模型。
k,由第二章的Bartlett公式,对于q0, k满足对于样本的自相关系 数 q12k~N0,12jTj1(5.8)k也满足进一步地,当样本容量T充分大时,k~N0,lT(5.9)ql,q2,…,qM中落入类似于(5.6)或者(5.7)式,对于每一个 q0,检查k12k或者中的比例是否占总数M的68.3%或95.5%左右如果 在 q0 之前,TT000k都明显不为零,而当0时,ql,q2,•…qM中满足上述不 等式的个数达到比例,则判断k在q0处截尾初步认为序列{某t}为 MA(q0)模型得到ARMA模型k和偏自相关系数至此,我们可以利用样本的自相 关系数 kk 阶数的初步判定方法具体做法如下:k在最初的q阶明显的大于2倍标准差范围,即21( 1)如果样本自相 关系数T,而k都落在2倍标准差范围之内,并且由非零样本自相关后几乎95%的 样本自相关系数系数衰减为在零附近小值波动的过程非常突然,这时通常 视为自相关系数k截尾,既可以初步判定相应的时间序列为MA(q)模型如果满足上述性质,则可以初步判定相应的时间序列为(2)同样,样 本偏自相关系数 kkAR(p)模型如果均有超过 5%的值落入 2 倍 k 和样本偏自相关系数(3)对于样本 自相关系数 kk 标准差范围之外,或者由非零样本自相关系数和样本偏自 相关系数衰减为在零附近小值波动的过程非常缓慢,这时都视为不戴尾的,我们将初步判定时间序 列为ARMA模型,那么这样的判断往往会失效,因为这时ARMA(p,q)模型 的阶数 p 和 q 很难确定。
总之,基于样本自相关和偏自相关系数的定阶法 只是一种初步定阶方法,可在建模开始时加以粗略地估计例 5.1 绿头苍蝇数据的时间序列具有均衡性别比例数目固定的成年绿头 苍蝇保存在一个盒子中,每天给一定数量的食物,每天对绿头苍蝇的总体 计数,共得到丁=82个观测值经过平稳性处理后计算其基于样本自相关 和偏自相关系数,见表 5.1表5.1绿头苍蝇的样本ACF和PACF样本自相关系数样本偏自相关系数k12345678910kk12345678910kk0.730.490.300.200.120.02-0.01-0.04- 0.01-0.030.73-0.09-0.040.04-0.03-0.120.07-0.050.07-0.08图 5.2 绿头苍蝇的样本 ACF 和 PACFk}呈拖尾状,而从10个偏自相关系数的绝对值来由表5.1和图5.2知, 样本自相关函数{5显著地异于零之外,其余9个中绝对值不大于1看,除11T10.11的 有8个,8280.8968.3%,故该时间序列初步判定为AR(1)模型9例5.2 某时间序列数据(T=273)的样本自相关系数和偏自相关系数计算数据如 下:表 5.2 某时间序列数据的样本自/偏自相关系数样本自相关系数样本偏自相关系数 k12345678kk9101112131415kk12345678kkk9101112131415kk0.820.450.047-0.26-0.41-0.36-0.150.160.460.640.630.450.16-0.11-0.300.82- 0.68-0.120.06-0.020.180.200.040.190.01-0.01-0.030.020.05-0.06k} 呈拖尾状,而从 15 个偏自相关系数的绝对值来看,除11,由上表知,样 本自相关函数{显著地异于零之外,其余13 个中绝对值不大于 122T10.0605 的有 9 个,27390.69268.3%,故该时间序列初步判定为 AR(2) 模型。
13 例 5.3 某车站 1993-1997年个月的列车运行数量数据共60 个, 见表 5.3,试对该序列给出初步的模型识别表 5.3 某车站 1993-1997 年个月的列车运行数量数据(单位:千列•千米)kl2345678910 观测值 klll21314151617181920 观测值 k21222324252627282930 观测值 k31323334353637383940 观测值 k41424344454647484950 观测值 k51525354555657585960 观测值 1196.81181.31222.61229.31221.51148.41250.21174.41234.51209.71206 .51204.01234.11146.01304.91221.91244.11194.41281.51277.31238.912 67.51200.91245.51249.91220.11267.41182.31221.71178.11261.61274.5 1196.41222.61174.71212.61215.01191.01179.01224.01183.01228.01274 .01218.01263.01205.01210.01243.01266.01200.01306.01209.01248.012 08.01231.01244.01296.01221.01287.01191.0 图 5.3,5.4 分别为原始数 据和平稳化以后(第8 章将给出具体平稳化方法)数据的散点图。
图 5.3 列车运行数量数据图5.4 平稳化列车运行数量数据§5.2F 检验法利用F分布进行假设检验是实践中经常使用的统计检验方法,在回归 分析中,往往用F检验来考察两个回归模型是否有显著差异,因此常被用 来判定 ARMA 模型的阶数考虑如7下线性回归模型y1 某12 某 2n 某 n(5.10)Y(yl,y2,,yN)T为N个独立的随机观察值,某i(某i 1,某i2,,某 iN)T, i1,2,,r 为是模型(5.7)中参数r个回归因子,(1,2,,N)T为模型残差设 (1,2,,r)T的最。