第4章 非平稳时间序列模型
迄今为止,我们所讨论的时间序列过程都是平稳过程,但是许多应用时间序列过程是非平稳的,尤其那些来自经济和商业领域的数据。对于协方差平稳过程,非平稳时间序列以多种不同的方式出现,这些非平稳时间序列可能随时间的变化(一下简称时变)的均值,时变的二阶距(如时变的方程),或者二者皆有。例如,图4-1给出了1960年1月—2002年8月美国16~19岁失业女性数量的月度序列图,清楚地显示出了其均值水平在随着时间的变化而变化。图4-2给出了1871-1984年间美国年度烟草产量的时序图,不仅显示出均值水平对时间的依赖,也显示方差随着均值水平的提高而增长。
本章将阐述如何建立一类非常有用的齐次非平稳时间序列模型,即自回归求和移动平均(autoregressive integrated moving average,ARIMA)模型。为了将平稳和非平稳时间序列模型联系起来,本章将引入一些有用的差分和方差稳定变换。
4.1 均值非平稳
均值非平稳过程给我们提出了一个非常严峻的问题。即在没有重复观测的情形下时变均值函数的估计问题。幸运的是,现已能从单个实现构建模型去描述这种依赖于时间的情形。本节将引入的两类模型在均值非平稳时序建模中的作用是很大的。
4.1.1 确定性趋势模型
非平稳过程的均值函数可以用一个时间的确定性模型函数来表示。在这种情形下,可以用一个标准回归模型来描述依赖与时间的情况。例如,
如果均值函数具有线性趋势,即,那么就可以使用如下确定性线性趋势模型
(4.1.1) 其中,是0
均值的白噪声,对于确定性的二次均值函数
,可以使用
(4.1.2)
来描述。更一般地,如果确定性趋势可以用时间的K阶多项式来描述,那么可以通过如下方程建模
(4.1.3)
如果确定性趋势可以用正弦—余弦曲线来表示,那么可以使用
(4.1.4)
(4.1.5)
其中
(4.1.6)
(4.1.7)
以及
(4.1.8) 称为曲线的振幅,为曲线的频率,为曲线的相位。更一般地,有
(4.1.9)
其常常被称为隐周期模型。我们可以用标准的回归分析来分析这些模型,后面第13章中将再次讨论。
4.1.2 随机趋势模型和差分
尽管很多时间序列是非平稳的,但是由于某些作用,这些序列的不同部分的特性非常相似,只不过是局部均值水平不同而已。Box和Jenkins(1976,p.85)称此类非平稳为齐次非平稳。由ARMA模型可知,如果其AR多项式的某些根不在单位圆之外,那么过程为非平稳的。然而,由于齐次性,这种齐次非平稳序列的局部特征与其均值水平是独立的。因此,令
归算子,对于任意常数C,我们有
(4.1.10)
该等式意味着:对于某个d>0,的形式必定为 为描述这种特性的自回
其中,为一个平稳自回归算子。于是,通过序列的适当差分,一个齐次非平稳序列就退化为一个平稳序列。也就是说,序列{}是非平稳的,但是对于某个整数,其d阶差分序列{}是平稳的。例如,如果d阶差分序列为高斯白噪声序列,那么有
(4.1.12)
为了弄清楚这种齐次非平稳序列的具体含义,考虑(4.1.12)中d=1的情形,
即
(4.1.13a) 或
若给定过去信息(4.1.13b) ,则序列在时刻t的均值水平为
(4.1.14)
其取决于时刻(t-1)的随机扰动。换言之, 中的过程的均值水平随时间随机变化,而我们把该过程可化为具有随机趋势。此模型不同于前一节所提到的确定性趋势模型,在确定性趋势模型中过程在时刻t的均值水平是纯粹的关于时间的确定性函数。
4.2 自回归求和移动平均模型
通过适当差分,一个齐次非平稳时间序列能够转化为一个平稳时间序列。因为自回归移动平均模型在描述平稳时间序列方面是很有用的,所以本节将讨论使用差分来建立一大类时间序列模型,即自回归求和移动平均模型,其在描述各种齐次非平稳时间序列方面很有用。
4.2.1 一般ARIMA模型
显然,对齐次非平稳序列进行适当差分得到的平稳过程不必想式(4.1.12)中那样是高斯白噪声。更一般地,差分序列服从第3章的式(3.4.1)
中所讨论的一般平稳ARMA(p、q)过程。于是,有
(4.2.1)
其中,平稳AR算子和可逆MA
算子没有公因子。参数对d=0和d>0起不同的作
用。当d=0时,原过程是平稳的,由(3.4.16)可知
与过程的均值有关,即=。然而,时,被称作确定性趋势项,如同下一节中所指出的,除非需要,在模型中常常可以忽略不计。
我们将式(4.2.1)中得到的齐次非平稳模型成为(p、d、q)阶自回归求和移动平均模型,记为 ARMA(p、d、q)模型。当p=0时,ARMA(p、d、q)模型也被称为(d、q)阶整合移动平均模型,记为IMA(d,q)模型。在下面的讨论中,将给出一些经常遇到的ARMA模型。
4.2.2 随机游走模型
在式(4.2.1)中,如果p=0,d=1,q=0,那么就是著名的随机游走模型
(4.2.2a)
或
(4.2.2b)
该模型被广泛飞用于描述股票价格序列的特性。在随机游走模型中,Z在t时刻的值等于它在t-1时刻的值加上一个随机冲击。这种特性与一个醉汉的行为很相像,他在t时刻的位置是他在t-1时刻的位置加上他在t时刻随机朝一个方向迈出的一步。
注意到,随机游走模型是AR(1)过程形。因为AR(1)过程的自相关函数是序列{}的样本ACF和差分序列{,所以当在时的极限情时,可以通过原}的不显著为0的样本ACF中的取值较大、且非零的峰值来刻画随机游走模型的特性。
接下来,对式(4.2.2a)稍作修改,使其具有一个非零常数项
(4.2.3)
或
(4.2.4)
将时刻k视为整个序列的初始时刻,通过迭代得到
(4.2.5) 很显然,包含一个斜率(或漂移)为的确定性趋势。更一般地,对于公式(4.2.1)中涉及d阶差分序列{
定性趋势}和非零的模型,能够说明具有确中对应的系数为。因此,当d>0时,被称为确定性趋势。当t很大时,这一项将其主导作用,使得序列具有确定型特征。因此,当d>0时,通常假定=0,除非数据或者问题本身确实需要确定性分量。
式(4.2.3)中
的过程通常被称为带有漂移的随机游走模型。若给定
,则由(4.2.4)可知序列在t时刻的均值水平为
(4.2.6) 该量通过受到时刻的随机扰动作用,就像通过斜率受到确定性分时,便可得到只有随机趋势的模型。 量的影响。所以当
例4-1
为了说明本节中所讨论的随机游走模型的结论,分别由模型
和模型模拟了100个观测值,两个模型中的均是服从独立标准正态分布的白噪声序列。表4-1和图4-3给出了原序列的样本ACF和样本PACF。两个序列的ACF都衰减的很慢,这表明它们都是非平稳的。如表4-2和图4-4
所示,为了找到合适的模型,我们计算了差分序列
的样本ACF和样本PACF。正如所料,它们都显示了白噪声过程的特征,事实上,两模型和的图形是一致的,那么如何辨别通常的随机游走模型和带有漂移的随机游走模型呢?尽管带漂移随机游走模型的原序列的样本ACF通常衰减的更慢,但是仅由它们的自相关结构是无法辨别出是哪一种模型的。然而,如果考察图4-5所示的两模拟序列的特性,区别还是明显的。带有漂
移的随机游走模型的模拟序列很明显被斜率为4 的确定性趋势所控制。另一方面,无漂移的随机游走模型通过随机趋势显示出不平稳性,其值是自由游走的。
4.2.3 ARMA(0,1,1)或IMA(1,1)模型
当p=0,d=1,q=1时,(4.2.1)中的模型就变为
(4.2.7a)
或
(4.2.7b)
其中
-1
对于
-1
(4.2.8) 其中。因此,
(4.2.9)
该式是模型的AR表示,从回归分析的结果可知的最佳预报为
=a (4.2.10) ,,…的一个加权移动 -….
换言之,在时刻t的最佳预报是对其过去值平均,其中权数随时间指数衰减。进一步,(4.2.10)意味着
由此可见,Z在下一时期的新预报等于新得到的观测值和上一时期预报值得平均值的加权平均。在此指数平滑方法中,该加权系数常被称为平滑系数。于是,许多平滑模型都是一般ARIMA(p,d,q)模型的特例。请参考Abraham和Ledolter(1983)对于指数平滑和ARIMA模型关系的详细讨论。
4.3 方差和自协方差非平稳
使用差分可以将一个齐次非平稳时间序列转化为一个平稳时间序列。然而,许多非平稳时间序列是非齐次的。这些序列的非平稳性不是由它们时变的均值造成,而是有它们时变的方差和自协方差所造成。为了将这种非平稳序列转化为一个平稳序列,我们需要一些不同于差分的变换。
4.3.1 ARIMA模型的方差和自协方差
一个均值平稳的过程其方差和自协方差并不一定是平稳的。然而,一个均值非平稳的过程其方差和自协方差也将是非平稳的。如前节所示,ARIMA的均值函数是时变的。现在来说明ARIMA模型关于方差和自协方差函数也是非平稳的。
首先,注意到关于ARIMA模型的一个非常重要的特征,即尽管模型是非平稳的,但是对于任意时刻,该过程的所有特性仅由有限个参数(即
所决定。因此,该过程未来所有可能的变化都可由一个给定数据集{
的拟合ARIMA模型推出。例如,假定用下述IMA(1,1)模型去拟合一个有个观测值得序列
(4.3.1a)
或
(4.3.1b) )}
将作为初始时刻,对于t>,通过迭代,有
(4.3.2)
类似地,对于
t-k>,有
(4.3.3) 因此,相对于初始时刻,有
(4.3.4)
(4.3.5)
(4.3.6) 我们注意到其中的和是已知的,进一步有
(4.3.7)
现在,通过式(4.3.4)至(4.3.7),我们有以下重要结论:
1、ARIMA
过程的方差
。
2、当时,方差 是无界的。
和自相关也依赖于时间,并 是依赖于时间,且对于
有3、
过程的自协方差随着时间的变化而变化,并不是不变的。换言之,他们不仅是所研究的两个时刻之差k的函数,也是这两个时刻的相对初始时刻t和整个序列的初始时刻的函数。
4、若t相对于来说很大,则由(4.3.7)可知。因为
,这意味着当k增加时自相关函数衰减很慢。
一般而言,由于没有重复观测,所以对一个非平稳过程而言,无论是对其均值,自协方差还是自相关函数做统计推断是困难的甚至是不可能的。幸运的是,对于其次非平稳过程,我们可以应用适当差分的方法来使其转化为平稳过程。也就是说,尽管原序列为非平稳的,但是其适当差分后的序列
平稳的,并且能用以下ARMA过程来表示
(4.3.8) 其中,和
,和就能由差分序列的根,是必须在单位园之外。于是,控制在特性的参数通过与第7章所讨论的平稳情形完全一样的方法估计出来。
4.3.2 方差稳定变换
并非所有的非平稳序列都通过差分的方法变换为平稳序列。许多时间序列是均值平稳但方差非平稳的。为了克服这个问题,我们需要适当的方差稳定变换。
一个非平稳过程的方差随其均值水平的变化而变化是普遍的。因此,对于某个取值为正的常数C和函数f,有
(4.3.9)
如何找到函数T,似的变换后的序列,方差为常数?为了说明这个问题,我们用函数在的一阶泰勒级数来近似所想要的函数。
(4.3.10) 其中是的一阶导数在的取值。现在有
(4.3.11) 因此,为了使的方差为常数,选取的方差稳定变换
(4.3.12) 必须满足
这也意味着
(4.3.13) 例如,如果一个序列的标准差与其均值水平成比例,即
么有
(4.3.14) ,那
因此,序列的对数变换(前提是不相关)
其次,如果序列的方差与其均值水平成比例,即
(4.3.15) 将拥有恒定不变的方差。 ,那么有
于是,序列的平方根变换将拥有恒定的方差。 ,再有,如果序列的标准差与其均值水平的平方成比例,即
那么有
(4.3.16) 因此,想要的拥有恒定方差的变换为倒数。
更一般地,可以使用由Box和Cox(1964)引入的指数变换
(4.3.17)
先前所讨论的许多变换均是此类变换的特例。例如,
下表给出了某些常用的的值及其相应的变换。 下面说明为什么时对应的是对数变换,注意到
(4.3.18)
使用(4.3.17)中变换的一个很大好处就是可以把看做变换参数,并通过数据估计出它的值。例如,可以在模型中加入参数
,即,然后选择值使得
残差的均方误差最小。Box和Cox(1964)证明了的最大似然估计能使“标准化”数据拟合模型的残差均方误差达到最小,所谓“标准化”数据可由如下公式得到
(4.3.19)
其中,
(4.3.20) 它是数据的几何平均值,此法源自于雅各比变换。于是,对于
的均方误差可由以下变换后数据的拟合模型计算得到
(4.3.21)
在数据分析的初始阶段,可以使用AR模型作为近似,然后通过使用使残差均方误差达到最小的AR拟合来获得λ的值。λ的最佳估计值可通过对其在取值范围内进行网格搜索而获得,标准是残差的均方误差达到最小。
有几点需要注意:
1、以上引入的方差稳定变换只是针对正直序列定义的,然而,这一点并非构成限制,这是因为我们总可以给序列加上一个常数,而不影响序列的相关结构。
如果需要做方差稳定变换,那么就必须在任何其他分析(例如差分)之前进行。
3、通常,方差稳定变换不仅使序列方差得以稳定,而且还提高了序列分布与正态分布的相似度。
,残差
第4章 非平稳时间序列模型
迄今为止,我们所讨论的时间序列过程都是平稳过程,但是许多应用时间序列过程是非平稳的,尤其那些来自经济和商业领域的数据。对于协方差平稳过程,非平稳时间序列以多种不同的方式出现,这些非平稳时间序列可能随时间的变化(一下简称时变)的均值,时变的二阶距(如时变的方程),或者二者皆有。例如,图4-1给出了1960年1月—2002年8月美国16~19岁失业女性数量的月度序列图,清楚地显示出了其均值水平在随着时间的变化而变化。图4-2给出了1871-1984年间美国年度烟草产量的时序图,不仅显示出均值水平对时间的依赖,也显示方差随着均值水平的提高而增长。
本章将阐述如何建立一类非常有用的齐次非平稳时间序列模型,即自回归求和移动平均(autoregressive integrated moving average,ARIMA)模型。为了将平稳和非平稳时间序列模型联系起来,本章将引入一些有用的差分和方差稳定变换。
4.1 均值非平稳
均值非平稳过程给我们提出了一个非常严峻的问题。即在没有重复观测的情形下时变均值函数的估计问题。幸运的是,现已能从单个实现构建模型去描述这种依赖于时间的情形。本节将引入的两类模型在均值非平稳时序建模中的作用是很大的。
4.1.1 确定性趋势模型
非平稳过程的均值函数可以用一个时间的确定性模型函数来表示。在这种情形下,可以用一个标准回归模型来描述依赖与时间的情况。例如,
如果均值函数具有线性趋势,即,那么就可以使用如下确定性线性趋势模型
(4.1.1) 其中,是0
均值的白噪声,对于确定性的二次均值函数
,可以使用
(4.1.2)
来描述。更一般地,如果确定性趋势可以用时间的K阶多项式来描述,那么可以通过如下方程建模
(4.1.3)
如果确定性趋势可以用正弦—余弦曲线来表示,那么可以使用
(4.1.4)
(4.1.5)
其中
(4.1.6)
(4.1.7)
以及
(4.1.8) 称为曲线的振幅,为曲线的频率,为曲线的相位。更一般地,有
(4.1.9)
其常常被称为隐周期模型。我们可以用标准的回归分析来分析这些模型,后面第13章中将再次讨论。
4.1.2 随机趋势模型和差分
尽管很多时间序列是非平稳的,但是由于某些作用,这些序列的不同部分的特性非常相似,只不过是局部均值水平不同而已。Box和Jenkins(1976,p.85)称此类非平稳为齐次非平稳。由ARMA模型可知,如果其AR多项式的某些根不在单位圆之外,那么过程为非平稳的。然而,由于齐次性,这种齐次非平稳序列的局部特征与其均值水平是独立的。因此,令
归算子,对于任意常数C,我们有
(4.1.10)
该等式意味着:对于某个d>0,的形式必定为 为描述这种特性的自回
其中,为一个平稳自回归算子。于是,通过序列的适当差分,一个齐次非平稳序列就退化为一个平稳序列。也就是说,序列{}是非平稳的,但是对于某个整数,其d阶差分序列{}是平稳的。例如,如果d阶差分序列为高斯白噪声序列,那么有
(4.1.12)
为了弄清楚这种齐次非平稳序列的具体含义,考虑(4.1.12)中d=1的情形,
即
(4.1.13a) 或
若给定过去信息(4.1.13b) ,则序列在时刻t的均值水平为
(4.1.14)
其取决于时刻(t-1)的随机扰动。换言之, 中的过程的均值水平随时间随机变化,而我们把该过程可化为具有随机趋势。此模型不同于前一节所提到的确定性趋势模型,在确定性趋势模型中过程在时刻t的均值水平是纯粹的关于时间的确定性函数。
4.2 自回归求和移动平均模型
通过适当差分,一个齐次非平稳时间序列能够转化为一个平稳时间序列。因为自回归移动平均模型在描述平稳时间序列方面是很有用的,所以本节将讨论使用差分来建立一大类时间序列模型,即自回归求和移动平均模型,其在描述各种齐次非平稳时间序列方面很有用。
4.2.1 一般ARIMA模型
显然,对齐次非平稳序列进行适当差分得到的平稳过程不必想式(4.1.12)中那样是高斯白噪声。更一般地,差分序列服从第3章的式(3.4.1)
中所讨论的一般平稳ARMA(p、q)过程。于是,有
(4.2.1)
其中,平稳AR算子和可逆MA
算子没有公因子。参数对d=0和d>0起不同的作
用。当d=0时,原过程是平稳的,由(3.4.16)可知
与过程的均值有关,即=。然而,时,被称作确定性趋势项,如同下一节中所指出的,除非需要,在模型中常常可以忽略不计。
我们将式(4.2.1)中得到的齐次非平稳模型成为(p、d、q)阶自回归求和移动平均模型,记为 ARMA(p、d、q)模型。当p=0时,ARMA(p、d、q)模型也被称为(d、q)阶整合移动平均模型,记为IMA(d,q)模型。在下面的讨论中,将给出一些经常遇到的ARMA模型。
4.2.2 随机游走模型
在式(4.2.1)中,如果p=0,d=1,q=0,那么就是著名的随机游走模型
(4.2.2a)
或
(4.2.2b)
该模型被广泛飞用于描述股票价格序列的特性。在随机游走模型中,Z在t时刻的值等于它在t-1时刻的值加上一个随机冲击。这种特性与一个醉汉的行为很相像,他在t时刻的位置是他在t-1时刻的位置加上他在t时刻随机朝一个方向迈出的一步。
注意到,随机游走模型是AR(1)过程形。因为AR(1)过程的自相关函数是序列{}的样本ACF和差分序列{,所以当在时的极限情时,可以通过原}的不显著为0的样本ACF中的取值较大、且非零的峰值来刻画随机游走模型的特性。
接下来,对式(4.2.2a)稍作修改,使其具有一个非零常数项
(4.2.3)
或
(4.2.4)
将时刻k视为整个序列的初始时刻,通过迭代得到
(4.2.5) 很显然,包含一个斜率(或漂移)为的确定性趋势。更一般地,对于公式(4.2.1)中涉及d阶差分序列{
定性趋势}和非零的模型,能够说明具有确中对应的系数为。因此,当d>0时,被称为确定性趋势。当t很大时,这一项将其主导作用,使得序列具有确定型特征。因此,当d>0时,通常假定=0,除非数据或者问题本身确实需要确定性分量。
式(4.2.3)中
的过程通常被称为带有漂移的随机游走模型。若给定
,则由(4.2.4)可知序列在t时刻的均值水平为
(4.2.6) 该量通过受到时刻的随机扰动作用,就像通过斜率受到确定性分时,便可得到只有随机趋势的模型。 量的影响。所以当
例4-1
为了说明本节中所讨论的随机游走模型的结论,分别由模型
和模型模拟了100个观测值,两个模型中的均是服从独立标准正态分布的白噪声序列。表4-1和图4-3给出了原序列的样本ACF和样本PACF。两个序列的ACF都衰减的很慢,这表明它们都是非平稳的。如表4-2和图4-4
所示,为了找到合适的模型,我们计算了差分序列
的样本ACF和样本PACF。正如所料,它们都显示了白噪声过程的特征,事实上,两模型和的图形是一致的,那么如何辨别通常的随机游走模型和带有漂移的随机游走模型呢?尽管带漂移随机游走模型的原序列的样本ACF通常衰减的更慢,但是仅由它们的自相关结构是无法辨别出是哪一种模型的。然而,如果考察图4-5所示的两模拟序列的特性,区别还是明显的。带有漂
移的随机游走模型的模拟序列很明显被斜率为4 的确定性趋势所控制。另一方面,无漂移的随机游走模型通过随机趋势显示出不平稳性,其值是自由游走的。
4.2.3 ARMA(0,1,1)或IMA(1,1)模型
当p=0,d=1,q=1时,(4.2.1)中的模型就变为
(4.2.7a)
或
(4.2.7b)
其中
-1
对于
-1
(4.2.8) 其中。因此,
(4.2.9)
该式是模型的AR表示,从回归分析的结果可知的最佳预报为
=a (4.2.10) ,,…的一个加权移动 -….
换言之,在时刻t的最佳预报是对其过去值平均,其中权数随时间指数衰减。进一步,(4.2.10)意味着
由此可见,Z在下一时期的新预报等于新得到的观测值和上一时期预报值得平均值的加权平均。在此指数平滑方法中,该加权系数常被称为平滑系数。于是,许多平滑模型都是一般ARIMA(p,d,q)模型的特例。请参考Abraham和Ledolter(1983)对于指数平滑和ARIMA模型关系的详细讨论。
4.3 方差和自协方差非平稳
使用差分可以将一个齐次非平稳时间序列转化为一个平稳时间序列。然而,许多非平稳时间序列是非齐次的。这些序列的非平稳性不是由它们时变的均值造成,而是有它们时变的方差和自协方差所造成。为了将这种非平稳序列转化为一个平稳序列,我们需要一些不同于差分的变换。
4.3.1 ARIMA模型的方差和自协方差
一个均值平稳的过程其方差和自协方差并不一定是平稳的。然而,一个均值非平稳的过程其方差和自协方差也将是非平稳的。如前节所示,ARIMA的均值函数是时变的。现在来说明ARIMA模型关于方差和自协方差函数也是非平稳的。
首先,注意到关于ARIMA模型的一个非常重要的特征,即尽管模型是非平稳的,但是对于任意时刻,该过程的所有特性仅由有限个参数(即
所决定。因此,该过程未来所有可能的变化都可由一个给定数据集{
的拟合ARIMA模型推出。例如,假定用下述IMA(1,1)模型去拟合一个有个观测值得序列
(4.3.1a)
或
(4.3.1b) )}
将作为初始时刻,对于t>,通过迭代,有
(4.3.2)
类似地,对于
t-k>,有
(4.3.3) 因此,相对于初始时刻,有
(4.3.4)
(4.3.5)
(4.3.6) 我们注意到其中的和是已知的,进一步有
(4.3.7)
现在,通过式(4.3.4)至(4.3.7),我们有以下重要结论:
1、ARIMA
过程的方差
。
2、当时,方差 是无界的。
和自相关也依赖于时间,并 是依赖于时间,且对于
有3、
过程的自协方差随着时间的变化而变化,并不是不变的。换言之,他们不仅是所研究的两个时刻之差k的函数,也是这两个时刻的相对初始时刻t和整个序列的初始时刻的函数。
4、若t相对于来说很大,则由(4.3.7)可知。因为
,这意味着当k增加时自相关函数衰减很慢。
一般而言,由于没有重复观测,所以对一个非平稳过程而言,无论是对其均值,自协方差还是自相关函数做统计推断是困难的甚至是不可能的。幸运的是,对于其次非平稳过程,我们可以应用适当差分的方法来使其转化为平稳过程。也就是说,尽管原序列为非平稳的,但是其适当差分后的序列
平稳的,并且能用以下ARMA过程来表示
(4.3.8) 其中,和
,和就能由差分序列的根,是必须在单位园之外。于是,控制在特性的参数通过与第7章所讨论的平稳情形完全一样的方法估计出来。
4.3.2 方差稳定变换
并非所有的非平稳序列都通过差分的方法变换为平稳序列。许多时间序列是均值平稳但方差非平稳的。为了克服这个问题,我们需要适当的方差稳定变换。
一个非平稳过程的方差随其均值水平的变化而变化是普遍的。因此,对于某个取值为正的常数C和函数f,有
(4.3.9)
如何找到函数T,似的变换后的序列,方差为常数?为了说明这个问题,我们用函数在的一阶泰勒级数来近似所想要的函数。
(4.3.10) 其中是的一阶导数在的取值。现在有
(4.3.11) 因此,为了使的方差为常数,选取的方差稳定变换
(4.3.12) 必须满足
这也意味着
(4.3.13) 例如,如果一个序列的标准差与其均值水平成比例,即
么有
(4.3.14) ,那
因此,序列的对数变换(前提是不相关)
其次,如果序列的方差与其均值水平成比例,即
(4.3.15) 将拥有恒定不变的方差。 ,那么有
于是,序列的平方根变换将拥有恒定的方差。 ,再有,如果序列的标准差与其均值水平的平方成比例,即
那么有
(4.3.16) 因此,想要的拥有恒定方差的变换为倒数。
更一般地,可以使用由Box和Cox(1964)引入的指数变换
(4.3.17)
先前所讨论的许多变换均是此类变换的特例。例如,
下表给出了某些常用的的值及其相应的变换。 下面说明为什么时对应的是对数变换,注意到
(4.3.18)
使用(4.3.17)中变换的一个很大好处就是可以把看做变换参数,并通过数据估计出它的值。例如,可以在模型中加入参数
,即,然后选择值使得
残差的均方误差最小。Box和Cox(1964)证明了的最大似然估计能使“标准化”数据拟合模型的残差均方误差达到最小,所谓“标准化”数据可由如下公式得到
(4.3.19)
其中,
(4.3.20) 它是数据的几何平均值,此法源自于雅各比变换。于是,对于
的均方误差可由以下变换后数据的拟合模型计算得到
(4.3.21)
在数据分析的初始阶段,可以使用AR模型作为近似,然后通过使用使残差均方误差达到最小的AR拟合来获得λ的值。λ的最佳估计值可通过对其在取值范围内进行网格搜索而获得,标准是残差的均方误差达到最小。
有几点需要注意:
1、以上引入的方差稳定变换只是针对正直序列定义的,然而,这一点并非构成限制,这是因为我们总可以给序列加上一个常数,而不影响序列的相关结构。
如果需要做方差稳定变换,那么就必须在任何其他分析(例如差分)之前进行。
3、通常,方差稳定变换不仅使序列方差得以稳定,而且还提高了序列分布与正态分布的相似度。
,残差