主要内容

时间序列回归七:预测

这个例子显示了从多元线性回归模型产生条件和无条件预测的基本设置。这是关于时间序列回归的一系列例子中的第7个,在之前的例子中。

介绍

经济学中许多回归模型的建立都是为了解释,以理解相关经济因素之间的相互关系。这些模型的结构通常是由理论提出的。规范分析比较模型的各种扩展和限制,以评估单个预测器的贡献。显著性检验在这些分析中特别重要。建模的目标是实现对重要依赖项的良好指定和精确校准的描述。一个可靠的解释模型可以通过确定在更多的定性分析中要考虑的因素来为规划和政策决定提供信息。

回归模型也用于定量预测。这些模型通常是由一组潜在相关的初始预测因子(可能是空的,也可能是相当大的)构建的。探索性数据分析和预测器选择技术在这些分析中尤为重要。在这种情况下,建模的目标是准确预测未来。一个可靠的预测模型可以用来识别投资决策中涉及的风险因素,以及它们与未来违约率等关键结果的关系。

在实践中,区分所研究的回归模型的类型是重要的。通过探索性分析建立预测模型,可以评价其整体预测能力,但不能评价单个预测因子的显著性。特别是,使用相同的数据来构建模型,然后对其组件进行推断,这是具有误导性的。

本例重点介绍多元线性回归(MLR)模型的预测方法。这些方法本质上是多元的,根据预测变量的过去和现在的值来预测响应。因此,这些方法与单变量建模中使用的最小均方误差(MMSE)方法本质上是不同的,在单变量建模中,预测是基于单个序列的自历史。

我们首先从前面的示例中加载相关数据时间序列回归VI:剩余诊断

负载Data_TSReg6

有条件的预测

回归模型描述由或产生的响应有条件的,预测变量的相关值。如果一个模型成功地捕获了数据生成过程(DGP)的基本动态,它就可以用来探索预测数据是假定的而不是观察到的偶发场景。

在本系列示例中考虑的模型已经校准并使用预测数据进行测试X0,在时间上测量t,响应数据y0,在时间上测量t+ 1。数据的时移意味着这些模型根据预测器提前一步预测响应。

为了进一步预测未来,唯一必要的调整是估计数据中有较大变化的模型。例如,要提前两步预测,要及时测量响应数据t+ 2 (y0(2:结束))可以根据当时测量的预测数据回归tX0(1:结束-1)).当然,为了保证可靠性,以前的模型分析必须重新进行。

为了说明这一点,我们使用M0模型产生了2006年违约率的条件点预测,给出了2005年预测器提供的新数据变量x2005

betahat0 = m0.cofficients。Yhat0 = [1,x2005] * betahat0;d =日期(结束);xm = min([x0(:); x2005');xm = max([x0(:); x2005');图保存情节(日期,X0,“线宽”, 2)情节(D: D + 1, (X0(最终:);X2005),* - - - - - -。“线宽”,2) fill([D D D+1 D+1],[Xm Xm Xm Xm],“b”“FaceAlpha”, 0.1)传奇(predNames0'地点''nw')xlabel(“年”)ylabel(的预测水平)标题(“{\bf New Predictor Data}”)轴网格

图中包含一个轴对象。标题为空白N、空白P、空白d或空白d的轴对象包含9个类型为line、patch的对象。这些对象代表AGE, BBB, CPF, SPR。

ym = min([y0; yhat0]);ym = max([y0; yhat0]);图保存情节(日期,y0,“k”“线宽”2);情节(D: D + 1, y0(结束);yHat0),“*同意”“线宽”,2) fill([D D D+1 D+1],[Ym Ym Ym],“b”“FaceAlpha”, 0.1)传奇(respName0'地点''nw')xlabel(“年”)ylabel(“响应级别”)标题(“{\ bf预测响应}”)轴网格

图中包含一个轴对象。标题为空白的、空白的、空白的轴对象包含类型为line、patch的3个对象。该节点表示IGD。

我们看到SPR从2004年到2005年,风险因子基本保持不变,而风险因子略有下降年龄BBB风险因素被下降所抵消论坛论坛有一个负的模型系数,所以下降与增加的风险有关。最终结果是违约率预计将大幅上升。

无条件的预测

在没有新的预测数据(测量或假设)的情况下无条件的对响应的预测可能是需要的。

一种方法是创建一个动态的、单变量的响应模型,如ARIMA模型,独立于预测因子。ARIMA模型依赖于从一个时间周期到下一个时间周期的序列中存在的自相关,模型可以利用这一点进行预测。ARIMA模型在文档的其他地方进行了讨论。

或者,可以建立一个动态的、多元的预测器模型。这允许预测而不是观察新的预测值。然后,根据预测者的预测,可以使用回归模型来预测响应。

稳健的多元预测是由传染媒介自回归(var)模型。VAR模型对模型变量之间的关系形式没有结构假设。只有每个变量都存在它潜在的影响其他。这样就形成了一个动态回归方程系统,每个变量出现在一个方程的左侧,所有变量的滞后值相同,可能还有一个截距出现在所有方程的右侧。这个想法是让回归找出哪些项是真正重要的。

例如,违约率模型中预测者的VAR(3)模型是这样的:

一个 G E t 一个 1 + 1 3. b 1 1 一个 G E t - + 1 3. b 1 2 B B B t - + 1 3. b 1 3. C P F t - + 1 3. b 1 4 年代 P R t - + ε. 1 t

B B B t 一个 2 + 1 3. b 2 1 一个 G E t - + 1 3. b 2 2 B B B t - + 1 3. b 2 3. C P F t - + 1 3. b 2 4 年代 P R t - + ε. 2 t

C P F t 一个 3. + 1 3. b 3. 1 一个 G E t - + 1 3. b 3. 2 B B B t - + 1 3. b 3. 3. C P F t - + 1 3. b 3. 4 年代 P R t - + ε. 3. t

年代 P R t 一个 4 + 1 3. b 4 1 一个 G E t - + 1 3. b 4 2 B B B t - + 1 3. b 4 3. C P F t - + 1 3. b 4 4 年代 P R t - + ε. 4 t

模型中系数的数目等于变量的数目乘以自回归滞后的数目乘以方程的数目,加上截取的数目。即使只有几个变量,一个具有良好指定的滞后结构的模型也可以快速增长到使用小数据样本无法进行估计的规模。

各方程OLS估计在VAR模型中表现良好,因为每个方程都有相同的回归量。无论创新中可能存在任何交叉方程协方差,这都是正确的。此外,纯自回归估计在数值上是非常稳定的。

然而,估计的数值稳定性依赖于所建模变量的平稳性。不同的,平稳的预测变量导致对差异的可靠预测。然而,需要无差异预测数据来预测回归模型的响应。综合预测差异有可能产生扭曲的预测水平(参见,例如,[2]).然而,标准的建议是在VAR中使用平稳变量,假设短期内将产生最小的重新整合误差。

VAR的估计和预测是通过函数来实现的估计预测.以下是2005年默认速率的无条件点预测M0回归模型:

为不同的预测因素估计一个VAR(1)模型% undifferenced岁| |):numLags = 1;D1X0PreSample = D1X0 (1: numLags,:);D1X0Sample = D1X0 (numLags + 1:最终,);numPreds0 = numParams0-1;VARMdl = varm (numPreds0 numLags);EstMdl =估计(VARMdl D1X0Sample,“Y0”, D1X0PreSample);%预测D1X0中的预测因子:地平线= 1;ForecastD1X0 =预测(EstMdl,地平线,D1X0);%整合差异预测得到无差异预测:ForecastX0 (1) = ForecastD1X0 (1);%的年龄ForecastX0 (2:4) = X0(最终,2:4)+ ForecastD1X0 (2:4);%其他预测xm = min([x0(:); forecastx0(:)]);xm = max([x0(:); forecastx0(:)]);图保存情节(日期,X0,“线宽”, 2)情节(D: D + 1, (X0(最终:);ForecastX0),* - - - - - -。“线宽”,2) fill([D D D+1 D+1],[Xm Xm Xm Xm],“b”“FaceAlpha”, 0.1)传奇(predNames0'地点''nw')xlabel(“年”)ylabel(的预测水平)标题(“{\ bf预报预测}”)轴网格

图中包含一个轴对象。具有标题空白、空白标识的轴类对象包含line、patch等9种类型的对象。这些对象代表AGE, BBB, CPF, SPR。

%从回归模型预测响应:ForecastY0 = [1, ForecastX0] * betaHat0;Ym = min ([y0, ForecastY0]);YM = max ([y0, ForecastY0]);图保存情节(日期,y0,“k”“线宽”2);情节(D: D + 1, y0(结束);ForecastY0),“*同意”“线宽”,2) fill([D D D+1 D+1],[Ym Ym Ym],“b”“FaceAlpha”, 0.1)传奇(respName0'地点''nw')xlabel(“年”)ylabel(“响应级别”)标题(“{\ bf预测响应}”)轴网格

图中包含一个轴对象。标题为空白的、空白的、空白的轴对象包含类型为line、patch的3个对象。该节点表示IGD。

结果是一个无条件的预测,类似于用实际2005年数据作出的条件预测。预测取决于VAR模型中使用的滞后次数,numLags.选择适当的延迟长度的问题在这个例子中得到了解决时间序列回归IX:滞后顺序选择

预测nonstochastic,因为它在样本之外使用了零价值的创新。生成一个随机预测,与具体结构中的创新,使用模拟或者过滤器

预测误差

无论如何获取新的预测数据,MLR模型的预测都将包含错误。这是因为MLR模型本质上只预测响应的期望值。例如,MLR模型

y t X t β + e t

预测 y t + 1 使用

y ˆ t + 1 E y t + 1 ] X t + 1 β ˆ

出现错误有两个原因:

预测没有包含创新 e t + 1

采样错误产生a β ˆ 这与 β

如示例中所讨论的时间序列回归II:共线性和估计量方差,预测误差 y ˆ t + 1 - y t + 1 否则减少了

样本大小较大。

预测变量的变异较大。

X t + 1 更接近其均值。

最后一条说,预测越接近用于估计模型的样本值分布的中心,预测就越准确。这导致了非恒定宽度的区间预测。

假设正常,同性恋创新,点预测可以转换为 N y t + 1 | X t σ. 2 使用标准公式进行密度和区间预测(例如,[1]).如示例中所讨论的时间序列回归VI:剩余诊断然而,在自相关或异方差创新存在时,标准公式会有偏差和效率低下。在这种情况下,可以使用一系列适当的创新来模拟区间预测,但通常建议重新指定一个模型,以尽可能地标准化这些创新。

通常保留部分数据用于预测评价,用初始子样本估计模型。一个基本的性能测试将次样本外预测的均方根误差(RMSE)与保持响应常数的最后样本内值的简单基线预测的均方根误差(RMSE)进行比较。如果模型预测没有显著改善基线预测,那么我们有理由怀疑模型没有抽象出DGP中的相关经济力量。

例如,以下测试性能M0模型:

numTest = 3;%用于测试的观察结果的数目%的培训模式:X0Train = X0 (1: end-numTest,:);y0Train = y0 (1: end-numTest);M0Train = fitlm (X0Train y0Train);%测试集:X0Test = X0 (end-numTest + 1:最终,);y0Test = y0 (end-numTest + 1:结束);%的预测错误:y0Pred =预测(M0Train X0Test);DiffPred = y0Pred-y0Test;DiffBase = y0Pred-y0 (end-numTest);%的预测比较:RMSEPred =√(DiffPred * DiffPred) / numTest)
RMSEPred = 0.1197
rmsebase = sqrt((diffbase'* diffbase)/ numtest)
RMSEBase = 0.2945

模型预测确实表现出相对于基线预测的改进。但是,它有用,以重复测试各种值numTest.2001年的一次有影响的观察使情况变得更加复杂,在数据结束前有三次观察。

如果一个模型通过了基线测试,它可以用完整的样本重新估计,如M0.该测试有助于区分模型的拟合程度及其捕获DGP动态的能力。

概括

为了从回归模型生成新的响应值,需要预测器的新值。当假设或观察到新的预测值时,响应数据使用回归方程外推。对于无条件外推,必须像VAR模型一样预测新的预测值。预测的质量既取决于模型的样本内拟合,也取决于模型对DGP的忠实度。

任何预测模型的基本假设是,模型所描述的经济数据模式将持续到未来。这是一个关于DGP稳定性的假设。然而,推动经济进程的社会机制从来都不稳定。预测模型的价值,特别是通过探索性数据分析建立的模型,可能是短暂的。一个健全的经济理论基础将提高模型的寿命,但预测过程的不稳定性必须得到承认。在某种程度上,这种不确定性体现在预测误差模型中。

计量经济学实践表明,简单的预测模型往往表现最好。

参考

[1]Diebold,F. X.预测的元素.梅森,OH:汤姆森高等教育,2007。

[2]格兰杰,C.和P. Newbold。“预测转型系列。”皇家统计学会杂志.系列B, Vol. 38, 1976, pp. 189-203。