时间序列回归I:线性模型

打开实时脚本

这个例子介绍了多元线性回归模型背后的基本假设。它是时间序列回归的一系列例子中的第一个，为以后所有的例子提供了基础。

多元线性模型

时间序列过程通常用多元线性回归(MLR)模型的形式:

$y_{t} ＝ X_{t} β + e_{t} ，$

在哪里 $y_{t}$ 是观察到的反应和 $X_{t}$ 包括可观察预测器的同期值的列。的偏回归系数 $β$ 代表个体预测因子对变量的边际贡献 $y_{t}$ 当所有其他预测器都保持不变时。

这个词 $e_{t}$ 的预测值和观测值之间的差异是否具有全面性 $y_{t}$ ．这些差异是由于流程波动(在 $β$ )、测量误差(变更 $X_{t}$ )，以及模型错误说明（例如，忽略了预测值或模型之间的非线性关系） $X_{t}$ 和 $y_{t}$ ）.它们也来自于基础数据生成过程(DGP)的内在随机性，这也是模型试图表示的。人们通常认为 $e_{t}$ 是由一个不可观察的东西产生的吗创新的过程与静止的协方差

$Ω_{T} ＝ C o v （｛ e_{1} ，．．．， e_{T} ｝），$

对于任意长度的时间间隔 $T$ ．在进一步的基本假设下 $X_{t}$ ， $e_{t}$ ，以及它们之间的关系，对 $β$ 由普通最小二乘(OLS)得到。

与其他社会科学一样，经济数据通常是通过被动观察收集的，而不是借助控制实验。理论上相关的预测可能需要被实际可用的替代指标所取代。反过来，经济观察可能具有有限的频率、低变异性和很强的相互依赖性。

这些数据的缺陷导致了OLS估计的可靠性和用于模型说明的标准统计技术方面的一些问题。系数估计可能对数据测量误差敏感，使显著性检验不可靠。多个预测因子的同时变化可能会产生相互作用，而这种相互作用很难区分为单独的影响。观察到的反应变化可能与预测因子的变化相关，但不是由预测因子的变化引起的。

在可用数据的上下文中评估模型假设是规范分析的目标。当一个模型的可靠性变得可疑时，实际的解决方案可能是有限的，但是彻底的分析可以帮助确定任何问题的来源和程度。万博尤文图斯

这是讨论指定和诊断MLR模型的基本技术的一系列示例中的第一个。该系列还提供了一些通用策略，以解决在处理经济时间序列数据时出现的具体问题。

经典假设

经典线性模型（CLM）假设允许OLS产生估计 $β_{}^{ˆ}$ 具有理想的性能［3］。基本假设是MLR模型和所选预测值正确指定了基础DGP中的线性关系。其他CLM假设包括：

$X_{t}$ 为全秩(各预测因子之间无共线性)。
$e_{t}$ 是不相关的 $X_{年代}$ 对所有 $年代$ (预测因素的严格外生性)。
$e_{t}$ 是不自相关的( $Ω_{T}$ 是对角)。
$e_{t}$ 同方差(对角线项在 $Ω_{T}$ 都是 $σ^{2}$ ）.

假设 $ϵ ＝ β_{}^{ˆ} - β$ 是估计误差。这个偏见估计量的最大值是 $E ［ ϵ ］$ 和均方误差(MSE) $E ［ ϵ^{”} ϵ ］$ 。均方误差是估计方差和偏差平方的总和，因此它简洁地总结了估计误差的两个重要来源。关于模型残差，不应将其与回归均方误差混淆，因为模型残差依赖于样本。

所有的估计器在最小化均方误差的能力上都是有限的，均方误差永远不能小于最小均方误差Cramér-Rao下界［１］．这个界是通过极大似然估计(MLE)渐近地实现的(即随着样本容量的增大)。然而，在有限样本中，特别是在经济学中遇到的相对较小的样本中，其他估计量可能在相对效率也就是说，就实现的MSE而言。

在CLM假设下，高斯-马尔可夫定理表示OLS估计量 $β_{}^{ˆ}$ 是蓝色的：

Best（最小方差）
l线性(数据的线性函数)
U偏见的( $E ［ β_{}^{ˆ} ］＝ β$ ）
E系数的刺激子 $β$ ．

BEST加起来等于线性估计中最小的MSE。线性是重要的，因为线性向量空间的理论可以应用于估计量的分析(见，例如［5］）.

如果创新 $e_{t}$ 都是正态分布的,， $β_{}^{ˆ}$ 也是正态分布。在这种情况下，是可靠的 $t$ 和 $F$ 可以对系数估计进行检验，以评估预测器的显著性，并可以使用标准公式构造置信区间来描述估计器的方差。正常也允许 $β_{}^{ˆ}$ 实现Cramér-Rao的下限(它变成非常高效。)，其估计值与MLE相同。

不管分布如何 $e_{t}$ 中心极限定理保证了这一点 $β_{}^{ˆ}$ 将在大样本中近似正态分布，因此与模型规范相关的标准推理技术将渐近有效。然而，如前所述，经济数据的样本通常相对较小，并且不能依赖中心极限定理来产生估计的正态分布。

静态计量经济学模型表示只对当前事件作出反应的系统。静态MLR模型假设构成预测列的预测因子 $X_{t}$ 与回应是同步的吗 $y_{t}$ ．对于这些模型来说，CLM假设的评估相对简单。

相比之下,动态模型使用滞后预测值随时间合并反馈。CLM假设中没有明确排除具有滞后或超前的预测值。事实上，滞后预测值外生预测 $x_{t - k}$ ，不与创新互动 $e_{t}$ ，本身并不影响OLS估计的高斯-马尔可夫最优性。如果预测因素包括近似滞后 $x_{t - k}$ ， $x_{t - k - 1}$ ， $x_{t - k - 2}$ ，…，但是，正如经济模型通常所做的那样，可能会引入预测相互依赖性，违反CLM的无共线假设，并产生OLS估计的相关问题。示例中讨论了此问题时间序列回归II:共线性和估计量方差．

当预测内生，由响应的滞后值决定 $y_{t}$ （自回归模型），通过预测因子和创新之间的递归交互，违反了CLM严格外生性假设。在这种情况下，会出现其他更严重的OLS估计问题。示例中讨论了该问题时间序列回归VIII:滞后变量和估计偏差．

违反CLM假设 $Ω_{T}$ （nonspherical创新)在示例中讨论了这些问题时间序列回归VI:残留诊断．

违反CLM假设并不一定使OLS估计结果无效。然而，重要的是要记住，个别违规行为的影响将或多或少地产生后果，这取决于它们是否与其他违规行为相结合。规范分析试图识别所有的违规，评估对模型评估的影响，并在建模目标的上下文中提出可能的补救措施。

时间序列数据

考虑一个信用违约率的简单MLR模型。该文件Data_CreditDefaults.mat包含投资级公司债券违约的历史数据，以及1984年至2004年四个潜在预测因素的数据:

负载Data_CreditDefaults

X0=数据（：，1:4）；初始预测器集(矩阵)X0Tbl = DataTable (:, 1:4);%初始预测集（表格数组）predNames0=系列（1:4）；%初始预测器集名称T0 =大小(X0, 1);%样本大小y0=数据（：，5）；%响应数据respName0 ={5}系列;%响应数据名称

潜在的预测者，测量了一年t,有:

年龄投资级债券发行人在3年前首次获得评级的百分比。这些相对较新的发行人在首次发行的资本支出后(通常是在大约3年后)具有较高的违约经验概率。
BBB标准普尔信用评级为最低投资级BBB的投资级债券发行人的百分比。这个百分比代表了另一个风险因素。
中央公积金提前一年预测公司利润的变化，经通胀调整。该预测是对整体经济健康状况的衡量，作为更大商业周期的指标。
SPR公司债券收益率与可比政府债券收益率之差。价差是衡量当前问题风险的另一个指标。

以年为单位衡量的反应t+ 1,是:

IGD投资级公司债券违约率

中描述的［2］和［4］在美国，预测指标是由其他系列构建的代理指标。建模的目标是生成一个动态预测模型，在响应中提前一年(等效地，预测器滞后一年)。

我们首先检查数据，将日期转换为连续的日期编号，以便实用程序函数recessionplot可以覆盖显示商业周期相关低谷的波段:

将日期转换为日期编号:dateNums=datenum（[日期，一（T0,2）]）；% Plot潜在预测因子:图;情节(dateNums X0,“线宽”，2) ax = gca;斧子。XTick = dateNums(1:2:end); datetick(“x”，“yyyy”，“keepticks”)衰退图(“年”)伊拉贝尔(的预测水平)传说(predNames0“位置”，“西北”)标题(“{\ bf潜力预测}”)轴(“紧”)网格(“上”）

%情节反应:图;持有(“上”)；绘图（日期，y0，“k”，“线宽”2);情节(dateNums y0-detrend (y0),“我——”)持有(“关闭”)；ax=gca；ax.XTick=dateNums（1:2:end）；datetick(“x”，“yyyy”，“keepticks”)衰退图(“年”)伊拉贝尔(“响应级别”)传说(respName0“线性趋势”，“位置”，“西北”)标题(“{\bf响应}”)轴(“紧”)；网格(“上”);

我们可以看到,BBB与其他预测因子的量表略有不同，并且随着时间的推移呈趋势。因为响应数据是针对一年的t+1，违约率的峰值实际上是在衰退之后出现的t= 2001.

模型分析

预测器和响应数据现在可以组装成一个MLR模型，OLS估计 $β_{}^{ˆ}$ 可以使用MATLAB反斜杠找到(＼)操作符:

%向模型添加截距：X0I = [(T0, 1), X0];%母体X0ITbl =[表的(T0, 1),“VariableNames”,{“常量”})，X0Tbl]；%的表估计= X0I \ y0

估计=5×1-0.2274 0.0168 0.0043 -0.0149 0.0455

或者，可以使用的方法检查模型LinearModel类，它提供诊断信息和许多方便的分析选项fitlm(相当于静态方法LinearModel.fit)来估计模型的系数 $β_{}^{ˆ}$ 从数据。默认情况下，它会添加一个拦截。以表格数组的形式传入数据，其中包含变量名和最后一列的响应值，返回一个带有标准诊断统计数据的拟合模型:

M0 = fitlm(数据表)

M0 =线性回归模型:IGD ~ 1 + AGE + BBB + CPF + SPREstimate SE tStat pValue _________ _________ _______ _________ (Intercept) -0.22741 0.098565 -2.3072 0.034747 AGE 0.016781 0.0091845 1.8271 0.086402 BBB 0.0042728 0.0026757 1.5969 0.12985 CPF -0.014888 0.0038077 -3.91 0.0012473 SPR 0.045488 0.033996 1.338 0.1996观测数:21，误差自由度:16均方根误差:0.0763 R-squared: 0.621, Adjusted R-squared: 0.526 F-statistic vs. constant model: 6.56, p-value = 0.00253

关于该模型的可靠性还有很多问题需要问。预测因子是否是所有潜在反应预测因子的良好子集？系数估计值是否准确？预测因子与反应之间的关系是否确实是线性的？模型预测是否可靠？简言之，模型是否明确规定，OLS是否有效很好地将其与数据相匹配？

另一种方法LinearModel类,方差分析，以表格数组的形式返回额外的拟合统计信息，这对于在更扩展的规范分析中比较嵌套模型很有用:

方差分析=方差分析（M0）

ANOVATable =5×5表SumSq DF MeanSq F pValue ________ __ _________ ______ _________ AGE 0.019457 1 0.019457 3.3382 0.086402 BBB 0.014863 1 0.014863 2.55 0.12985 CPF 0.089108 1 0.089108 15.288 0.0012473 SPR 0.010435 1 0.010435 1.7903 0.1996 Error 0.09326 16 0.0058287

总结

模型规范是计量分析的基本任务之一。最基本的工具是回归，广义上的参数估计，用于评估一系列候选模型。然而，任何形式的回归都依赖于某些假设和某些技术，而这些在实践中几乎从未得到充分证明。因此，使用带有默认设置的标准过程的单一应用程序很难获得信息丰富、可靠的回归结果。相反，它们需要一个经过深思熟虑的规范、分析和再规范的循环，由实践经验、相关理论和对许多情况的认识——在这些情况下，考虑不周的统计证据可能会混淆合理的结论。

探索性数据分析是此类分析的关键组成部分。实证计量经济学的基础是，好的模型只有通过与好的数据的相互作用才能产生。如果数据有限(这在计量经济学中经常发生)，分析必须承认由此产生的歧义，并帮助确定一系列可供考虑的替代模型。装配最可靠的型号没有标准的程序。好的模型从数据中产生，并能适应新的信息。

本系列中的后续示例考虑线性回归模型，由一组潜在的预测因子构建并校准为相当小的一组数据。尽管如此，这些技术和所考虑的MATLAB工具箱函数仍然是典型规范分析的代表。更重要的是，从最初的数据分析，到初步的模型建立和完善，最后到在预测性能的实际领域进行测试，这一工作流程也是相当典型的。正如大多数实证研究一样，过程才是关键。