主要内容

多元线性回归

多元方法简介

大型、高维数据集在基于计算机的仪器仪表和电子数据存储的现代时代很常见。高维数据对统计可视化、分析和建模提出了许多挑战。

当然,数据可视化不可能超出几个维度。因此,模式识别、数据预处理和模型选择必须在很大程度上依赖数值方法。

高维数据分析的一个基本挑战是所谓的维度诅咒.高维空间中的观测必然比低维空间中的观测更稀疏、更不具有代表性。在高维中,数据过度表示抽样分布的边缘,因为高维空间的区域在表面附近包含了它们的大部分体积。(一个d一维球壳的体积,相对于球的总体积,趋近于1d趋向于无穷。)在高维中,分布内部的典型数据点采样频率较低。

通常,数据集中的许多维度——测量的特征——在生成模型时是没有用的。特性可能是不相关的或冗余的。回归和分类算法可能需要大量的存储和计算时间来处理原始数据,即使算法成功,得到的模型可能包含难以理解的术语数量。

由于这些挑战,多变量统计方法通常以某种类型的数据开始降维,其中数据由低维空间中的点近似表示。降维是本章所介绍的方法的目标。降维通常会导致更简单的模型和更少的测量变量,当测量成本昂贵且可视化很重要时,就会带来好处。

多元线性回归模型

多元线性回归模型表示d-维连续响应向量作为预测项的线性组合加上具有多元正态分布的误差项向量。让 y y 1 ... y d 表示观察的响应向量= 1,…,n.在最一般的情况下,给定d——- - - - - -K设计矩阵 X K-by-1的系数向量 β ,多元线性回归模型为

y X β + ε

在哪里d误差项的-维向量服从多元正态分布,

ε V N d 0 Σ

模型假设观测值之间的独立性,这意味着误差方差-协方差矩阵n堆放d-维响应向量为

n Σ Σ 0 0 Σ

如果 y 表示nd-by-1向量堆叠d-维响应,和 X 表示nd——- - - - - -K矩阵的叠置设计矩阵,则响应向量的分布为

y V N n d X β n Σ

解决多元回归问题

拟合多元线性回归模型的形式

y X β + ε ε V N d 0 Σ

在统计和机器学习工具箱™,使用mvregress.该函数拟合具有对角(异方差)或非结构化(异方差和相关)误差方差-协方差矩阵的多元回归模型, Σ 使用最小二乘或最大似然估计。

多元回归的许多变体最初可能不是本文所支持的形式万博1manbetxmvregress,例如:

  • 多元一般线性模型

  • 多变量方差分析(MANOVA)

  • 纵向分析

  • 面板数据分析

  • 看似无关回归(SUR)

  • 向量自回归(VAR)模型

在许多情况下,可以用所使用的形式来组织这些问题mvregress(但mvregress不支持参数化误差方万博1manbetx差-协方差矩阵)。对于单向MANOVA的特殊情况,您可以选择使用manova1.计量经济学工具箱™具有VAR估计功能。

请注意

多元线性回归模型不同于多元线性回归模型单变量连续响应是外生项加上独立和同分布误差项的线性组合。要拟合多元线性回归模型,请使用fitlm

另请参阅

|||

相关的例子

更多关于