主要内容

贝叶斯线性回归

线性回归是一个统计的工具用来:

  • 研究线性依赖关系或影响预测或说明变量在响应变量。

  • 预测或预测未来反应未来的预测数据。

多元线性回归(高)模型

y t = x t β + ε t

为次t=1,…,T:

  • yt是观察到的反应。

  • xt是一个1 - (p+ 1)的观测值的行向量p预测因子。为了适应拦截模型,x1t= 1为所有t。

  • β是(p+ 1)1的列向量回归系数对应的变量组成的列xt

  • εt是均值为零的随机干扰和浸(ε)=Ω。一般来说,Ω是一个T——- - - - - -T对称正定矩阵。为简单起见,假设扰动是不相关的和有共同的方差,即Ω=σ2T

的值β代表相应的预测的预期边际贡献yt。当预测xj增加一个单位,y预计会增加吗βj单位,假设所有其他变量保持固定。εt是真正的随机差异和预期响应时间t。

古典和贝叶斯分析

研究线性响应的预测因素的影响,或建立一个预测高钙,你必须首先估计参数β和σ2频率论的统计学家使用经典的方法来估计,也就是说,他们对待固定但未知数量的参数。受欢迎的频率论的工具包括最小二乘法和极大似然估计。如果干扰是独立的、同方差的高斯或<一个href="//www.tianjin-qmedu.com/in/help/stats/normal-distribution.html" class="a">正常的,最小二乘估计和最大似然收益率等价。推论,如参数估计或预测区间的置信区间,是基于干扰的分布。高的频率论的方法分析,明白了<一个href="//www.tianjin-qmedu.com/in/help/econ/time-series-regression-i-linear-models.html" class="a">时间序列回归我:线性模型或<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[6],Ch。3。大多数工具在计量经济学工具箱™频率论的。

一个贝叶斯高模型的估计和推断治疗方法β和σ2作为随机变量,而不是固定的,未知的数量。一般来说,一个贝叶斯分析的目的是更新参数的概率分布,通过融合信息从观察数据参数。抽样数据之前,你有信念的联合分布参数。取样后,你把可能引起数据的分布与你之前的信念组成的联合参数给定数据的条件分布。特性和功能的分布估计和推理的基础。

主要的贝叶斯分析组件

贝叶斯分析的主要目标之一是计算,或样本后验分布(或后)。后的分布参数更新使用(或给定)数据,并由这些数量:

  • 一个似然函数——关于参数样本提供的信息。如果你采取随机抽样,那么高的可能性

    ( β , σ 2 | y , x ) = t = 1 T P ( y t | x t , β , σ 2 )

    P ( y t | x t , β , σ 2 ) 的条件概率密度函数是yt考虑到参数和诱导的条件分布εt。通常情况下,xt是一个固定的数量。如果干扰独立同方差的,高斯,

    ( β , σ 2 | y , x ) = t = 1 T ϕ ( y t ; x t β , σ 2 )

    ϕ(yt;xtβ,σ2)是高斯概率密度的意思xtβ和方差σ2,评估yt

  • 先验分布(或先知先觉)的参数,参数的分布假设之前观察数据。对参数的先验分布的假设有一个优势频率论的分析:先验模型允许您将了解之前查看数据。你可以控制你的知识的信心的参数通过调整先验方差。指定一个高方差意味着你知之甚少的参数,你想重数据中的信息更多的参数。指定一个低方差意味着高的信心你的知识的参数,和你想占知识的分析。

    在实践中,您使用先验为了方便而不是遵循研究员的观点的实际分布参数。例如,您可以选择先知先觉,以便相应的后验分布在同一家族的分布形式。这些prior-posterior对被称为共轭分布。然而,先知先觉的选择可以影响估计和推断,所以你应该执行敏感性分析与评估。

    先知先觉可以包含参数,调用hyperparameters能进行概率分布。这样的模型被称为分层贝叶斯模型。

    高钙,先验分布通常表示π(β),π(σ2)。一个受欢迎的选择normal-inverse-gamma共轭模型,在这π(β|σ2)是多元高斯或<一个href="//www.tianjin-qmedu.com/in/help/stats/multivariate-normal-distribution.html" class="a">多元正态分布和π(σ2)是逆伽马分布。

  • 你可以包含的联合后验分布β和σ2使用贝叶斯法则,也就是说,

    π ( β , σ 2 | y , x ) = π ( β ) π ( σ 2 ) ( β , σ 2 | y , x ) β , σ 2 π ( β ) π ( σ 2 ) ( β , σ 2 | y , x ) d β d σ 2 π ( β ) π ( σ 2 ) ( β , σ 2 | y , x )

    如果β取决于σ2之前,那么它应该被取代π(β|σ2)。分母是响应的分布预测,和它成为一个常数后观察y。因此,后经常被写成分子成正比。

    后就像任何其他的联合概率分布的随机变量,它包含所有的信息了解合并后的参数数据。参数估计和推断是主要基于积分函数的参数的后验分布。

    后估计和推断

    后估计和推断包括集成的功能参数后。流行的估计和推断为高参数包括以下:

    • 的期望值β考虑到数据

      β ^ = E ( β | y , x ) = β , σ 2 β π ( β , σ 2 | y , x ) d β d σ 2

      这个量提供了一种自然的解释,最小均方误差(MSE)估计,也就是说,它最小化 E ( ( β ^ β ) 2 | y , x ] 中位数,模式,或分位数可以贝叶斯估计,对其他损失。

    • 最大的先验估计(地图)的价值最大化后验分布的参数。

    • 考虑到数据,预测反应 y ^ 的预测 x ^ 是一个随机变量的后预测分布

      π ( y ^ | y , x , x ^ ) = β , σ 2 f ( y ^ | β , σ , x ^ ) π ( β , σ 2 | y , x ) d β d σ 2

      你可以把这个量的条件概率分布的期望值y关于参数的后验分布。

    • 95%置信区间β(或可信区间)- - -设置年代这样P(β∊年代|y,x)=0。95。这个方程收益无穷区间,包括:

      • Equitailed间隔,这是时间间隔(l,U),这样P(β<l|y,x)=0。025和P(β>U|y,x)=0。025。

      • 后验密度最高(HPD)地区,最窄的区间收益率(或间隔)指定的概率。它必然包含最大后验值。

      的解释不同频率论的置信区间,贝叶斯置信区间的解释是,考虑到数据,一个随机的概率β在时间间隔(年代)年代是0.95。这个解释很直观,这是一个利用贝叶斯置信区间在频率论的置信区间。

    • 边缘后验概率变量包含,也叫做政权概率,结果从实现随机搜索变量选择(科学)和显示预测变量是否微不足道或冗余的贝叶斯线性回归模型。在科学中,β多元,双组分混合高斯分布。这两个组件有一个均值为零,但一个组件都有一个大的方差和其他组件都有一个小的差异。无关紧要的预测可能会接近于零;因此,他们从组件与小的方差。然而样本2的空间p+ 1排列的模型,每个排列包括或不包括一个系数,模型后密度最高的采样。政权概率是来自采样模型。

    • 产品的集成方法依赖于函数形式 π ( β ) π ( σ 2 ) ( β , σ 2 | y , x ) 例如,和被积函数h(β,σ2)。

      • 如果产品内核的一个已知的概率分布形式,然后积分的h(β,σ2)对后可以易于分析。已知的内核经常出现当你选择先验和后验形成共轭双。在这些情况下,最初的几个时刻的分布通常是已知的,并以此为基础估计。易于分析细节的后验分布的贝叶斯计量经济学工具箱中的线性回归模型框架,明白了<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">易于分析后验

      • 否则,你必须使用数值积分技术计算的积分h(β,σ2)对后验分布。在某些情况下,您可以实现使用数值积分蒙特卡罗或马尔可夫链蒙特卡罗(密度)抽样。

        • 执行蒙特卡罗估计,你画很多样本概率分布,一个合适的函数应用到每个画(h(β,σ2)是一个因素的函数)和平均结果近似积分。一个受欢迎的蒙特卡罗采样重要性重采样技术<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[6]

        • 你获得实现不知道概率分布到一个常数,或你知道的条件分布参数至少一个常数。包括吉布斯抽样获得流行的技术<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[2],p米米h算法<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[5],片抽样<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[9]

        详情在贝叶斯后验估计线性回归模型在计量经济学工具箱后是棘手的,看到的<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">分析棘手的后验

      易于分析后验

      贝叶斯计量经济学之前工具箱提供了几种模型中线性回归框架规范,易于分析产量,边际或共轭条件后验。这个表之前识别模型及其相应的后验。当你通过先验模型和数据<一个href="//www.tianjin-qmedu.com/in/help/econ/conjugateblm.estimate.html">估计,MATLAB®使用这些公式。当软件构造后验,它假设响应数据yt,t=1,…,T是一个随机样本的高斯分布的意思xtβ和方差σ2

      之前的模型对象先知先觉边缘后验条件后验
      conjugateblm

      β | σ 2 ~ N p + 1 ( μ , σ 2 V ) σ 2 ~ G ( 一个 , B )

      β和σ2是独立的。

      β | y , x ~ t p + 1 ( ( V 1 + X X ) 1 ( ( X X ) β ^ + V 1 μ ] , 2 B 1 + ( y X β ^ ) ( y X β ^ ) + ( β ^ μ ) ( V + ( X X ) 1 ] 1 ( β ^ μ ) 2 一个 + T , 2 一个 + T ) σ 2 | y , x ~ G ( 一个 + T 2 , ( B 1 + 1 2 ( y X β ^ ) ( y X β ^ ) + 1 2 ( β ^ μ ) ( V + ( X X ) 1 ] 1 ( β ^ μ ) ] 1 )

      β | σ 2 , y , x ~ N p + 1 ( ( V 1 + X X ) 1 ( ( X X ) β ^ + V 1 μ ] , σ 2 ( V 1 + X X ) 1 ) σ 2 | β , y , x ~ G ( 一个 + T + p + 1 2 , ( B 1 + 1 2 ( y X β ) ( y X β ) + 1 2 ( β μ ) V 1 ( β μ ) ] 1 )
      semiconjugateblm

      β | σ 2 ~ N p + 1 ( μ , V ) σ 2 ~ G ( 一个 , B )

      β和σ2是相关的。

      分析棘手的

      β | σ 2 , y , x ~ N p + 1 ( ( V 1 + σ 2 X X ) 1 ( σ 2 ( X X ) β ^ + V 1 μ ] , ( V 1 + X X ) 1 ) σ 2 | β , y , x ~ G ( 一个 + T 2 , ( B 1 + 1 2 ( y X β ) ( y X β ) ] 1 )

      diffuseblm

      前联合pdf

      f β , σ 2 ( β , σ 2 ) 1 σ 2

      β | y , x ~ t p + 1 ( β ^ , ( y X β ^ ) ( y X β ^ ) T p 1 ( X X ) 1 , T p 1 ) σ 2 | y , x ~ G ( T p 1 2 , ( 1 2 ( y X β ^ ) ( y X β ^ ) ] 1 )

      β | σ 2 , y , x ~ N p + 1 ( β ^ , σ 2 ( X X ) 1 ) σ 2 | β , y , x ~ G ( T 2 , ( 1 2 ( y X β ) ( y X β ) ] 1 )

      mixconjugateblm

      γ = { γ 1 , , γ p + 1 } ~ p ( γ ) j , γ j { 0 , 1 } j , β j | σ 2 , γ j = γ j σ V j 1 Z 1 + ( 1 γ j ) σ V j 2 Z<米n> 2 Z k ~ N ( 0 , 1 ) ; k = 1 , 2。 σ 2 ~ G ( 一个 , B )

      虽然边缘后验易于分析,MATLAB将他们视为棘手的可伸缩性(见<一个href="//www.tianjin-qmedu.com/in/help/econ/what-is-bayesian-linear-regression.html" class="intrnllnk">[1])。

      易于分析,如果γjγk是独立的,所有j≠k

      γ j | β , γ j , σ 2 , X , y ~ 伯努利<米row> ( 一个 j 一个 j + b j ) ; j = 1 , , p + 1。 j , 一个 j = P ( γ j = 1 ) ϕ ( 0 , σ 2 V j 1 ) j , b j = P ( γ j = 0 ) ϕ ( 0 , σ 2 V j 2 ) β | σ 2 , γ , X , y ~ N p + 1 ( ( V 1 + X X ) 1 X Y , σ 2 ( V 1 + X X ) 1 ) σ 2 | β , γ , X , y ~ G ( 一个 + T + p + 1 2 , ( B 1 + 1 2 ( y X β ) ( y X β ) + 1 2 β V 1 β ] 1 )

      mixsemiconjugateblm

      γ = { γ 1 , , γ p + 1 } ~ p ( γ ) j , γ j { 0 , 1 } j , β j | σ 2 , γ j = γ j V j 1 Z 1 + ( 1 γ j ) V j 2 Z<米n> 2 Z k ~ N ( 0 , 1 ) ; k = 1 , 2。 σ 2 ~ G ( 一个 , B )

      分析棘手的

      易于分析,如果γjγk是独立的,所有j≠k

      γ j | β , γ j , σ 2 , X , y ~ 伯努利<米row> ( 一个 j 一个 j + b j ) ; j = 1 , , p + 1。 j , 一个 j = P ( γ j = 1 ) ϕ ( 0 , V j 1 ) j , b j = P ( γ j = 0 ) ϕ ( 0 , V j 2 ) β | σ 2 , γ , X , y ~ N p + 1 ( ( V 1 + σ 2 X X ) 1 X Y , ( V 1 + σ 2 X X ) 1 ) σ 2 | β , γ , X , y ~ G ( 一个 + T 2 , ( B 1 + 1 2 ( y X β ) ( y X β ) ] 1 )

      lassoblm

      β j | σ 2 , λ ~ 拉普拉斯<米row> ( 0 , σ / λ ) ; j = 0 , 。。 , p σ 2 ~ G ( 一个 , B )

      系数是独立的,先天的。

      分析棘手的

      1 ψ j | β j , σ 2 , λ ~ InvGaussian<米row> ( σ λ / | β j | , λ 2 ) ; j = 1 , , p + 1。 D = 诊断接头<米row> ( ψ 1 , , ψ p + 1 ) β | σ 2 , λ , X , y , ψ ~ N p + 1 ( ( X X + D ) 1 X y , σ 2 ( X X + D ) 1 ) σ 2 | β , X , y , ψ ~ G ( 一个 + T + p + 1 2 , ( B 1 + 1 2 ( y X β ) ( y X β ) + 1 2 β D β ] 1 )

      表中: