主要内容

实现贝叶斯线性回归

计量经济学工具箱™包括一个独立的框架,该框架允许您实现贝叶斯线性回归。框架包含前两组模型的回归系数β和干扰的方差σ2:

  • 标准前贝叶斯线性回归模型——在这组前五个模型对象的范围从简单的共轭normal-inverse-gamma之前模型通过灵活的先验模型指定了从先验分布或一个自定义函数。虽然标准模型可以提供几个目的之前,他们是最适合后估计,仿真(从联合或,对于大多数模型、条件后),并从后预测分布预测。

  • 贝叶斯先验模型预测变量选择——模型在这组可以执行贝叶斯套索回归或随机搜索变量选择(科学)。他们是最适合后评估,预测选择算法。生成的后模型由从吉布斯采样器(实证模型对象),和评估总结包含预测的结果选择算法。估计过程不删除无关紧要或冗余的变量,但调优模型的系数接近于零。因此,与标准模型,可以模拟从后验分布或从后预测预报,而不必删除任何变量。

通用工作流估计后验分布的特点,然后给出新的预测数据,预测反应是:

  1. 使用bayeslm创建一个模型对象之前,代表你的假设或先验模型对象分布适合预测选择。

  2. 通过之前的模型对象,并预测和响应数据估计函数。默认情况下,估计返回一个模型对象表示后验分布。

  3. 通过表示后验分布的模型对象预测

有关标准的贝叶斯线性回归工作流程,明白了工作流标准的贝叶斯线性回归模型贝叶斯预测选择,明白了贝叶斯预测选择的工作流

工作流标准的贝叶斯线性回归模型

下列程序描述了工作流估计后验分布的特点,然后预测响应给定的预测数据。

  1. 选择一个联合先验分布(β,σ2)。然后,使用bayeslm创建贝叶斯线性回归模型对象,对联合先验分布完全指定你的信念。此表包含可用的先验模型对象。

    模型对象 联合的先验分布(β,σ2) 当创建
    conjugateblm
    • π(β|σ2)是高斯的意思μ和协方差σ2V

    • π(σ2)是逆伽马与形状一个和规模B

    创建这个模型对象当所有以下是正确的:

    • 你相当自信,参数对应的联合之前,β取决于σ2

    • 你想把你的之前的均值和协方差的先验知识β的形状和规模σ2

    • 你想要的边际和条件后验分析形式,normal-inverse-gamma共轭分布对于这两种类型。

    semiconjugateblm
    • π(β)是高斯的意思μ和协方差V

    • π(σ2)是逆伽马与形状一个和规模B

    • βσ2是独立的。

    创建这个模型对象当所有以下是正确的:

    • 你相当自信,参数对应的联合之前,βσ2是独立的。

    • 你想把你的之前的均值和协方差的先验知识β的形状和规模σ2

    • 你想要的条件后验分析形式,这是normal-inverse-gamma共轭条件分布。

    diffuseblm π ( β , σ 2 ) 1 σ 2

    创建这个模型对象当所有以下是正确的:

    • 你想要后影响更多的数据比之前的信息。

    • 联合先验分布是成反比的σ2(杰弗雷noninformative之前[2])。

    • 你想要的边际和条件后验分析形式,normal-inverse-gamma共轭分布的两种类型。

    customblm 一个函数处理的自定义函数,计算联合先验分布的日志。 当你想创建这个模型对象指定日志的联合先验分布。这个规范允许最大的灵活性。

  2. 考虑到数据,估计后验分布的特点。功能使用在这个步骤取决于你的分析目标。

    函数 目标
    估计
    • 获得一个后预测模型对象。后模型对象包括:

      • 均值和协方差矩阵的估计边际后π(β|y,x)的均值和方差π(σ2|y,x)。

      • 边缘后验和参数值。分析解决方案是可用的万博 尤文图斯conjugateblmdiffuseblm之前的模型。对于所有其他模型之前,估计必须使用蒙特卡罗抽样。

      • equitailed 95%可信区间。nonanalytical后验,equitailed 95%可信区间0.025分位数的0.975分位数保留蒙特卡罗样本。

    • 估计条件分布的均值和协方差π(β|σ2,y,x),也就是说,实现线性回归σ2保持固定。

    • 基于新的数据更新现有的后验分布。

    模拟
    • 近似的函数参数的期望值对关节后π(β,σ2|y,x)。也就是说,多个样本(画β,σ2)从他们的联合后,将一个函数应用到每一个画,然后计算平均的转换了。

    • 从条件后验分布π(β|σ2,y,x),π(σ2|β,y,x)。这个选择是方便运行一个马尔可夫链蒙特卡罗(密度)取样器,如吉布斯采样器。

    如果你有一个定制的先验模型(customblm对象),然后选择一个马尔可夫链蒙特卡罗(密度)取样器,当你调用估计模拟。这个表包含一个列表获得支持的取样器。万博1manbetx选择一个取样器后,先试着默认调优参数值。

    密度取样器 指定使用 描述
    哈密顿蒙特卡罗(HMC) “取样器”,“hmc”

    因为HMC取样器音乐本身,导致样品混合好,更快地收敛于其平稳分布,先试试这个取样器。

    提高采样速度、供应的梯度日志PDF的全部或部分参数。

    随机漫步的大都市 “取样器”,“大都市”

    如果样本容量比较大,之前没有支配的可能性,然后尝试取样器。

    万博1manbetx支持提案是多元正态分布和多元t分布。

    调优参数包括分布、规模矩阵,其自由度。

    “取样器”,“片”(默认) 达到足够的混合和收敛,小心地调优典型采样间隔宽度。值是应用程序的依赖。

    后估计nonanalytical后通过使用一个密度取样器,检查后或条件后吸引了足够的混合。更多细节,请参阅后估计和仿真诊断

    如果样品的质量是不满意的,然后创建一个取样器通过使用选择结构sampleroptions,它允许您指定合适的取样器的调优参数值。例如,指定一个随机漫步都市取样器使用多元t建议分布5自由度,输入:

    选择= sampleroptions (的取样器,“大都市”,“分布”,“测试”,“DegreeOfFreedom”5)
    创建结构的取样器选项后,指定它当你调用估计模拟通过使用“选项”名称-值对的论点。

  3. 预测反应的新的预测数据使用预测。的预测从后预测分布函数构造预测。可用于分析后预测分布conjugateblmdiffuseblm之前的模型。对于所有其他模型之前,预测度假村蒙特卡罗抽样。与评估和模拟,你可以选择一个密度采样器customblm模型。如果预测使用一个密度取样器,您应该检查后或条件后吸引了足够的混合。

贝叶斯预测选择的工作流

下列程序描述了工作流执行贝叶斯预测线性回归模型的选择,然后预测响应给定的预测数据。

  1. 计量经济学的工具箱支持两种贝叶斯预测选择算万博1manbetx法:贝叶斯套索回归和科学价值。选择算法选择一个指标,这意味着一个联合先验分布(β,σ2)。然后,使用bayeslm之前,创建贝叶斯线性回归模型对象,执行所选指标选择算法,并选择指定调优参数值。此表包含可用之前预测选择的模型对象。形式的先验分布的详细信息,明白了后估计和推断

    模型对象 预测选择算法 调优参数 当创建
    mixconjugateblm 科学价值[1]
    • 高斯混合方差,指定的“V”名称-值对的论点。指定一个两列正矩阵。

    • 第一列包含variable-inclusion分量的方差。

      • 指定相对较大的值。

      • 值属性更高的概率系数远离0。

    • 第二列包含variable-exclusion分量的方差。

      • 指定相对较小的值。

      • 值属性更高的概率系数接近于0。

    • 之前的方差β是一个函数的σ2

    • 你想要的后验估计中包含一个变量的概率的模型。

    mixsemiconjugateblm 科学价值 一样mixconjugateblm

    • βσ2是独立的,先天的。

    • 你想要的后验估计中包含一个变量的概率的模型。

    lassoblm 贝叶斯套索回归[3]

    • λ指定的,“λ”名称-值对的论点。你可以提供一个积极的标量或矢量。

    • 大值表明更正规化,这意味着之前的β密度约为零。

    • 如果预测变量不同规模的数量级,然后提供一个向量的铸件,元素对应系数。

    你想强迫微不足道和冗余预测变量与后零模式系数和相当紧密的95%可信区间后,模式。

  2. 因为预测选择算法可以对不同尺度的预测变量(贝叶斯套索回归,特别是),确定预测通过数据的规模箱线图,或者通过均值和标准差估计他们使用的意思是性病,分别。

  3. 对科学模型之前,情节的先验分布系数通过使用情节。故事情节让你知道如何平衡两个高斯组件的密度。你可以调整系数的差异通过使用点符号。例如,属性之前1000和0.1的差异variable-inclusion和variable-exclusion组件,分别为系数j,输入:

    PriorMdl.V (j:)= 0.1 [1000];
    为指定的更多细节V,请参阅[1]

    套索先验模型,确定正则化路径,也就是一系列的值λ在遍历后评估。值数据的依赖。

    • 如果预测变量有类似的尺度,指定一个左边界,迫使大多数变量进入模型(即属性几乎没有点球),指定一个正确的边界,部队几乎所有系数为0,并指定了值之间的边界搜索空间充分。默认情况下,软件属性的收缩0.01拦截和1所有的系数。

    • 如果预测变量的尺度相差几个数量级,然后你可以重新调节或标准化数据。然而,这些行动使系数解释困难。相反,指定一个正则化路径和使用它来创建一个矩阵的重复行。这些变量的规模是大是小,相应的行乘以适当的数量级来放大对小的惩罚系数或减少对大的惩罚系数。

      例如,假设一个回归模型有三个预测因子。前两个预测尺度相似,但第三预测有着3大订单。假设100 -元素正规化路径1 -到- 100矢量λ。创建一个矩阵的收缩值,输入以下代码:

      p = 3%的预测数量numcoeffs = p + 1;%的系数,拦截和预测LambdaMat = repmat(λ4 1);LambdaMat (4) = 1 e3 * LambdaMat (4:);

      更多关于指定λ,请参阅[3]

  4. 在一个循环,通过预测和响应数据估计估计后验分布的特点为每个值的调优参数。对于每一个迭代,存储后模型对象和评估汇总表单元阵列。估计用吉布斯采样器先后从完整的条件(见样本易于分析后验)。你可以改变方面的吉布斯采样器,如稀释因子,使用可用的选项。

    后模型(empiricalblm模型对象)存储了完整的条件,等等。

    评估汇总表是MATLAB®表,包括:

    • 均值的估计(的意思是)和协方差矩阵(协方差)的边际后π(β|y,x)和的均值和方差π(σ2|y,x)。

    • equitailed 95%可信区间(CI95),0.025分位数的0.975分位数保留蒙特卡罗样本。

    • 后variable-inclusion概率(政权)仅供科学之前的模型。值低于一个阈值,你决定表明,相应的预测是无关紧要的或冗余。

    虽然你估计多个后模型,一个好的实践是检查后吸引了足够的混合,特别是对模型估计使用调优参数的边界值。更多细节,请参阅后估计和仿真诊断

  5. 表现最好确定后模型。两个例子是:

    • 选择最简单的模型,最小均方误差(MSE的手段Sigma2在所有后模型)。这种方法简单,但生成的模型可能不推广。

    • 选择最简单的模型,最大限度地减少预测均方误差。

      1. 分区数据估计和预测样本。

      2. 对所有选定的调优参数值,估计利用后验分布估计样本数据。

      3. 计算预测MSE使用和响应预测的预测样品使用后预测分布。

  6. 预测反应了新的预测数据使用预测。的预测函数构造预测后的预测分布通过实现吉布斯采样器。检查了充分的混合。

引用

[1]乔治,我大肠。,和R. E. McCulloch. "Variable Selection Via Gibbs Sampling."美国统计协会杂志》上。88卷,423号,1993年,页881 - 889。

[2]马林,j . M。,和C. P. Robert.贝叶斯的核心:一个实际计算贝叶斯统计方法。纽约:施普林格科学+商业媒体,有限责任公司,2007年版。

[3]公园,T。,和G. Casella. "The Bayesian Lasso."美国统计协会杂志》上。103卷,482号,2008年,页681 - 686。

另请参阅

功能

对象

相关的话题