主要内容

このページの翻訳は最新ではありません。ここをクリックして、英語の最新版を参照してください。

一般化線形モデル

一流化纤モデルモデルと

線形回帰モデルは、応答と 1.つまたは複数の予測項間の線形関係を記述します。しかし、非線形関係が存在します。非線形回帰では,一般の非形モデルを明します。"一般化線形モデル"と呼ばれる非線形モデルの特別なクラスは、線形手法を使用します。

线形モデルが次のををもつを思い出してくださいください。

  • 予測子の値のセットごとに、応答は平均が μ の正規分布になります。

  • 係数ベクトル Bは、予測子 Xの線形結合 Xbを定義します。

  • モデルは μ=Xbです。

一般化線形モデルでは、これらの特性は次のように一般化されます。

  • 予测子の値のセットにに,応答には分布が含まれ。これこれ,正規二項ポアソンガンマ逆ガウス分布ののいずれか,平台μを含むパラメーターをもちます。

  • 係数ベクトル Bは、予測子 Xの線形結合 Xbを定義します。

  • "リンク関数"Fは、モデルを f(μ)=Xbとして定義します。

データの準備

回帰の近似を開始するには、データを近似関数に望ましい形式にします。すべての回帰手法は、配列Xの入力データと独立したベクトルyの応答データか、テーブルまたはデータセット配列tbl内の入力データとtblの列としての応答データで始まります。入力データの各行が、1.つの観測値を表します。各列が 1.つの予測子 (変数) を表します。

テーブルまたはデータセット配列tblでは、次のように“响应者”の名前と値のペアで応答変数を示します。

mdl=fitglm(待定,“响应者”“血压”);

応答変数は既定で最後の列です。

数値の"カテゴリカル"予测子を使ます。カテゴリカルカテゴリカル子は可性ある固定セットからの値とりますとりとりをとり

  • 数量配列Xでは,“绝对的”の名前と値のペアでカテゴリカル予測子を示します。たとえば、6.つの予測子から23.が 明确的であることを示すには、次のようにします。

    mdl = fitglm(x,y,“绝对的”,[2,3]);%或同等地mdl = fitglm(x,y,“绝对的”,逻辑的([0110100]);
  • テーブルまたはデータセット配列tblでは、近似関数はこれらのデータ型が 明确的であることを想定しています。

    • 逻辑ベクトル

    • 分类ベクトル

    • 文字配列

    • 字符串配列

    数値予測値が 明确的であることを示すには、“绝对的”名前と値のペアを使用します。

欠损数量データはで表されています。他のデータ型用の欠損データを表すには、グループ化学数量の欠损値を参照してください。

  • データ行列Xをもつ“二项式”モデルの応答yは,次のいずれか。

    • バイナリ列ベクトル — 各エントリは成功 (1) または失敗 (0.) を示します。

    • 整数の2列行列 - 1列目は各観测での成数,2列目はその観测での行ををます。

  • tblテーブルまたはデータセットをもつ“二项式”モデルモデルの合,次の手顺を実行。

    • 应答器名称と値のペアを使て,各観测での成成都ををtblの列を指定します。

    • Binomialsize.名称と値のペアを使し,各観测での试回をtblの列を指定します。

入力と応答データのデータセット配列

たとえば、擅长®スプレッドシートからデータセット配列を作成するには、次のようにします。

ds=数据集(“XLSFile”'hospital.xls'...“ReadObsNames”,对);

ワークスペース変数からデータセット配列を作成するには、次のようにします。

加载卡斯莫尔ds=数据集(MPG,重量);ds.年份=序号(车型年);

入力および応答データのテーブル

ワークスペース変数からテーブルを作成するには、次のようにします。

加载卡斯莫尔tbl=表(MPG,重量);tbl.年份=第二个(车型年);

入力データの数値配列、応答の数値ベクトル

たとえば、ワークスペース変数から数値配列を作成するには、次のようにします。

加载卡斯莫尔x = [重量马力圆柱体model_year];y = mpg;

擅长スプレッドシートから数値配列を作成するには、次のようにします。

[X,xname]=xlsread('hospital.xls')y=X(:,4);%反应y是收缩压x(:,4)= [];%从X矩阵中删除y

性别などの数値以外のエントリはXには表示されません。

一般化線形モデルとリンク関数の選択

データから一般化線形モデルの分布タイプがわかる場合がよくあります。

応答データのタイプ 推奨されるモデルの分布タイプ
任意の実数 '普通的'
任意の正の数 '伽玛'または“逆高斯”
任意の非负の数 “泊松”
ゼロからNまでまで数(Nは正の固定値) “二项式”

分配名前と値のペアを使用してモデル分布タイプを設定します。モデル タイプを選択した後、平均 µ と線形予測子 Xb間でマップするためのリンク関数を選択します。

说明
“comploglog”

log(-log((1 - μ)))= xb

“身份”、分布の既定の設定'普通的'

μ= XB.

'日志'、分布の既定の設定“泊松”

对数(µ)=Xb

'logit'、分布の既定の設定“二项式”

对数(µ/(1–µ))=Xb

“日志”

log(-log(μ))= xb

“可能吧”

Φ–1(µ)=Xb、Φ は正規 (ガウス) 累積分布関数

“互惠的”、分布の既定の設定'伽玛'

μ.–1=Xb

P.(数値)、分布“逆高斯”の既定の设定(p=-2の場合)

μ.P.=Xb

リンク (fl),リンクリンク相关数量(FD.)、逆リンク (FI.) を定義する 3.つの関数ハンドル (@を使用して作成) が含まれている、{FL FD FI}という形式の细胞配列。または,flを含むフィールド关联FD.を含むフィールド派生词、およびFI.を含むフィールド相反的をもつ,关关ハンドル构造体。

ユーザー指定のリンク関数 (カスタムリンク关节を参照)

既定ではないリンク関数は、主に二項モデルで使用すると便利です。これらの既定ではないリンク関数は“comploglog”“日志”および“可能吧”です。

カスタムリンク关节

リンク関数は、平均応答 µ と予測子の線形結合である Xb=X*bの関係 f(µ)=Xbを定義します。組み込みリンク関数の 1.つを選択するか、リンク関数fl,リンク关节相关数FD.およびリンク関数の逆関数FI.を指定してユーザーが独自に定義することができます。

  • リンク関数flはF(μ)を计算し。

  • リンク関数FD.の相关数值DF(μ)/dμを计算します。

  • リンク関数FI.の逆関数は g(Xb)=µを計算します。

カスタム リンク関数は次の 2.つの方法のいずれかで指定できます。どちらの方法にも、µ または Xbを表す値の単一の配列を受け入れて同じサイズの配列を返す、関数ハンドルが含まれています。この関数ハンドルは、以下の 单间牢房配列または構造体のいずれかです。

  • リンク (fl)、リンクの微分 (FD.)、逆リンク (FI.)を定义する@をを用し作物作作作作作者人3つの关键词をでいる形式{FL FD FI}の细胞配列です。

  • 3.つのフィールドをもつ構造体S.で、各フィールドには@をを用し作物作物さた关键词关键

    • S.链接- リンク关数

    • S.派生词— リンク関数の導関数

    • S.相反的— リンク関数の逆関数

たとえば、“可能吧”リンク関数を使用してモデルをあてはめるには、以下の手順に従います。

x=[2100 2300 2500 2700 2900...3100 3300 3500 3700 3900 4100 4300];n=[48 42 31 34 31 21 23 21 16 17 21];y=[1 2 0 3 8 14 17 15 21];g=fitglm(x,[y n],...“线性”“发行版”“二项式”“链接”“可能吧”
g=广义线性回归模型:概率(y)~1+x1分布=二项式估计系数:估计自回归值(截距)-7.3628 0.66815-11.02 3.0701e-28 x1 0.0023039 0.00021352 10.79 3.8274e-27 12个观测值,10个误差自由度离散:1 Chi^2-统计与常数模型:241,p-值=2.25e-54

リンク関数“可能吧”と又一次机器能のリンク关联数目を使,同じあてはめを実行。

s={@norminv,@(x)1./normfd(norminv(x)),@normcdf};g=fitglm(x,[yn],...“线性”“发行版”“二项式”“链接”,s)
G =广义线性回归模型:链路(Y)〜1 + X1分布=二项式估计系数:估计SE TSTAT PVALUE(拦截)-7.3628 0.66815 -11.02 3.07010-28 x1 0.79 0.00021352 10.79 3.8274C-27 12观察,10个错误自由度分散度:1 CHI ^ 2统计与常数型号:241,p值= 2.25e-54

この2つのモデルはですです。

どちらも同様に、関数ハンドルをもつ 单间牢房配列ではなく、構造体としてS.を作成できます。

s.link = @norminv;s.derivative = @(x)1./normpdf(norminv(norminv(x));s.inverse = @normcdf;g = fitglm(x,[y n],...“线性”“发行版”“二项式”“链接”,s)
G =广义线性回归模型:链路(Y)〜1 + X1分布=二项式估计系数:估计SE TSTAT PVALUE(拦截)-7.3628 0.66815 -11.02 3.07010-28 x1 0.79 0.00021352 10.79 3.8274C-27 12观察,10个错误自由度分散度:1 CHI ^ 2统计与常数型号:241,p值= 2.25e-54

近似手法およびモデルの選択

近似近似を作用成するに,次の2つの方法ががあり。

  • 一般化線形モデルの概念をよく理解しているか、あとでモデルを調整して特定の項を追加または除外する場合は、菲特格姆を使用します。

  • ステップワイズ回帰を使使をてモデルをあてはめるあてはめる合并,逐步GLMを使用します。逐步GLMは、定数などの 1.つのモデルから開始し、一度に 1.つずつ項を増減する貪欲法で、それ以上改良できなくなるまで、最適な項を毎回選択します。ステップワイズ近似を使用して、有効な項のみを含む適正なモデルを見つけます。

    この结果は,开放モデルに依存します。通道,定数モデルで开放すると,小さいモデルになります。さらに多种の项なります。さらに多くのでなりするする,复雑なモデルにますが,平台二乘误差よりますが,平台

どちらの場合も、近似関数にモデルを指定します (これは逐步GLMの开启モデルです)。

次のいずれいずれか方法ででモデルを指定しし

短縮されたモデル名

名前 モデル タイプ
“常数” モデルモデル偏执(切片)项だけを含み。
“线性” モデルは各予測子に対して切片と線形項を含みます。
“互动” モデルは、切片、線形項、異なる予測子のペアのすべての積 (二乗項なし) を含みます。
'purequadratic' モデルは、切片、線形項、二乗項を含みます。
“二次” モデルは、切片、線形項、交互作用、二乗項を含みます。
保利ijk' モデルは多重式であり,最初最初の子は数一世まで,2番目のの子は位数jまで、3.番目以降も同様です。0.から9.までの数値を使用します。たとえば、'poly2111'には,1つの定数のほかにすべての线形项と积项があり,また,予测子1の二乘の项を含んでいます。

項の行列

项行程T.は、モデル内の項を指定する T行 (p+1)列の行列です。Tは項の数、Pは予測子変数の数であり、+1.は応答変数に相当します。T(i,j)の値は,项一世の変数jの指数です。

たとえば、3.つの予測子変数x1x2x3と応答変数yx1x2x3yという順序で入力に含まれていると仮定します。T.の各行は 1.つの項を表します。

  • [0 0 0 0]— 定数項 (切片)

  • [0 1 0 0]-x2x1^0*x2^1*x3^0と等価)

  • [1 0 1 0]-x1*x3

  • [2 0 0 0]-x1 ^ 2

  • [0 1 2 0]-x2*(x3^2)

各項の最後の0.は,応答応答数を表し。一切に,项行列内ゼロのベクトルは,応答応答はの位置ますます。行程列列にに子と応答ががが场场に変を示す0.を含めなければなりんん。

モデル仕様のは,次のような形式の字ベクトルまたはまたはスカラースカラー

'y条款'

  • yは応答名です。

  • 条款次が含まれます

    • 変数名

    • +次の変数を含みます

    • -次の分数を户外します

    • 項の積である交互作用を定義します

    • *交互作用とすべてののの项を定义します

    • *で繰り返されるとおり、^はは子をべき乘ににしし,^は低い低い数の项ももます

    • ()项项をグループしし

ヒント

式には既定で定数 (切片) 項が含まれます。モデルから定数項を除外するには、式に-1を含めます。

次に例を示します。

“y~x1+x2+x3”は、切片がある 3.変数線形モデルです。
‘y~x1+x2+x3-1’は,切片がない3个数量线形モデル。
'y〜x1 + x2 + x3 + x2 ^ 2'は,切片とx2^2項がある 3.変数モデルです。
'y〜x1 + x2 ^ 2 + x3'は、x2^2x2項が含まれるので、前の例と同じです。
‘y~x1+x2+x3+x1:x2’にはx1*x2项が含まれてますます。
‘y~x1*x2+x3’は、x1*x2=x1+x2+x1:x2なので、前の例と同じです。
'y〜x1 * x2 * x3 - x1:x2:x3'には,3次交互作用をx1x2x3间の交互作用がすべてます。
‘y~x1*(x2+x3+x4)’には、すべての線形項、およびx1と他の各変数の積があります。

モデルのデータへのあてはめ

菲特格姆または逐步GLMを使用して近似モデルを作成します。近似手法およびモデルの選択で说明しし方法で,どちらかを选択し。一流化纤モデルで,正式分布をもつモデル除き,分配名前と値のペアを一般化線形モデルとリンク関数の選択と同じように指定します。たとえば、以下のようにします。

mdl = fitglm(x,y,“线性”“分配”“泊松”%或mdl = fitglm(x,y,“二次”...“分配”“二项式”

品質の調査と近似モデルの調整

モデルをあてはめた後に、結果を確認します。

モデル表示

線形回帰モデルの名前または显示(mdl)�

たとえば、ポアソン モデルを 5.つの予測子のうち 2.つが応答に影響せず、切片の項がないデータにあてはめるには、次のようにします。

rng(“默认”重复性的%X=randn(100,5);mu=exp(X(:,[14,5])*[.4;.2;.3]);y=poissrnd(mu);mdl=fitglm(X,y,...“线性”“分配”“泊松”
mdl=广义线性回归模型:对数(y)~1+x1+x2+x3+x4+x5分布=泊松估计系数:估计SE tStat pValue(截距)0.039829 0.10793 0.36901 0.71212 x1 0.38551 0.076116 5.0647 4.0895e-07 x2-0.034905 0.086685-0.40266 0.6872 x3-0.17826 0.093552-1.9054 0.056722 X40.21929 0.09357 2.3436 0.019097 x5 0.28918 0.1094 2.6432 0.0082126 100个观测值,94个误差自由度离散:1 Chi^2-vs.常数模型:44.9,p-08

次の点に注意してください。

  • 表示には估计列に各係数の推定値が含まれます。これらの値は真の値[0; 4; 0; 0; .2; .3]にかなり近い値ですが、x3のの数だけは0.にさほど近くない可性があります。

  • 係数推定には標準誤差列があります。

  • 予測子 1、4 および 5.に対してレポートされたpValue(標準誤差と仮定して T統計から導出された) は小さい値です。これらは、応答データyを作成するために使われた 3.つの予測子です。

  • (截取)x2およびx3に対するpValueは0.01より大きい値ですこれらの3つのつの子は,応答データyを作成するためには使われませんでした。x3に対応するpValue.05をわずかに超える値であるため、有意性が認識される可能性もあります。

  • 表示にははカイカイ二乘统计含まれれ

诊断プロット

診断プロットによって外れ値を特定でき、モデルやあてはめで他の問題を確認できます。これらのプロットについて説明するために、ロジスティック リンク関数をもつ二項回帰について考えます。

"ロジスティック モデル"は比率データに役立ちます。比率 Pと重量 Wの関係を以下のように定義します。

log [p /(1 - p)] = b1+b2W.

次の例で,二项モデルをデータにます。このこのは,重重が大厦车ののが含まれるcarbig.matから導出されています。W.の各重量には、全部的に対応した自动车数と贫穷的に対応した燃費の悪い自動車数が含まれています。

全部的およびW.に依存する成功のパーセンテージでトライアル数を指定すると、贫穷的の値が二項分布に続くと仮定できます。この分布は、リンク関数 对数(µ/(1–µ))=Xbによって一般化された線形モデルを使用することにより、ロジスティック モデルのコンテキスト内で説明されます。このリンク関数は'logit'と呼ばれます。

w = [2100 2300 2500 2700 2900 3100...3300 3500 3700 3900 4100 4300];总数=[48 42 31 34 31 21 23 21 16 17 21];差=[1 2 0 3 8 14 17 15 21];mdl=fitglm(w,[差总数],...“线性”“分配”“二项式”“链接”'logit'
mdl=广义线性回归模型:logit(y)~1+x1分布=二项式估计系数:估计自回归值(截距)-13.38 1.394-9.5986 8.1019e-22 x1 0.0041812 0.00044258 9.4474 3.4739e-21 12观测值,10个误差自由度离散:1 Chi^2-统计与常数模型:242,p-值=1.3e-54

このモデルがどれだけ適切にデータを当てはめられているかを確認します。

plotSlice(mdl)

このこのは信息限制がかなり広く,适正と思わます。

さらに詳細を調べるには、てこ比のプロットを作成します。

绘图诊断(mdl)

これは予測子変数によって順序付けられた点をもつ、典型的な回帰です。あてはめの各点のてこ比は、比較的極端な予測子の値 (どちらの方向でも) をもつ点で高く、平均的な予測子の値をもつ点では低くなります。複数の予測子があり、点が予測子の値で順序付けられていない場合は、てこ比の高い観測値が予測子の値で測定された外れ値となるため、見つけやすくなります。

残差 - 学校データののの品牌

モデルまたはデータ内の誤差、外れ値または相関を検出できるいくつかの残差プロットが存在します。最もシンプルな残差プロットは既定のヒストグラム プロットであり、これは残差の範囲と頻度を示します。また、確率プロットは残差の分布が正規分布と一致する分散を比較する方法を示します。

次の例は、近似ポアソン モデルの残差プロットを示しています。このデータ構造は、5.つのうち 2.つが応答に影響しない予測子をもち、切片の項をもちません。

rng(“默认”重复性的%x = randn(100,5);mu = exp(x(:,[1 4 5])* [2; 1; .5]);y = poissrnd(mu);mdl = fitglm(x,y,...“线性”“分配”“泊松”);

残差の検査

plotresids(MDL)

ほとんどの残差クラスターは 0に近くなっていますが、いくつかは ±18 に近い値であるため、別の残差プロットを調べます。

绘图仪残差(mdl,“合适的”

大厦残差は近似値サイズサイズあまりあまりないようですようですないようです。

おそらく,确率プロットがより有益でしょう。

绘图仪残差(mdl,“概率”

以下のことが明らかになりました。残差は正規分布していません。代わりに、潜在的なポアソン分布のように裾がより厚くなっています。

予測子の効果とモデルの変更方法を理解するためのプロット

00

  1. 人為的なデータでいくつかの予測子からモデルを作成します。データはXの2番目と3番目の列を使使ん。そのため,モデルがこれらの予测に强く依存していいないことししししし

    rng(“默认”重复性的%x = randn(100,5);mu = exp(x(:,[1 4 5])* [2; 1; .5]);y = poissrnd(mu);mdl = fitglm(x,y,...“线性”“分配”“泊松”);
  2. 応答のスライス プロットを調査します。これは、各予測子の効果を個別に表示します。

    plotSlice(mdl)

    最初のの子のスケールは,プロットを圧倒してい。[予測子]メニューを使用して、この予測子を無効にします。

    2番目と3番目の予测の效果ほとんどないは明白です。

    青い縦の破線によって表される個々の予測子値をドラッグできます。また、赤い破線の曲線で表されている、同時信頼限界と非同時信頼限界を選択することもできます。予測子のラインをドラッグして、2.番目と 3.番目の予測子に効果がほとんどないことを確認します。

  3. 不要な予測子は、移除またはのいずれかを使用して削除します。1.つの項を削除してから、予期せずに別の項が重要になるケースもあるため、を使用するほうがより安全です。ただし、の処理が続行しない場合に、移除が効果的な場合があります。この場合、どちらの方法でも結果は同じです。

    mdl1=最小最小最小值(mdl,“x2+x3”
    mdl1=广义线性回归模型:对数(y)~1+x1+x4+x5分布=泊松估计系数:估计SE tStat pValue(截距)0.17604 0.062215 2.8295 0.004662 x1 1.9122 0.024638 77.614 0 x4 0.98521 0.026393 37.328 5.6696e-305 x5 0.61321 0.038435 15.955 2.6473e-57 100个观测值,96个误差自由度分散:1 Chi^2-统计与常数模型:4.97e+04,p值=0
    mdl1 =步骤(mdl,'nsteps'5.'上'“线性”
    1.剔除x3,偏差=93.856,Chi2Stat=0.00075551,PValue=0.97807 2.剔除x2,偏差=96.333,Chi2Stat=2.4769,PValue=0.11553 mdl1=广义线性回归模型:对数(y)~1+x1+x4+x5分布=泊松估计系数:估计SE tStat PValue(截距)0.17604 0.062215 2.8295 0.004662 x1 1.9122 0.024638 77.614 0 x4 0.98521 0.026393 37.328 5.6696e-305 x5 0.61321 0.038435 15.955 2.6473e-57 100个观测值,96个误差自由度分散:1 Chi^2-统计与常数模型:4.97e+04,p值=0

新しいデータに対する応答を予測またはシミュレート

新しいデータに対する応答を予測するために、3.つの手法を使用できます。

预测

预测メソッドは平面応答の予测と,必要必要结合には信息限制を提供します。

この例では,预测

  1. 人為的なデータでいくつかの予測子からモデルを作成します。データはXの 2.番目と 3.番目の列を使用しません。2.番目と 3.番目の予測子の効果がほとんどないことは明らかです。関連する予測子を自動的に含むようにモデルをステップワイズに構築します。

    rng(“默认”重复性的%X=randn(100,5);mu=exp(X(:,[1 4 5])*[2;1;0.5]);y=泊松比(μ);mdl=逐步GLM(X,y,...“常数”“上”“线性”“分配”“泊松”);
    1.加x1,偏差=2515.02869,Chi2Stat=47242.9622,PValue=02.加x4,偏差=328.39679,Chi2Stat=2186.6319,PValue=03.加x5,偏差=96.3326,Chi2Stat=232.0642,PValue=2.114384e-52
  2. 新闻データをいくつか生成し,データから予测を评価し。

    Xnew=randn(3,5)+repmat([12345],[3,1]);%新数据[ynew,ynewci]=预测(mdl,Xnew)
    Ynew = 1.0e + 04 * 0.1130 1.7375 3.7471 Ynewci = 1.0e + 04 * 0.0821 0.1555 1.2167 2.4811 2.8419 4.9407

节日

テーブルまたはデータセット配列からモデルを构筑するに,多重くの合,节日のほうが预测よりも平均応答を予測するのに便利です。ただし、节日は信頼限界を提供しません。

この例は节日メソッドを使用して平均応答を予測する方法を示しています。

  1. 人為的なデータでいくつかの予測子からモデルを作成します。データはXの 2.番目と 3.番目の列を使用しません。2.番目と 3.番目の予測子の効果がほとんどないことは明らかです。関連する予測子を自動的に含むようにモデルをステップワイズに構築します。

    rng(“默认”重复性的%X=randn(100,5);mu=exp(X(:,[14,5])*[2;1;0.5]);y=poissrnd(mu);X=array2table(X);%创建数据表y=array2table(y);tbl=[X y];mdl=逐步GLM(tbl,...“常数”“上”“线性”“分配”“泊松”);
    1.加x1,偏差=2515.02869,Chi2Stat=47242.9622,PValue=02.加x4,偏差=328.39679,Chi2Stat=2186.6319,PValue=03.加x5,偏差=96.3326,Chi2Stat=232.0642,PValue=2.114384e-52
  2. 新闻データをいくつか生成し,データから予测を评価し。

    Xnew=randn(3,5)+repmat([12345],[3,1]);%新数据ynew=feval(mdl,Xnew(:,1),Xnew(:,4),Xnew(:,5))%只需要预测器1,4,5
    ynew=1.0e+04*0.1130 1.7375 3.7471

    同様に、

    ynew=feval(mdl,Xnew(:,[1 4 5]))%只需要预测器1,4,5
    ynew=1.0e+04*0.1130 1.7375 3.7471

随机的

随机的メソッドは,指定されたた子の値新闻ランダム応答値生成します。応答値の分布は,モデルモデル使用されるれる。随机的はは子,推定推定数およびリンク关键分布の平等をしししし。正式分布ますます推定値もしますます推定も提供ますます。分享到平台によって判别します。随机的は別個の "分布" 推定値を使用しません。

この例は随机的メソッドメソッド使使応答応答ををするをするをするててていてます。

  1. 人為的なデータでいくつかの予測子からモデルを作成します。データはXの 2.番目と 3.番目の列を使用しません。2.番目と 3.番目の予測子の効果がほとんどないことは明らかです。関連する予測子を自動的に含むようにモデルをステップワイズに構築します。

    rng(“默认”重复性的%X=randn(100,5);mu=exp(X(:,[1 4 5])*[2;1;0.5]);y=泊松比(μ);mdl=逐步GLM(X,y,...“常数”“上”“线性”“分配”“泊松”);
    1.加x1,偏差=2515.02869,Chi2Stat=47242.9622,PValue=02.加x4,偏差=328.39679,Chi2Stat=2186.6319,PValue=03.加x5,偏差=96.3326,Chi2Stat=232.0642,PValue=2.114384e-52
  2. 新闻データをいくつか生成し,データから予测を评価し。

    Xnew=randn(3,5)+repmat([12345],[3,1]);%新数据ysim=随机(mdl,Xnew)
    ysim=11111712137457

    随机的による予測はポアソンの標本であり、整数です。

  3. 随机的メソッドを再度评価すると,异なる结果が得られ。

    ysim=随机(mdl,Xnew)
    YSIM = 1175 17320 37126

近似モデルの共有

モデルの表示には、他のユーザーが理論的にモデルを再作成するために必要な情報が含まれています。たとえば、以下のようにします。

rng(“默认”重复性的%X=randn(100,5);mu=exp(X(:,[1 4 5])*[2;1;0.5]);y=泊松比(μ);mdl=逐步GLM(X,y,...“常数”“上”“线性”“分配”“泊松”
1.加x1,偏差=2515.02869,Chi2Stat=47242.9622,PValue=02.加x4,偏差=328.39679,Chi2Stat=2186.6319,PValue=03.加x5,偏差=96.3326,Chi2Stat=232.0642,PValue=2.114384e-52mdl = Generalized Linear regression model: log(y) ~ 1 + x1 + x4 + x5 Distribution = Poisson Estimated Coefficients: Estimate SE tStat pValue (Intercept) 0.17604 0.062215 2.8295 0.004662 x1 1.9122 0.024638 77.614 0 x4 0.98521 0.026393 37.328 5.6696e-305 x5 0.61321 0.038435 15.955 2.6473e-57 100 observations, 96 error degrees of freedom Dispersion: 1 Chi^2-statistic vs. constant model: 4.97e+04, p-value = 0

モデル記述にはプログラムを使用してアクセスすることもできます。たとえば、以下のようにします。

mdl.cofficients.Estimate
ans=0.1760 1.9122 0.9852 0.6132
mdl.公式
ans=对数(y)~1+x1+x4+x5

参照

[1] 《二进制数据建模》,纽约:查普曼和霍尔,2002年。

[2] 《广义线性模型导论》,纽约:查普曼与霍尔,1990。

[3] 《广义线性模型》,纽约:查普曼与霍尔,1990。

[4] 《应用线性统计模型》,第四版,芝加哥欧文,1996年。