主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

仮説検定

仮説検定は,標本からの統計上の証拠に基づき,母集団についての推定を引き出す一般的な方法です。

たとえば,マサチューセッツ州のある時点でのレギュラー無鉛ガソリン1ガロンの価格が,平均で1.15ドルであるという主張があるとします。この主張が正しいかどうかはどのように決めたら良いでしょうか。この州のすべてのガソリンスタンドがその時点で,いくらの価格を付けたのか調べることができたとします。これは決定的なアプローチですが,時間を浪費し,コストがかかり,不可能とさえ思えます。

より簡単なアプローチは,無作為に選んだ少数のガソリンスタンドでガソリンの価格を調べ,その平均価格を計算することです。

標本平均は,選択の過程での偶然のばらつきにより,相互に異なります。1.18現在の標本平均がドルだったとします。この3セントの違いは,無作為に抽出したために不自然な結果になったのでしょうか。またはガソリン1ガロンの平均価格が実際に1.15ドルよりも高いという有効な証拠でしょうか。仮説検定は,そのような判断をするための統計的方法です。

この例では,仮説検定を使用して時期の異なる2か月間にマサチューセッツ州全体で測定されたガソリン価格を解析します。

この例は,ファイルgas.matのガソリンの価格を使用します。このファイルには1993年のマサチューセッツ州付近におけるガソリン1ガロンの価格について,2つの無作為標本が含まれています。1つ目の標本price1には1月のある日における州内各地のランダムな観測値20個が含まれています。2つ目の標本price2には1か月後の州内各地のランダムな観測値20個が含まれています。

负载气体price = [price1 price2];

最初のステップとして,標本が正規分布からのものであるという仮定を検定するのが良いでしょう。正規確率プロットによって,概要がわかります。

normplot(价格)

图中包含一个坐标轴。标题为正态概率图的坐标轴包含6个类型为line的对象。

両方の散らばりは,標本の1番目と3番目の四分位を通る直線に近似的に従います。これは,近似的に正規分布であることを示します。2月の標本(右側のライン)は,裾の方で正規性から少しずれていることを示します。1月から2月までの平均の移動は明らかです。仮説検定は、正規性の検定を定量化するために使用されます。各標本は比較的小さいので、Lilliefors 検定が推奨されます。

lillietest (price1)
ans = 0
lillietest (price2)
ans = 0

lillietestの既定の有意水準は5%です。各検定によって返される逻辑0は標本が正規分布に従っているという帰無仮説を棄却できなかったことを示します。棄却できなかったことは,母集団の正規性を反映するかもしれません。あるいは,標本のサイズが小さいことが原因で,帰無仮説に対して,説得力のある証拠がないことを反映するかもしれません。

ここで,標本平均を計算します。

sample_means =意味着(价格)
sample_means =1×2115.1500 - 118.5000

1月の標本の日において州各地の平均価格が1.15美元であったという帰無仮説を検定すると良いでしょう。州の各地で価格の標準偏差が,それまでは常に0.04美元であったということを知っている場合は,z検定が適しています。

[h, pvalue, ci] =中兴通讯(price1/100, 1.15, 0.04)
h = 0
pvalue = 0.8668
ci =2×11.1340 - 1.1690

論理値の出力h= 0は,既定の有意水準5%では,帰無仮説が棄却されなかったことを示します。これは,帰無仮説の場合はp値により示される,極端な値として,または標本から計算されたz統計量よりも極端な値として値を観測する確率が高いことの結果です。平均[1.1340 - 1.1690]の95%信頼区間は,仮定された母集団平均1.15美元を含みます。

後者の標本は2月の州規模の平均価格が1.15美元であるという帰無仮説を棄却する説得力のある証拠を提供するでしょうか。確率プロットと計算された標本平均の差に示されるずれがこれを示します。このずれは,それまでの標準偏差を使う妥当性について,疑問を投げかけ,需要における有意なばらつきを示す可能性があります。既知の標準偏差が仮定できない場合は,t検定が適しています。

(h, pvalue, ci) = tt (price2/100, 1.15)
h = 1
pvalue = 4.9517 e-04
ci =2×11.1675 - 1.2025

論理値の出力h= 1は,既定の有意水準5%での帰無仮説の棄却を示します。この場合,平均の95%信頼区間は,仮定された母集団平均1.15美元を含みません。

価格の推移をもう少し詳しく調べるといいでしょう。関数ttest2は2つの独立した標本が,同じ平均と同じ標準偏差(未知)をもつ,正規分布からのものであるかどうかを,平均が異なるという対立仮説に対して検定します。

(h,团体,ci) = ttest2 (price1 price2)
h = 1
sig = 0.0083
ci =2×1-5.7845 - -0.9155

帰無仮説は既定の有意水準5%で棄却され,平均差の信頼区間には,ゼロと仮定された値が含まれません。このようなずれを可視化するもう1つの方法が,ノッチのある箱ひげ図です。

Boxplot (prices,1) h = gca;h.XTick = [1 2];h.XTickLabel = {“1月”“2”};包含(“月”) ylabel (的价格($ 0.01)

图中包含一个坐标轴。轴包含14个线型对象。

このプロットは,中央値の周りの標本の分布を表示します。各ボックスのノッチの高さは,中央値が既定の有意水準5%で異なる場合,並んだボックスのノッチが重ならないように計算されます。この計算は,データが正規分布するという仮定に基づいていますが,この比較は他の分布に対してもロバストです。並んだプロットは,平均よりも中央値を比較して一種の視覚的な仮説検定を提供します。上記のプロットは,中央値が等しいという帰無仮説をかろうじて棄却するように見えます。

関数ranksumによって実行されるノンパラメトリックのWilcoxonの順位和検定は,中央値が等しいかどうかの検定を定量化するために使用できます。2つの独立な標本が,同じ中央値をもつ同じ連続分布(必ずしも正規分布ではない)からのものであるかどうかを,中央値が異なるという対立仮説に対して検定する場合,次のようになります。

[p, h] = ranksum (price1 price2)
p = 0.0095
h =逻辑1

この検定は,等しい中央値をもつという帰無仮説を既定の5%有意水準で棄却します。

参考

|||||

関連するトピック