主要内容

このページの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

ばらつきの尺度

ばらつきの尺度の目的は,数直線上にデータ値がどのように拡がっているかを知ることです。これらの統計量は,別の言い方で広がりの尺度ともいいます。

次の表は,関数名とその説明を示しています。

関数名

説明

位差

四分位数間範囲

疯了

平均絶対偏差

时刻

すべての次数の中心モーメント

范围

範囲

性病

標準偏差

var

分散

範囲(最大値と最小値の差)は,最もシンプルな広がりの尺度です。しかし,データに外れ値があると,その値が最小値あるいは最大値になります。したがって,範囲は外れ値に対してロバストではありません。

標準偏差と分散は,正規分布する標本に対する最適な広がりの一般的な尺度です。標本分散は,正規パラメーターσ2の最小分散不偏推定量(MVUE)です。標準偏差は、分散の平方根で、データと同じ単位であるという望ましい特徴があります。これは、データがメートル単位の場合、標準偏差もメートル単位になるということです。これに対して、分散は m2となり,解釈が難しくなります。

標準偏差も分散も,外れ値に対してはロバストではありません。データ本体から離れた値をもつデータは,任意の大きさの母集団による統計量の値を増大させてしまいます。

平均絶対偏差(疯狂)も外れ値には敏感です。しかし,平均絶対偏差は,標準偏差や分散ほど外れ値によって大きく変化しません。

四分位数間範囲(差)はデータの75番目と25番目の百分位数の差です。この尺度は,データの中央の50%のみを使うので,外れ値に対してロバストです。

ばらつきの尺度の比較

この例では1つの外れ値が含まれている標本データについてばらつきの尺度を計算および比較する方法を示します。

1つの外れ値が含まれている標本データを生成します。

x =((1,6), 100年)
x =1×71 1 1 1 100

標本データの四分位数間範囲,平均絶対偏差,範囲および標準偏差を計算します。

统计=[差(x)疯狂(x)范围(x)性病(x))
统计=1×40 24.2449 99.0000 37.4185

四分位数間範囲 (位差75年)は標本データの番目と25番目の百分位数の差で,外れ値に対してロバストです。範囲 (范围)はデータの最大値と最小値の差で,外れ値が存在すると大きく影響を受けます。

平均絶対偏差 (疯了)と標準偏差(性病)はどちらも外れ値の影響を受けます。ただし,平均絶対偏差は標準偏差ほどは影響を受けません。

関連するトピック