観測値が重複している場合、サンプルの分散が変化するのはなぜですか?


25

分散は広がりの尺度と言われています。ですから、数値は等しく3,5分散し3,3,5,5ているため、の分散はの分散に等しいと考えていました。しかし、これはそうではなく、isの分散は3,5is 2の分散3,3,5,5です1 1/3

分散は広がりの尺度であると説明されているので、これは私を困惑させます。

だから、その文脈では、広がりの測定はどういう意味ですか?

回答:


32

分散をsn2=MSE=1n=1nバツバツ¯2-母分散に似ていますが、サンプルの平均とμ、両方のあなたのサンプルは、同じ分散を持つことになり、。

違いは、純粋ためのものであるので、ベッセルの補正標本分散のための通常の一般式(sn12=nn1MSE=nn11n=1nバツバツ¯2=1n1=1nバツバツ¯2という事実のために調整し、サンプル母集団の平均が、それは公平にするために、(上で「右の値を取っているよりも、平均値が近いデータにあるが平均")。

サンプルサイズが大きくなるにつれて、n1n、1〜に行くn

ちなみに、分散に不偏推定量を使用しなければならない特別な理由はありませんsn2は完全に有効な推定量であり、場合によってはより一般的な形式よりも間違いなく利点があるかもしれません(偏りは必ずしもそれほど大きくありません対処)。

分散自体は直接的な広がりの尺度ではありません。データセット内のすべての値を2倍にすると、それらは「スプレッド」の2倍だと主張します。しかし、分散は4倍に増加します。したがって、より一般的には、分散ではなく標準偏差が広がりの尺度であると言われています。

もちろん、分散と同じ問題が標準偏差(通常sn1バージョン)でも発生します。ポイントを2倍にすると、分散で発生するのと同じ理由で標準偏差が変化します。

小さなサンプルでは、​​ベッセル補正により、その影響(サンプルを複製すると値が変化する)が原因で、広がりの尺度として標準偏差がやや直感的ではなくなります。ただし、スプレッドの多くの尺度は、サンプルを複製するときに同じ値を保持します。いくつか言及します-

  • sn(もちろん)

  • 平均からの平均(絶対)偏差

  • 中央値からの中央値(絶対)偏差

  • 四分位範囲(少なくともサンプル四分位の定義の場合)


3
「公平な推定器を使用しなければならない特別な理由はありません」-実際、必ずしも何も推定すべきではありません。{3, 5}最初の式ごとに、それ自体の分散は1です。あなたが指摘するように、質問者はこれがサンプルであると推定される母集団の分散を推定しようとしましたが、それがそうであるかどうかを知っています。
スティーブジェソップ

1

ある種のニーモニックとして、Vバツ=EVバツ+VEバツ

通常のサンプル分散式はそれを補正し、サンプルの平均の分散はサンプルサイズに反比例します。

極端な例として、単一のサンプルを取得すると常にサンプルの分散が0になりますが、基礎となる分布の分散が0であることは明らかではありません。

2/14/32/314


2
推定量統計と混同することにより、この回答は質問を明確にするのではなく混乱させます。このスレッドでGlen_bの元の答えを読んでください。最初の2つの段落の議論は、質問とは無関係であるように思われるため、神秘的です。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.