母集団分散の計算におけるNとN-1の違いは何ですか?


50

私はそこにある理由を取得していないNN-1母分散を計算しながら。我々は、使用している場合N、我々は、使用している場合N-1

ここに画像の説明を入力してください
拡大版はこちらをクリックしてください

人口が非常に大きい場合、NとN-1の間に違いはないが、最初にN-1がある理由はわかりません。

編集:と混同しないでくださいnn-1推定で使用されています。

編集2:私は人口推定について話していません。


5
stats.stackexchange.com/questions/16008/…で答えを見つけることができます。基本的に、分散を推定するときはN-1 を使用し、正確に計算するときはNを使用する必要があります。
ocram

@ocram、分散を推定するときは、nまたはn-1を使用します。
ilhan

推定量に偏りがなければ、n-1を使用する必要があります。nが大きい場合、これは問題ではないことに注意してください。
ocram

2
N1N11/Ny
StasK

2
これは、他の答えに実際には追加されません。異なる除数が異なる答えを与えること、あるいはNで差が小さくなることさえ問題ではありません。問題は、いつ、なぜどちらの除数を使用するかです。
ニックコックス

回答:


26

Nn(N1)/N=1(1/N)12/N117/Nexp(1/N)

(n1)/nn11/N

NN

NN1NNn


24

数学に入る代わりに、わかりやすい言葉で説明します。自由に母集団全体を使用できる場合、その分散(母集団分散)は分母で計算されますN。同様に、サンプルのみがあり、このサンプルの分散を計算する場合は、分母N(この場合はサンプルのn)を使用します。どちらの場合も、何も推定しないことに注意してください。測定した平均は真の平均であり、その平均から計算した分散は真の分散です。

ここで、サンプルのみがあり、母集団の未知の平均と分散について推測したいと考えています。つまり、推定値が必要です。母平均の推定のためにサンプル平均を使用します(サンプルが代表的であるため)。母集団の分散の推定値を取得するには、その平均が実際に母集団の平均であると仮定する必要があります。したがって、計算したときからサンプルに依存しなくなります。現在、それが固定されていることを「示す」ために、平均値を「サポート」するためにサンプルから1つの(任意の)観測値を予約します。偶発的なサンプリングに対して鈍感であると信じている。予約済みの観測の1つは「-1」ですN-1 分散推定の計算。

どういうわけか真の母平均を知っているが、サンプルから分散を推定したいと考えてください。次に、その真の平均を分散の式に代入し、分母を適用しますN。真の平均を知っているため、ここでは「-1」は必要ありません。同じサンプルから推定しませんでした。


しかし、私の質問は推定とは関係ありません。母集団の分散を計算することです。NおよびN-1 私はnとn-1について話しているのではありません。
ilhan

1
@ilhan、私の返信でNは、Nとnの両方に使用しました。N人口またはサンプルのいずれかの手元の全体のサイズです。母集団の分散を計算するには、自由に母集団を用意する必要あります。サンプルのみがある場合は、このサンプルの分散を計算するか、母集団推定分散を計算できます。他の方法はありません。
ttnphns

人口に関する完全な情報を持っています。すべての値がわかっています。推定には興味がありません。
イルハン

1
人口がある場合はNを使用します。N-1は使用するのは非論理的です。
ttnphns

1
@ilhan-ttnphns投稿へのコメントに直接コメントすることはできませんでしたが、ここでは、本の内容と推測方法について説明します。差異を示すために使用される記号「S」は、常にサンプルの差異を指します。ギリシャ文字シグマは、母集団の分散を指すために使用されます。それが、S = N * sigma /(N-1)
Arvind

9

一般的に、母集団の一部、つまりサンプルしかない場合、n-1で除算する必要があります。そうする正当な理由があり、サンプル平均からの平均二乗偏差に(n-1)/ nを掛けるサンプル分散が、母分散の不偏推定量であることを知っています。

サンプル分散の推定量が不偏であることの証拠は、https//economictheoryblog.com/2012/06/28/latexlatexs2/で見つけることができます

さらに、母集団の代わりに、母集団の分散の推定量、つまり、nで除算する分散推定量のバージョンをサンプルに適用すると、得られた推定にバイアスがかかります。


これは、母集団の分散の推定に関する別の質問に答えているようです。これは循環的に見えます。この答えは、最初に母集団の分散を定義するための特定の規則を前提としていますか?
whuber

7

過去には、非推論的な分散にNを使用する必要があるという議論がありましたが、私はそれを推奨しません。常にN-1を使用する必要があります。サンプルサイズが小さくなると、N-1はサンプル分散が低くなるという事実をかなり良く補正します(分布のピーク近くでサンプリングする可能性が高くなります---図を参照)。サンプルサイズが非常に大きい場合、意味のある量は重要ではありません。

別の説明として、人口は理論的な構成要素であり、達成することは不可能です。したがって、常にN-1を使用してください。何をしていても、せいぜい母集団の分散を推定するだけです。

また、今後は分散の推定値としてN-1が表示されます。この問題に遭遇することはほとんどないでしょう。ただし、教師が推論と非推論分散測定。その場合、whuberの回答または私の回答を使用しないでください。ttnphnsの回答を参照してください。

図1

この図では、分散は1に近いはずです。Nを使用して分散を推定する場合、サンプルサイズによってどれだけ変化するかを確認してください。(これは他の場所で参照される「バイアス」です)


1
本当の人口を抱えるNが「もうお勧めしません」のはなぜですか?人口は必ずしも理論的な構成要素ではありません。時々、あなたのサンプルはあなたのための真の人口です。
ttnphns

1
ilhan、Nはサンプルに使用できます。または、存在する場合は母集団サイズに使用できます。ほとんどの場合、大きなNと小さなnの区別はトピックに依存します。たとえば、nは実験の各条件のケース数であり、Nは実験の数です。どちらもサンプルです。グローバルルールはありません。
ジョン

1
ttnphns、それは人口の意味に依存します。人口全体が非常に少ないためにN-1が重要な場合、平均二乗偏差の計算が遠隔的に有用であるかどうかは疑問です。すべての値、それらの形状および範囲を表示します。さらに、推論を行わない場合に実際にNの自由度があるという古い議論全体には疑問があります。平均を計算したときに、分散を計算するために必要なものを失いました。
ジョン

1
@ジョンは、あなたが集団内の平均計算すると、あなただけの状態パラメータについての事実を、あなたは自由のない度を費やしていません。サンプルで計算し、母集団について推測したい場合は、1つを費やします。また、N = 1の人口を持つことができます。分母N-1では、分散などのパラメーターは存在しないように見えます。それはナンセンスです。
ttnphns

3
@ilhan質問を更新することを検討し(あなたが行ったように)、そのような非建設的なコメントを残すのではなく、更新されたバージョンを指すようにしてください。特に質問自体に何らかの文脈がない場合、すべてが議論の余地があります。ここでは、問題は、人口が実際に何であるかを定義することから生じているようです。
CHL

4

母集団分散は、母集団内のすべての値の偏差の二乗和を母集団内の値の数で割ったものです。ただし、サンプルから母集団の分散を推定するとき、サンプルの平均からのサンプル値の偏差は、平均して、(不明)真の母集団平均。その結果、サンプルから計算される分散は、真の母集団分散よりもわずかに小さくなります。nの代わりにn-1除数を使用すると、その過小評価が修正されます。


@ Bunnenburg、あなたの質問に答えがあったら。今、私に明確にしてください、あなたは何を得ましたか?私にとっても大きな混乱です。
ビラルパラ

わずかに少ない分散を補正するために、なぜn-2、n-3などを使用できないのですか?なぜn-1なのか?なぜ定数ではありません... ???
サラバナバラギラマチャンドラン

@SaravanabalagiRamachandran不一致はサンプルサイズによって異なるため、定数は役に立たないでしょう。n-1を使用した修正は、言及した他の修正よりも効果的です。
マイケルルー
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.