統計学者は、シミュレーションなしで母分散の不偏推定量として(n-1)を使用することにどの程度同意しましたか?


67

分散を計算する式の分母にはがあります。(n1)

s2=i=1N(xix¯)2n1

なぜだろうといつも思っていました。しかし、「」が「なぜ」であるかについてのいくつかの優れたビデオを読んで見ることは、人口分散の優れた公平な推定量であるようです。一方、母分散を過小評価し、過大評価します。n n 2 (n1)n(n2)

私が知りたいのは、コンピューターが存在しない時代に、この選択がどれほど正確に行われたかということです。これを証明する実際の数学的証明はありますか、またはこの純粋に経験的かつ統計学者は当時の「最良の説明」を思いつくために多くの計算を手作業で行いましたか?

統計学者は、19世紀初頭にコンピューターの助けを借りてどのようにしてこの公式を思いついたのでしょうか?マニュアルまたはそれは目に会う以上のものですか?


13
「コンピューターの助けを借りに」と言うつもりだと思います。答えは、おそらく驚くことではないが、代数を使用することです。導出は非常に簡単であり、多くの場所で、統計学の学生がそれを演習として導出する/学部生として学習するのが一般的です。
Glen_b

これはかなり良い説明を与えると思います:en.wikipedia.org/wiki/Variance#Sample_variance
Verena Haunschmid


私が使用するように数式を編集したととして分母では、のためである標本分散(ラテン記号)ではない母集団の分散(ギリシャ文字)。ˉ X N - 1s2x¯n1
アレクシス

回答:


40

この補正はベッセル補正と呼ばれ、数学的な証明があります。個人的には、簡単な方法で教えられましたを使用すると、のバイアスを修正できます(こちらを参照)。E [ 1n1E[1n1n(xix¯)2]

自由度の概念に基づいて補正を説明することもできます。シミュレーションは厳密には必要ありません。


15
証明代替#3には、素人でも理解できる美しい直感的な説明があります。基本的な考え方は、標本平均は母平均と同じではないということです。観測値は自然に母平均よりもサンプル平均に近くなるため、項は項で過小評価されます。これはおそらくほとんどの人にとって明らかなことでしょうが、バイアスされたサンプル分散が今までバイアスされている理由について「直感」については考えませんでした。正式な証明だけを学びました。(xiμ)2(xix¯)2
WetlabStudent

2
また、n-1で補正する幾何学的アプローチもあります(Saville and Woodで非常にうまく説明されています:統計的手法:幾何学的アプローチ)。簡単に言うと、nのサンプルはn次元のデータ空間と見なすことができます。サンプルポイントベクトルは、pパラメータに対応するp次元のモデルベクトルとnp次元のエラーベクトルに分解できる観測ベクトルに追加されます。誤差ベクトルの対応するピタゴラスの分解には、平均が変動の尺度であるnp個の二乗があります。
ジョルダーノ

簡単な説明を含む美しいリンクを提供します:en.wikipedia.org/wiki/Bias_of_an_estimator
Christina

証明(代替3)で、を使用して計算された真の分散とバイアス分散の両方を仮定している理由を説明できますか?母集団(真の分散あり)とサンプル(バイアス分散あり)がある場合、異なる分散の問題が発生します。しかし、同じデータ、つまり分散を計算する場合、なぜそれらは異なるのでしょうか?そこで、は、バイアスされたまったく同じを使用して計算された真の分散と考えます。私はこの証拠に同意できません。助けてください、私は何が欠けていますか?n xx1,x2,...,xnσ2xsbiased2
トルコのバダロフ

56

私が見たほとんどの証明は、ガウス(とはいえ、彼がそれをやった)が証明するのがかなり簡単だと思うほど単純です。

私はあなたにリンクできるCVの派生物を探していました(ここには少なくとも1つの答えを含む、オフサイトの証明へのリンクがいくつかあります)が、CVの1つを見つけませんでした数回の検索なので、完全を期すために、簡単な検索を行います。その単純さを考えると、人々が通常ベッセル補正と呼ばれるものをどのように使い始めるかを見るのは簡単です。

これは、想定される知識としてを取り、最初のいくつかの基本的な分散特性が既知であると想定しています。E(X2)=Var(X)+E(X)2

E[i=1n(xix¯)2]=E[i=1nxi22x¯i=1nxi+nx¯2]=E[i=1nxi2nx¯2]=nE[xi2]nE[x¯2]=n(μ2+σ2)n(μ2+σ2/n)=(n1)σ2

1
どのプロパティが用語しますか?2x¯i=1nxi
シプリアントモイアガ

3
消えません。最後の用語の記号が変わったことに気づきましたか?
Glen_b

1
(+1)最近、私は個人的に直感的になったという素晴らしい証拠を聞きました。係数のサンプル分散は、すべてのペアポイント間のすべての平方差の平均として再表現できます。ここで、同じポイントが2回入るペアはすべてゼロであり、これにより式にバイアスがかかることに注意してください。これらのすべてのペアを二重和から除外し、残り全体で平均化するだけでバイアスを修正するのが妥当と思われます。これにより、ベッセルの補正が行われます。1/n
アメーバは、モニカを復活させる

1
いいえ、気にしないで、それを理解しました。なので、3行目の両方の用語に上記の同じIDを適用しているだけです。V[x¯]=V[x]n
tel

1
iid変量のいずれも同じ2次モーメントを持ちます。それらすべてについて話すことから、それらのうちの1つについて議論するだけになります。(と一部の人はそうする)またはまたはを簡単に取得できますが、私はx 2 x nx1x2xni

37

WeissteinのWorld of Mathematicsによると、1823年にGaussによって最初に証明されました。参考文献は、Gauss 'Werkeの第4巻で、https://archive.org/details/werkecarlf04gausrichで読むことができます。関連するページは47〜49のようです。ガウスは質問を調査し、証拠を思いついたようです。ラテン語は読みませんが、本文にはドイツ語の要約があります。103〜104ページで、彼のしたことを説明しています(編集:大まかな翻訳を追加しました)。

Allein da man nicht berechtigt ist、die sichersten Werthe fuer die wahren Werthe selbst zu halten、so ueberzeugt man sich leicht、dass man durch dieses Verfahren allemal den wahrscheinlichsen und miten結果als sie wirklich besitzen。[しかし、最も可能性の高い値を実際の値のように扱う資格がないため、最も可能性の高いエラーと平均エラーが小さすぎることを常に見つけなければならないこと、したがって与えられた結果実際よりも高い精度を持っています。]

サンプル分散が母分散のバイアス推定値であることはよく知られているように思われます。記事では、サンプルサイズが十分に大きい場合は重要ではないため、2つの違いは通常無視されると述べています。それからそれは言う:

Der Verfasser hat daher diesen Gegenstand eine besondere Untersuchung unterworfen、die zu einem sehr Merkwuerdigen hoechst einfachen Resultate gefuehrt hat。Man Braucht Nemlich den nach dem angezeigten fahlerhaften Verfahren gefundenen mittleren Fehler、um ihn in die richtigen zu verwandeln、nur mit

πρπ

πρπρ

修正が初めて見つかった場合、ガウスによる巧妙な計算によって発見されたようですが、人々はすでに修正が必要であることを認識していたので、おそらく誰かがこの前に経験的にそれを見つけた可能性があります。あるいは、以前の著者は、とにかくかなり大きなデータセットを扱っていたため、正確な答えを導き出すことを気にしなかったかもしれません。

n


誰かがドイツ語の翻訳を提供できれば、それはいいでしょう。私はドイツ語を読みません。
ファヒムミサ14

2
はい、スペルミスのため、Google翻訳はうまく機能しません!翻訳の試みを追加します。それは私のドイツ語を練習する良い方法です。
ヒラメ14年

14

私にとって直感の一つは

The degree to whichXi varies from X¯+The degree to whichX¯ varies from μ=The degree to which Xi varies from μ.

あれは、

E[(XiX¯)2]+E[(X¯μ)2]=E[(Xiμ)2].

上記の式を実際に証明するには、少し代数が必要です(この代数は、上記の@Glen_bの答えに非常に似ています)。しかし、それが真実であると仮定すると、次のように再配置できます。

E[(XiX¯)2]=E[(Xiμ)2]σ2E[(X¯μ)2]σ2n=n1nσ2.

X¯μE[(X¯μ)2]=σ2n


12

回答のほとんどはすでに詳細に説明していますが、それらとは別に、役立つと思われる簡単な図があります。

n=4

8,4,6

n=4x¯=68,4,66

n1x¯nthn1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.