標準偏差を計算するときにで除算するための直感的な説明


136

あなたがで二乗誤差の合計を割り、なぜ私はクラスで今日聞かれた代わりにとの、標準偏差を計算します。n1n

私は、私は(私は公平な推定に行きたいしませんでしたので)クラスでそれに答えるつもりはありませんと述べたが、その後、私は疑問に思った- があり、このための直観的な説明は?


29
数値レシピの本からこのジンジャーを引用したいと思います:「...と違いがあなたにとって重要であるなら、とにかくあなたはおそらく何の役にも立たないでしょう-例えば、疑わしい仮説を実証しようとする限界データあり。」n 1nn1
JMは

11
本当にエレガントな、直感的な説明は(証明の下)、ここで提示されen.wikipedia.org/wiki/...基本的な考え方は、人口が意味するよりも、標本平均に近いものになるだろう、当然、あなたの観測があるということです。
WetlabStudent

12
@Tal、これが学校が悪い理由です。あなたは彼らに「なぜこれ?」と尋ね、彼らは「ただそれを暗記する」と答えます。
Pacerier

1
直感的な説明を探している場合は、実際にサンプルを採取して、自分の理由を確認してください!これを見て、質問に正確に答えます。 youtube.com/watch?v=xslIhnquFoE
Sahil Chaudhary

tl; dr:(上からの回答:) "...サンプル平均からの偏差を使用して計算される標準偏差は、母集団の望ましい標準偏差を過小評価しています..."参照:en.wikipedia.org/wiki/…そのため、何か複雑なものを計算したくない場合は、サンプルからのものであればn-1を使用してください。
アンドリュー

回答:


99

約数で計算された標準偏差は、サンプルが抽出された母集団の標準偏差の推定値としてサンプルから計算された標準偏差です。観測値は平均して母平均よりもサンプル平均に近いため、サンプル平均からの偏差を使用して計算される標準偏差は、母集団の望ましい標準偏差を過小評価します。除数としてnの代わりにn 1を使用すると、結果を少し大きくすることでそれを修正します。n1n1n

が大きい場合よりも小さい場合、補正の比例効果が大きくなることに注意してください。nが大きい場合、標本平均は母平均の適切な推定量になる可能性が高いためです。n

サンプルが母集団全体である場合、標本平均母平均であるため、を除数として標準偏差を使用します。n

(「既知の明確な平均を中心に二次的な瞬間」で始まるものは、直観的な説明を求める質問者の要求を満たすものではないことを括弧で示しています。)


13
「直感的」と「非技術的」を混同しないでください。
whuber

32
@Michael、これは説明しません。なぜ(または)のn−1代わりに使用するのですか?n−2n−3
Pacerier

1
@Pacerierその点の詳細については、以下のWhuberの回答をご覧ください。本質的に、補正はn-2などではなくn-1です。これは、n-1補正が必要な結果に非常に近い結果をもたらすためです。より正確な修正はここに示されています:en.wikipedia.org/wiki/Unbiased_estimation_of_standard_deviation
マイケルルー

1
@Michaelこんにちは、サンプル平均から計算された偏差が母平均よりも小さくなる傾向があるのはなぜですか?
アレン

1
「観測値は、平均して、母平均よりも標本平均に近くなるため、標本平均からの偏差を使用して計算される標準偏差は、母集団の望ましい標準偏差を過小評価します。」サンプルが常に過小評価しているのはなぜですか?過大評価するとどうなりますか?
ボラM.アルパー

55

一般的なものは、(分布の)分散の定義が既知の明確な平均を中心に再センタリングされる2番目のモーメントであるのに対して、推定器は推定平均を使用することです。この自由度の損失(平均を考えると、データ値のわずか知識でデータセットを再構成できます)は、結果を「調整」するためにnではなくn - 1を使用する必要があります。n1n1n

このような説明は、ANOVAおよび分散成分分析で推定される分散と一致しています。それは本当に特別なケースです。

分散を膨らませるため調整を行う必要性は、事後の手振りだけではない有効な引数によって直感的に明確にできると思います。(私は学生t検定の彼の1908年の論文で、このような議論を行ったことを思い出す。)分散の調整があるべきなぜ正確にあなたが考える場合は特に、正当化するのに困難です調整後のSDがあるということではありませんn/(n1)不偏推定量。(これは、単に分散の不偏推定量の平方根です。不偏であることは通常、非線形変換に耐えられません。)したがって、実際には、バイアスを除去するためのSDの正しい調整は√の因子ではありません。まったく!n/(n1)

いくつかの入門教科書でも、調整SDを導入する気にしない:彼らは1つの式(除算教える)。私はそのような本から教えるときに最初に否定的に反応しましたが、知恵に感謝するようになりました:概念と応用に焦点を合わせるために、著者はすべての非本質的な数学的巧妙さを取り除きます。何も傷つかず、誰も誤解されないことがわかります。n


1
ありがとう、フーバー。私は生徒にn-1の修正を教えなければならないので、nだけで分けることは選択肢ではありません。私の前に書いたように、2番目の瞬間への接続を言及することはオプションではありません。平均値がすでに推定されているため、SDの「データ」が少なくなっていることに言及することは重要ですが、それは重要です。SDのバイアスについて-それに遭遇したことを思い出しました-そのポイントを家に運転してくれてありがとう。ベスト、タル
タルガリリ

3
@Tal私はあなたの言語ではなく、あなたの言語で書いていました。なぜなら、あなたがそれをあなたが知っているものに翻訳できると確信しているからです。言い換えれば、あなたの質問で「直感的」と解釈したのは、あなたにとって直感的だということです
whuber

1
こんにちは、Whuber。信頼の投票をありがとう:)。期待値の推定のための自由度の緩みは、クラスで使用することを考えていたものです。問題は、「自由度」という概念自体が知識/直感を必要とするものであることです。しかし、このスレッドで与えられた他の回答のいくつかとそれを組み合わせることは有用です(私にとって、そして将来、他の人に期待します)。ベスト、タル
タルガリリ

が大きい場合、通常、nまたはn 1で除算するのに大きな差はありません。したがって、大きなサンプルに適用することを目的とする場合、修正されていない式を導入しても問題ありませんか?nnn1
PatrickT

1
@Patrickあなたは私の答えを読みすぎているかもしれません。理由明白だからです。それらは教育学的であり、が大きいかどうかとは無関係です。n
whuber

50

定義により、分散は、平均からの差の二乗和を取り、サイズで割ることによって計算されます。一般式があります

μが平均で、Nが母集団のサイズです。σ2=Nバツμ2NμN

この定義によれば、aサンプル(サンプル)の分散もこの方法で計算する必要があります。t

ここで ¯ Xは平均値であり、nはこの小さなサンプルサイズです。σt2=nバツバツ¯2nバツ¯n

しかし、標本分散により、私たちは、母分散の推定量の平均σ 2を。どのように見積もることができσ 2をサンプルのみの値を使用して?S2σ2σ2

上記の式によれば、確率変数サンプル平均から逸脱¯ Xと分散σ 2 T。サンプルは平均¯ Xからも外れμ、分散をσ 2バツバツ¯σt2X¯μのサンプルの平均をサンプリングするサンプルから異なる値を取得し、それは、平均のランダム変数であるため、μ及び分散σ2σ2nμ。(簡単に証明できます。)σ2n

したがって、おおよそ、から逸脱すべきであるμ 2つの分散がので、これらの2を追加してもらう必要分散でσに2 = σ 2 tで + σ 2Xμ。これを解くことにより、我々が得るσ2=σ 2 トン ×n個をσ2=σt2+σ2n。交換σ 2 トンは、母分散のための私達の推定量を与えます:σ2=σt2×nn1σt2

S2=nバツバツ¯2n1

一つは、また、その証明することができます真です。E[S2]=σ2


これがささいなことではないことを願っています:サンプル平均がND(σμ)nが標本平均が分散して、実際の平均値から外れた理由を任意に大きくなるにつれてσ2をσnσ2n
RexYuan

6
これは、単純に統計用語を使ってyagga yaggaを実行するのではなく、方程式と派生を表示するため、他よりも優れた説明です。
Navの

1
@sevenkulこれを視覚的にどのように見ることができますか?あなたが言うとき、Xから逸脱すべきそのネット分散して、私はその可視化で失われていますμ
ParthibanあるRajendran

17

これは完全な直観ですが、最も簡単な答えは、1要素サンプルの標準偏差を0ではなく未定義にするための修正です。


11
では、nを使用しないのはなぜですかまたは1nn21修正として?:-)1exp(1)exp(1/n)
whuber

1
@whuber Parsimony(-;

4
はさらに「 "約的」です。:-)1n1
whuber

2
@mbq、あなたの答えについて〜「それは0ではなく1要素のサンプルの標準偏差を未定義にするための修正です」、それが本当に理由なのですか、それとも冗談の答えですか?あなたは私たちのような数学者ではないことを知っています。
Pacerier

4
正式には、それは理性よりも結果であるが、私が書いたように、私はそれを記憶する良い直観であると思う。

14

あなたはより深く理解得ることができますそうでない理由だけではなく、単独の幾何学を通じて用語をn個が、なぜそれがまさにこの形がかかりますが、あなたが最初に対処するあなたの直感を構築する必要があるかもしれませんN次元のジオメトリ。ただし、そこからは、線形モデル(モデルdfと残差df)の自由度をより深く理解するための小さなステップになります。フィッシャーがこのように考えたことはほとんど疑いがないと思います。これは、徐々に構築していく本です。n1nn

Saville DJ、Wood GR。統計的手法:幾何学的アプローチ。第3版。ニューヨーク:Springer-Verlag; 1991。560ページ。9780387975177

(はい、560ページ。徐々に言いました。)


ワンストップに感謝します-その方向から答えがあるとは思いませんでした。直感を要約する方法はありますか、それとも可能性が低いですか?乾杯、タル
タルガリリ

私はそうすることはできませんでしたが、書評家はアマーのパラグラフでアプローチを要約しました。統計 1993年:jstor.org/stable/2684984。ただし、コース全体でこのアプローチを採用しない限り、このアプローチを学生に使用することが本当に実用的かどうかはわかりません。
ワンストップ

本を参照するだけでなく、直感を少し要約していただけますか?
オリバーズム

12

母集団の分散の推定量は、母集団のサンプルに適用されるとバイアスがかかります。そのバイアスを調整するには、nではなくn-1で除算する必要があります。nではなくn-1で除算すると、サンプル分散の推定量が不偏であることを数学的に示すことができます。正式な証明は次のとおりです。

https://economictheoryblog.com/2012/06/28/latexlatexs2/

最初は、数式を導いたのは数学的な正しさだったと思います。ただし、式に直観を追加したい場合は、すでに述べた提案が妥当と思われます。

まず、サンプルの観測値は、平均では母平均よりもサンプル平均に近くなります。分散推定器はサンプル平均を使用し、結果として母集団の真の分散を過小評価します。nの代わりにn-1で除算すると、そのバイアスが修正されます。

さらに、n-1で除算すると、1要素サンプルの分散がゼロではなく未定義になります。


12

なぜ除算ではなく、N?なぜなら、それは慣習的であり、結果としてバイアスの不偏推定値が得られるからです。ただし、ジェンセンの不等式を凹関数の平方根に適用することでわかるように、標準偏差の偏った(低い)推定値になります。n1n

それでは、公平な推定量を持つことの何がそんなに素晴らしいのでしょうか?必ずしも平均二乗誤差を最小化するとは限りません。正規分布のMLE は、n 1ではなくで除算することです。一世紀前の時代遅れの概念を逆流させて無意識に適用するのではなく、考えることを生徒に教えます。nn1


8
(+1)この状況について考えれば考えるほど(そして、が出現した時期と理由を突き止めようとするStudentの1908 Biometricaの貢献などの初期の論文を調査する程度まで、実際の考えを与えました))、「慣習だから」が唯一の正しい答えだと思うほど。私はダウン票を見るのは不幸であり、彼らが最後の文に応答していると推測することしかできません。n1
whuberの

1
私の最後の文は、OPに対する攻撃とは対照的に、関係者全員に対する友好的なアドバイスでした。
マークL.ストーン

多くの場合、テストや信頼区間で使用される場合、手順の他の部分を調整し、最終的に同じ結果を取得する必要があります。
kjetil bハルヴォルセン

8

二次のαがよく知られている(または簡単に証明される)で極値を有する Z = - βαz2+2βz+γ。これは、任意のn個の実数x1x2xnに対して、量 Ga= n i=1xia2= n i = 1 x 2 i2az=βαnx1,x2,,xna = 1の ときに最小値を持ちます。

G(a)=i=1n(xia)2=(i=1nxi2)2a(i=1nxi)+na2,
a=1ni=1nxi=x¯

さて、と仮定しサイズのサンプルですn個の未知の平均と分布からμと未知の分散σ 2μ1と推定できます。xinμσ2μを計算するのに十分に容易であるが、推定しようとする試みσ2 として11ni=1nxi=x¯σ2私たちが知らない問題に遭遇μを。私たちは、当然のことながら、容易に計算することができます G ˉ Xと我々はことを知っているGμGは ˉ Xが、どのようにはるかに大きいGμ?答えは、 Gμ1ni=1n(xiμ)2=n1G(μ)μG(x¯)G(μ)G(x¯)G(μ)G(μ)より大きいによる因子およそのNG(x¯)、即ち、 G μ Nnn1ので、推定N-1Gμ=1

(1)G(μ)nn1G(x¯)
分布の分散のためで近似することができる 1n1G(μ)=1ni=1n(xiμ)21n1G(x¯)=1n1i=1n(xix¯)2.

それでは、1 )の直感的な説明は何ですか?さて、 G μ (1) 以降Σ N I = 1XI- ˉ X=N ˉ X -N ˉ X =0。さて、

G(μ)=i=1n(xiμ)2=i=1n(xix¯+x¯μ)2=i=1n((xix¯)2+(x¯μ)2+2(xix¯)(x¯μ))=G(x¯)+n(x¯μ)2+(x¯μ)i=1n(xix¯)(2)=G(x¯)+n(x¯μ)2
i=1n(xix¯)=nx¯nx¯=0 、我々はその全てにおいて非常に珍しい試料があるときを除き、Xiがより大きいμを(またはそれらが全てよりも小さいです μ)、加数XI-μ
n(x¯μ)2=n1n2(i=1n(xiμ))2=1ni=1n(xiμ)2+2ni=1nj=i+1n(xiμ)(xjμ)(3)=1nG(μ)+2ni=1nj=i+1n(xiμ)(xjμ)
xiμμの右側に二重の合計で3 (xiμ)(xjμ)(3)負の値と同様に正の値を取ると、多くのキャンセルが発生します。したがって、二重和は小さな絶対値を持つことが期待でき、1と比較して単純に無視します。3)の右側の n Gμ項。したがって、2 となる GμG1nG(μ)(3)(2)
G(μ)G(x¯)+1nG(μ)G(μ)nn1G(x¯)
に記載の1

8
このスタック交換でのみ、これは直感的な答えと見なされます。
ジョセフ・ガービン

6

バツバツj2/2

s2=2nn1<jバツバツj22=1n1=1nバツバツ¯2

バツY

Vバツ=EバツY22=EバツEバツ2

ランダム変数の分散の定義からサンプルの分散の定義へと進むことは、典型性の哲学的原理によって正当化できる平均によって期待値を推定する問題です。サンプルは分布の典型的な表現です。(注意、これはモーメントによる推定と関連していますが、同じではありません。)


2
最後の段落であなたについていくことができませんでした。という数学的な事実ではないVバツ=EバツY22=EバツEバツ2

4
バツバツ2s2nn1
whuberの

4

N=1バツm¯=バツ1

V=Nバツnm¯2N

V¯=バツm¯21=0

奇妙なことに、サンプルが1つだけの場合、分散はnullになります。そして、2番目のサンプルを持っていますy 分散を増加させるリスクがある場合 バツy。これは意味がありません。直感的には、無限の分散はより健全な結果になり、「分割する」ことによってのみ回復できますN1=0「。

平均の推定は、次数をもつ多項式のあてはめです 0データに対して、1自由度(dof)を持ちます。このベッセルの補正は、より高い自由度のモデルにも適用されます。もちろん、完璧に適合できますd+1 とポイント d 次数多項式、 d+1dofs。ゼロ二乗誤差の錯覚は、点の数からdofsの数を引いた値で割ることによってのみ相殺できます。非常に小さな実験データセットを扱う場合、この問題は特に敏感です。


なぜ分散がゼロの分散よりも「無限の分散が健全な結果になる」のかは不明です。実際、分散推定器の意味で「サンプル分散」を使用しているようですが、これはさらに複雑です。
whuber

1
わかります。2つのオプション間の直感的な説明に答えるために、私は2つのオプションのうちの1つが、0<。言い換えることは確かに必要であり、今後の
ローランデュバル

4

whuberの提案で、この答えは別の同様の質問からコピーされました。

ベッセルの補正は、サンプル分散を真の分散の推定量として使用する際のバイアスを補正するために採用されます。補正されていない統計の偏りは、サンプル平均が真の平均よりも観測の中央に近いために発生し、サンプル平均の平方偏差は真の平均の平方偏差を系統的に過小評価します。

この現象を代数的に見るには、ベッセルの補正なしでサンプル分散の期待値を導き出し、それがどのように見えるかを見てください。させるS2 未補正のサンプル分散を示します(使用 n 分母として)

S2=1n=1nバツバツ¯2=1n=1nバツ22バツ¯バツ+バツ¯2=1n=1nバツ22バツ¯=1nバツ+nバツ¯2=1n=1nバツ22nバツ¯2+nバツ¯2=1n=1nバツ2nバツ¯2=1n=1nバツ2バツ¯2

期待どおりの結果:

ES2=1n=1nEバツ2Eバツ¯2=1n=1nμ2+σ2μ2+σ2n=μ2+σ2μ2+σ2n=σ2σ2n=n1nσ2

したがって、未補正のサンプル分散統計は真の分散を過小評価していることがわかります。 σ2。ベッセルの補正は、分母をn1偏りのない推定量が得られます。回帰分析では、これは推定平均が複数の予測変数の線形関数であるより一般的な場合に拡張され、この後者の場合、自由度の数が少ないほど分母がさらに削減されます。


証拠をありがとう!
アップアップ

0

通常、分母に「n」を使用すると、推定したい母分散よりも小さな値が得られます。これは、特に小さなサンプルが採取された場合に起こります。統計の言語では、サンプル分散は母分散の「バイアス」推定値を提供し、「バイアスなし」にする必要があると言います。

直感的な説明を探している場合は、実際にサンプルを採取して、生徒に自分の理由を見せてください。これを見て、あなたの質問に正確に答えます。

https://www.youtube.com/watch?v=xslIhnquFoE


0

サンプル平均は次のように定義されます バツ¯=1n=1nバツ、これは非常に直感的です。しかし、サンプルの分散はS2=1n1=1nバツバツ¯2。どこでしたn1 から来る ?

この質問に答えるには、不偏推定量の定義に戻る必要があります。不偏推定量とは、期待値が真の期待値に近い傾向があるものです。サンプル平均は不偏推定量です。理由を確認するには:

E[バツ¯]=1n=1nE[バツ]=nnμ=μ

サンプル分散の期待値を見てみましょう。

S2=1n1=1nバツ2nバツ¯2

E[S2]=1n1nE[バツ2]nE[バツ¯2]

に注意してください バツ¯ はランダム変数であり、定数ではないため、 E[バツ¯2]役割を果たします。これがn1

E[S2]=1n1nμ2+σ2nμ2+Varバツ¯
Varバツ¯=Var1n=1nバツ==1n1n2Varバツ=σ2n

E[S2]=1n1nμ2+σ2nμ2+σ2/n=n1σ2n1=σ2

ご覧のとおり、分母が n の代わりに n1、分散のバイアス推定値を取得します!しかし、n1 推定量 S2 不偏推定量です。


3
しかし、それはそれに続かない S は、標準偏差の不偏推定量です。
スコルチ

-1

ベイズ推定との関係を指摘する価値があると思います。データがガウス分布であると仮定して、平均を測定するとしますμ および分散 σ2 サンプルの nポイント。人口について結論を出したいと思います。ベイジアンアプローチは、一般化されたスチューデントのT分布(T検定の原点)であるサンプルの事後予測分布を評価することです。この分布の平均はμ、および分散

σ2n+1n1

通常の修正よりもさらに大きくなります。(それは持っています2n 自由度。)

一般化されたスチューデントのT分布には3つのパラメーターがあり、3つの統計すべてを利用します。何らかの情報を捨てることにした場合は、質問で説明されているように、2パラメーター正規分布を使用してデータをさらに概算できます。

ベイジアンの観点からは、モデルのハイパーパラメーターの不確実性(平均と分散の分布)により、事後予測の分散が母集団の分散より大きくなることが想像できます。


-4

私の良さは複雑になっています!私は簡単な答えだと思いました...すべてのデータポイントがある場合は「n」を使用できますが、「サンプル」がある場合、それがランダムサンプルであると仮定すると、標準偏差内からより多くのサンプルポイントがあります外部から(標準偏差の定義)より。必要なすべてのデータポイントをランダムに取得するのに十分なデータが外部にありません。n-1は、「実際の」標準偏差に向かって拡張するのに役立ちます。


3
これは意味がありません。外部よりも内部からのポイントが多いですか?それが平均の1 SD以内とそうでない場合を意味する場合、それが真であるかどうかはサンプルの採取とは関係ありません。平均付近の区間内の分数に必要な制約については、チェビシェフの不等式を参照してください。ここでの主な質問に、「展開するのに役立つ」は説明しませんn1 たとえあなたの議論を認めても n2ここには代数が存在しないため、暗黙的にさえ、より良いかもしれません。残念ながら、これは他の答えに何も追加しません。ただし、アイデアのセットは、間違っているか無関係であるかのどちらかです。
ニックコックス
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.