あなたがで二乗誤差の合計を割り、なぜ私はクラスで今日聞かれた代わりにとの、標準偏差を計算します。
私は、私は(私は公平な推定に行きたいしませんでしたので)クラスでそれに答えるつもりはありませんと述べたが、その後、私は疑問に思った- があり、このための直観的な説明は?
あなたがで二乗誤差の合計を割り、なぜ私はクラスで今日聞かれた代わりにとの、標準偏差を計算します。
私は、私は(私は公平な推定に行きたいしませんでしたので)クラスでそれに答えるつもりはありませんと述べたが、その後、私は疑問に思った- があり、このための直観的な説明は?
回答:
約数で計算された標準偏差は、サンプルが抽出された母集団の標準偏差の推定値としてサンプルから計算された標準偏差です。観測値は平均して母平均よりもサンプル平均に近いため、サンプル平均からの偏差を使用して計算される標準偏差は、母集団の望ましい標準偏差を過小評価します。除数としてnの代わりにn − 1を使用すると、結果を少し大きくすることでそれを修正します。
が大きい場合よりも小さい場合、補正の比例効果が大きくなることに注意してください。nが大きい場合、標本平均は母平均の適切な推定量になる可能性が高いためです。
サンプルが母集団全体である場合、標本平均は母平均であるため、を除数として標準偏差を使用します。
(「既知の明確な平均を中心に二次的な瞬間」で始まるものは、直観的な説明を求める質問者の要求を満たすものではないことを括弧で示しています。)
n−1
代わりに使用するのですか?n−2
n−3
一般的なものは、(分布の)分散の定義が既知の明確な平均を中心に再センタリングされる2番目のモーメントであるのに対して、推定器は推定平均を使用することです。この自由度の損失(平均を考えると、データ値のわずか知識でデータセットを再構成できます)は、結果を「調整」するためにnではなくn - 1を使用する必要があります。
このような説明は、ANOVAおよび分散成分分析で推定される分散と一致しています。それは本当に特別なケースです。
分散を膨らませるための調整を行う必要性は、事後の手振りだけではない有効な引数によって直感的に明確にできると思います。(私は学生t検定の彼の1908年の論文で、このような議論を行ったことを思い出す。)分散の調整があるべきなぜ正確に倍あなたが考える場合は特に、正当化するのに困難です調整後のSDがあるということではありません不偏推定量。(これは、単に分散の不偏推定量の平方根です。不偏であることは通常、非線形変換に耐えられません。)したがって、実際には、バイアスを除去するためのSDの正しい調整は√の因子ではありません。まったく!
いくつかの入門教科書でも、調整SDを導入する気にしない:彼らは1つの式(除算教える)。私はそのような本から教えるときに最初に否定的に反応しましたが、知恵に感謝するようになりました:概念と応用に焦点を合わせるために、著者はすべての非本質的な数学的巧妙さを取り除きます。何も傷つかず、誰も誤解されないことがわかります。
定義により、分散は、平均からの差の二乗和を取り、サイズで割ることによって計算されます。一般式があります
、μが平均で、Nが母集団のサイズです。
この定義によれば、aサンプル(サンプル)の分散もこの方法で計算する必要があります。
ここで ¯ Xは平均値であり、nはこの小さなサンプルサイズです。
しかし、標本分散により、私たちは、母分散の推定量の平均σ 2を。どのように見積もることができσ 2をサンプルのみの値を使用して?
上記の式によれば、確率変数サンプル平均から逸脱¯ Xと分散σ 2 T。サンプルは平均¯ Xからも外れμ、分散をσ 2のサンプルの平均をサンプリングするサンプルから異なる値を取得し、それは、平均のランダム変数であるため、μ及び分散σ2。(簡単に証明できます。)
したがって、おおよそ、から逸脱すべきであるμ 2つの分散がので、これらの2を追加してもらう必要分散でσに2 = σ 2 tで + σ 2。これを解くことにより、我々が得るσ2=σ 2 トン ×n個を。交換σ 2 トンは、母分散のための私達の推定量を与えます:
。
一つは、また、その証明することができます真です。
あなたはより深く理解得ることができますそうでない理由だけではなく、単独の幾何学を通じて用語をn個が、なぜそれがまさにこの形がかかりますが、あなたが最初に対処するあなたの直感を構築する必要があるかもしれませんN次元のジオメトリ。ただし、そこからは、線形モデル(モデルdfと残差df)の自由度をより深く理解するための小さなステップになります。フィッシャーがこのように考えたことはほとんど疑いがないと思います。これは、徐々に構築していく本です。
Saville DJ、Wood GR。統計的手法:幾何学的アプローチ。第3版。ニューヨーク:Springer-Verlag; 1991。560ページ。9780387975177
(はい、560ページ。徐々に言いました。)
母集団の分散の推定量は、母集団のサンプルに適用されるとバイアスがかかります。そのバイアスを調整するには、nではなくn-1で除算する必要があります。nではなくn-1で除算すると、サンプル分散の推定量が不偏であることを数学的に示すことができます。正式な証明は次のとおりです。
https://economictheoryblog.com/2012/06/28/latexlatexs2/
最初は、数式を導いたのは数学的な正しさだったと思います。ただし、式に直観を追加したい場合は、すでに述べた提案が妥当と思われます。
まず、サンプルの観測値は、平均では母平均よりもサンプル平均に近くなります。分散推定器はサンプル平均を使用し、結果として母集団の真の分散を過小評価します。nの代わりにn-1で除算すると、そのバイアスが修正されます。
さらに、n-1で除算すると、1要素サンプルの分散がゼロではなく未定義になります。
なぜ除算ではなく、N?なぜなら、それは慣習的であり、結果としてバイアスの不偏推定値が得られるからです。ただし、ジェンセンの不等式を凹関数の平方根に適用することでわかるように、標準偏差の偏った(低い)推定値になります。
それでは、公平な推定量を持つことの何がそんなに素晴らしいのでしょうか?必ずしも平均二乗誤差を最小化するとは限りません。正規分布のMLE は、n − 1ではなくで除算することです。一世紀前の時代遅れの概念を逆流させて無意識に適用するのではなく、考えることを生徒に教えます。
二次のαがよく知られている(または簡単に証明される)で極値を有する Z = - β。これは、任意のn個の実数x1、x2、…、xnに対して、量 G(a)= n ∑ i=1(xi−a)2=( n ∑ i = 1 x 2 i)−2aa = 1の ときに最小値を持ちます。
さて、と仮定しサイズのサンプルですn個の未知の平均と分布からμと未知の分散σ 2。μは1と推定できます。を計算するのに十分に容易であるが、推定しようとする試みσ2 として1私たちが知らない問題に遭遇μを。私たちは、当然のことながら、容易に計算することができます G( ˉ X)と我々はことを知っているG(μ)≥Gは( ˉ X)が、どのようにはるかに大きいG(μ)?答えは、 G(μ)より大きいによる因子およそのN、即ち、 G (μ )≈ Nので、推定N-1G(μ)=1
それでは、(1 )の直感的な説明は何ですか?さて、 G (μ ) 以降Σ N I = 1(XI- ˉ X)=N ˉ X -N ˉ X =0。さて、
ランダム変数の分散の定義からサンプルの分散の定義へと進むことは、典型性の哲学的原理によって正当化できる平均によって期待値を推定する問題です。サンプルは分布の典型的な表現です。(注意、これはモーメントによる推定と関連していますが、同じではありません。)
奇妙なことに、サンプルが1つだけの場合、分散はnullになります。そして、2番目のサンプルを持っています 分散を増加させるリスクがある場合 。これは意味がありません。直感的には、無限の分散はより健全な結果になり、「分割する」ことによってのみ回復できます「。
平均の推定は、次数をもつ多項式のあてはめです データに対して、1自由度(dof)を持ちます。このベッセルの補正は、より高い自由度のモデルにも適用されます。もちろん、完璧に適合できます とポイント 次数多項式、 dofs。ゼロ二乗誤差の錯覚は、点の数からdofsの数を引いた値で割ることによってのみ相殺できます。非常に小さな実験データセットを扱う場合、この問題は特に敏感です。
whuberの提案で、この答えは別の同様の質問からコピーされました。
ベッセルの補正は、サンプル分散を真の分散の推定量として使用する際のバイアスを補正するために採用されます。補正されていない統計の偏りは、サンプル平均が真の平均よりも観測の中央に近いために発生し、サンプル平均の平方偏差は真の平均の平方偏差を系統的に過小評価します。
この現象を代数的に見るには、ベッセルの補正なしでサンプル分散の期待値を導き出し、それがどのように見えるかを見てください。させる 未補正のサンプル分散を示します(使用 分母として)
期待どおりの結果:
したがって、未補正のサンプル分散統計は真の分散を過小評価していることがわかります。 。ベッセルの補正は、分母を偏りのない推定量が得られます。回帰分析では、これは推定平均が複数の予測変数の線形関数であるより一般的な場合に拡張され、この後者の場合、自由度の数が少ないほど分母がさらに削減されます。
通常、分母に「n」を使用すると、推定したい母分散よりも小さな値が得られます。これは、特に小さなサンプルが採取された場合に起こります。統計の言語では、サンプル分散は母分散の「バイアス」推定値を提供し、「バイアスなし」にする必要があると言います。
直感的な説明を探している場合は、実際にサンプルを採取して、生徒に自分の理由を見せてください。これを見て、あなたの質問に正確に答えます。
サンプル平均は次のように定義されます 、これは非常に直感的です。しかし、サンプルの分散は。どこでした から来る ?
この質問に答えるには、不偏推定量の定義に戻る必要があります。不偏推定量とは、期待値が真の期待値に近い傾向があるものです。サンプル平均は不偏推定量です。理由を確認するには:
サンプル分散の期待値を見てみましょう。
に注意してください はランダム変数であり、定数ではないため、 役割を果たします。これが。
ご覧のとおり、分母が の代わりに 、分散のバイアス推定値を取得します!しかし、 推定量 不偏推定量です。
ベイズ推定との関係を指摘する価値があると思います。データがガウス分布であると仮定して、平均を測定するとします および分散 サンプルの ポイント。人口について結論を出したいと思います。ベイジアンアプローチは、一般化されたスチューデントのT分布(T検定の原点)であるサンプルの事後予測分布を評価することです。この分布の平均は、および分散
通常の修正よりもさらに大きくなります。(それは持っています 自由度。)
一般化されたスチューデントのT分布には3つのパラメーターがあり、3つの統計すべてを利用します。何らかの情報を捨てることにした場合は、質問で説明されているように、2パラメーター正規分布を使用してデータをさらに概算できます。
ベイジアンの観点からは、モデルのハイパーパラメーターの不確実性(平均と分散の分布)により、事後予測の分散が母集団の分散より大きくなることが想像できます。
私の良さは複雑になっています!私は簡単な答えだと思いました...すべてのデータポイントがある場合は「n」を使用できますが、「サンプル」がある場合、それがランダムサンプルであると仮定すると、標準偏差内からより多くのサンプルポイントがあります外部から(標準偏差の定義)より。必要なすべてのデータポイントをランダムに取得するのに十分なデータが外部にありません。n-1は、「実際の」標準偏差に向かって拡張するのに役立ちます。