中心極限定理における分散の役割


10

分散を計算するときに絶対値をとるのではなく、差を二乗する理由は、通常の方法で定義された分散が、分母が二乗であり、中心極限定理で独特の役割を果たすことをどこかで読んだことがあります。

では、CLTにおける分散の役割とは正確には何でしょうか。私はこれについてこれ以上見つけることも、それを正しく理解することもできませんでした。

また、分散とは、一連の数値がどこまで分散しているかの尺度であると私たちに思わせるものを尋ねることもできます。分散と同様に他の量を定義して、それらが数値の広がりを測定していることを納得させることができます。これが起こるためには、数値の広がりが何を意味するのか、スプレッドの測定からどのような振る舞いを期待するのかなどを述べる必要があります。スプレッドの正式な定義はないため、分散を定義として扱う場合があります。ただし、何らかの理由で、分散は「最良の」広がりの尺度と見なされます。


具体的には、stats.stackexchange.com / a / 3904/919での私の回答でこの質問に答えようとしました
whuber

1
今、私は以前にあなたの答えを見たのを覚えていますが、問題は私があなたの答えに「分散」という言葉を本当に見つけることができないことです。どの部分が問題を正確に説明していますか?もう一度読んでみようかな。
user4205580 2015

3
分散に相当する「SD」と「スケール係数」という用語を探します。ここでの(かなり深い)ポイントは、分散自体は一意の選択ではないということです。特定の分布に対して、(ほぼ)任意の広がりの尺度を選択できます。測定値が基になる分布の広がりに収束すると仮定すると、本当に重要なのは、その分布からの iidサンプルの合計(または平均)を標準化するときに、漸近的にある係数でその広がりを再スケーリングする必要があるということです。そうすることで、正規分布を制限することができます。
whuber

回答:


8

中心極限定理(CLT)の古典的なステートメントは、共通の分布持つ一連の独立した、同一に分布した確率変数を考慮します。このシーケンスは、サンプリングプログラムまたは実験を設計するときに直面する状況をモデル化します。同じ基礎となる現象の独立した観測を取得できる場合、有限コレクションは予想されるデータをモデル化します。シーケンスを無限にすることは、任意の大きなサンプルサイズを想定するのに便利な方法です。F n X 1X 2X nバツ1バツ2バツFバツ1バツ2バツ

多数の法則により、平均は

メートルバツ1バツ2バツ=1バツ1+バツ2++バツ

密接の期待近づく、設け、高い確率で、実際に期待を持っています。(すべての分布がそうするわけではありません。)これは、偏差(これらの確率変数の関数として、確率変数でもある)が得られる傾向があることをしますが大きくなるほど小さくなります。CLTはこれをより具体的な方法で追加します:(いくつかの条件下では、以下で説明します)この偏差をで再スケーリングすると、いくつかのゼロに近づく分布関数なると述べていますとしての平均正規分布関数μ F FとM X 1X 2... X N- μ F N 、N Fμ(F)Fm(X1,X2,,Xn)μ(F)nn F、N、NnFnn大きくなる。(https://stats.stackexchange.com/a/3904での私の回答は、これがなぜであり、なぜ係数が使用に適しているのかを説明しようとしています。)n

これはCLTの標準的なステートメントではありません。いつもとつなげましょう。ゼロ平均正規分布の制限は、2番目のパラメーターによって完全に決定されます。これは通常、分散や標準偏差など、その広がりの尺度として(自然に)選択されるものです。してみましょうその分散すること。確かに、同様のプロパティと何らかの関係があるはずです。これが何であるかを発見するために、分散持たせます- ところで、これは無限かもしれません。いずれにしても、は独立しているため、平均の分散を簡単に計算できます。 F F τ 2 X Iσ2FFτ2X

Var(メートルバツ1バツ2バツ=Var1バツ1+バツ2++バツ=12Varバツ1+Varバツ2++Varバツ=12τ2+τ2++τ2=τ2

したがって、標準化残差の分散が等しい:それは一定です。 したがって、限界正規分布の分散は自体でなければなりません。(これは、が有限の場合にのみ定理が成り立つことをすぐに示しています。これは、以前に説明した追加の仮定です。)τ2/×2=τ2τ2τ2

(私たちはの広がりのいずれかの他の尺度選択した場合は、我々はまだそれを接続することに成功できた、私たちは標準化平均偏差の広がりの対応策は、すべてのために一定であることが判明しなかったであろうあり、美しい-本質的ではない-簡素化。)Fσ2

もし望めば、平均偏差を割ったりを掛けたりすることで平均偏差を標準化できたでしょう。これにより、制限分散が標準分散であり、単位分散があります。この方法でによる標準化を選択するかどうかは、実際には好みの問題です。それは、同じ定理であり、最終的には同じ結論です。 重要なのはによる乗算でしたττ

偏差に以外の係数を掛けることができることに注意してください。、または、または同じように漸近的に動作するその他のものを使用できます。他の漸近形式は、限界で、をに減らすか、まで爆破します。この観察は、標準化がどのように実行されるかに関してCLTがどの程度柔軟であるかを示すことにより、CLTの評価を向上させます。CLTを次のように記述したい場合があります。+exp1/2+1/σ20

一連のIID変数の平均(共通の分布)と基になる期待値との偏差がによって漸近的にスケーリングされる、このスケーリングされた偏差は、分散がものであるゼロ平均正規制限分布になります。FF

分散はステートメントに含まれますが、分散は、限界正規分布を特徴付け、その分散を分散に関連付けるために必要なためにのみ表示されます。これは単なる付随的な側面です。それは、分散がどのような意味でも「最高」であることとは関係ありません。問題の核心はによる漸近的な再スケーリングです。F


5

分散は、中心極限定理に不可欠ではありません。これは、ほとんどの人が知っており、愛し、使用し、乱用している、園芸品種の初心者のiid、Central Limit Theoremに不可欠です。

中心極限定理はありません。中心極限定理は多数あります。

園芸品種の初心者のiid中央極限定理。ここでも、規範定数を慎重に選択することで(初心者のCLTの高度なバリアント)、無限分散を持つ特定の確率変数について中心極限定理を証明することができます(Feller Vol。II http://www.amazon.com/Introductionを参照)。 -確率-理論-アプリケーション-エディション/ dp / 0471257095 p。260)。

三角配列のリンデベルクフェラー中心極限定理。 http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem

何かの野生の世界は、分散が存在する必要さえない視界依存の中心極限定理のすべてに行きます。私はかつて、分散が存在しなかっただけでなく、平均も存在せず、実際には1-イプシロンの任意の小さい正のイプシロンモーメントでさえない中央極限定理を証明しました。それは「かろうじて」収束し、非常にゆっくりと行ったので、それは毛深い証拠でした。漸近的にそれは法線に収束しましたが、実際には、法線が適切な近似であるためには、数百万項のサンプルサイズが必要になります。


あなたが証明したCLTはWebのどこかでアクセス可能ですか?とても面白そうですね、読みたいです。
Alecos Papadopoulos

2
ほぼ35年前の理論的な確率コースの宿題で、砂の時代に負けました。まあ、それは私の箱のどこかにあるかもしれませんが、すぐに掘り起こすことはないでしょう。私はそれを証明するのに十分なほど賢く(何時間ものハードスローギングを伴う)、それを定式化するほど十分に賢くはありませんでした。無限に多くの異なる中心極限定理があり、規範が鍵となります。
Mark L. Stone

1

スプレッドの最良の尺度は状況によって異なります。分散は、正規分布のパラメーターである広がりの尺度です。したがって、データを正規分布でモデル化する場合、(算術)平均と経験分散が、その正規分布のパラメーターの最良の推定量(「十分」)です。これは、中心極限定理へのリンクも提供します。これは、これが通常の極限である、つまり、極限が正規分布であるためです。したがって、yoyに中央極限定理が関連しているほど十分な観測がある場合、ここでも正規分布を使用できます。経験分散は、正規分布に関連付けられているため、変動の自然な記述です。

正規分布へのこのリンクがなければ、分散が最良である、または変動性の自然な記述子でさえあるという意味はありません。


「最良の」推定量の理論(「最良の」という意味で)が中心極限定理と何らかの関連があるべき理由は不明です。1は、例えば、非二次損失関数を使用した場合、その平均と分散は可能性がない代わりに、中央値およびIQRは最高かもしれない-正規分布のパラメータの「最良の」推定すること。
whuber

1

2番目の質問のみに対処します。

分散は、主に歴史的な理由から、そしてほとんどの非統計専門家の慣性のために、ほとんどの統計学者にとって選択の分散尺度であったと思います。

E[バツμk]k

E|バツμ|kk>0k

そのため、大きな偏差がほとんどない大きな偏差(正と負の両方)が大きい場合は、分散がほとんどないため、中心モーメントが比較的小さくなります。大きな偏差がたくさんあると、比較的大きな中心モーメントも発生します。

上記の歴史的な理由について私が言ったときに覚えていますか?計算能力が安くて利用できるようになる前は、統計理論の開発に対処するために、数学的な分析スキルのみに依存する必要がありました。

kk=1

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.