中心極限定理にはどのような直感的な説明がありますか?


144

いくつかの異なるコンテキストで、中央限界定理を呼び出して、採用したい統計的方法を正当化します(たとえば、二項分布を正規分布で近似します)。私は定理が真である理由に関する技術的な詳細を理解していますが、中央極限定理の背後にある直感を本当に理解していないことに気づきました。

それでは、中心極限定理の背後にある直観は何ですか?

レイマンの説明が理想的です。技術的な詳細が必要な場合は、pdf、cdf、ランダム変数などの概念を理解しているが、収束の概念、特性関数、または測定理論に関係する知識はないと仮定してください。


8
良い質問ですが、これを教える経験が限られていることで裏付けられた私の即時の反応は、CLTが最初はほとんどの人にとってまったく直感的ではないということです。どちらかといえば、直観に反する!
ワンストップ

2
@onestop AMEN!nが増加するにつれてp = 1/2の二項分布を見つめると、CLTが潜んでいることがわかりますが、その直感はいつも私を逃れています。
ロナフ

2
いくつかの素晴らしいアイデアと同様の質問:stats.stackexchange.com/questions/643/...

1
説明ではありませんが、このシミュレーションはそれを理解するのに役立ちます。
デビッドレーン

回答:


119

この投稿の長さについて事前に謝罪します。それを読むのにいくらかの時間と注意を要し、間違いなくタイポグラフィの間違いと説明の失hasがあるので、私はそれを公に公表したことを少し恐れています。しかし、ここでは、魅力的なトピックに興味がある人のために、CLTの多くの部分の1つ以上を特定して、独自の応答をさらに詳しく説明することをお勧めします。


CLTを「説明」しようとするほとんどの試みは、それが真実であると主張する実例または単なる修正です。本当に深く正確な説明をするには、非常に多くのことを説明する必要があります。

これをさらに見る前に、CLTが何を言っているのかを明確にしましょう。 ご存知のように、一般性が異なるバージョンがあります。共通のコンテキストは、一連のランダム変数です。これは、共通の確率空間上の特定の種類の関数です。直観的な説明を厳密に行うには、確率空間を区別可能なオブジェクトのあるボックスと考えると便利です。それらのオブジェクトが何であるかは関係ありませんが、私はそれらを「チケット」と呼びます。チケットを完全に混ぜ合わせて1つを引き出すことにより、ボックスの1つの「観察」を行います。そのチケットは観察を構成します。後で分析するために記録した後、チケットを箱に戻し、その内容が変更されないようにします。「ランダム変数」は、基本的に各チケットに書かれた数字です。

1733年、アブラハム・ド・モアブルは、チケットの数字がゼロと1のみである単一の箱のケースを検討し(「ベルヌーイ裁判」)、各数字の一部が存在しました。彼は物理的に独立した観測を行い、値シーケンスを生成することを想像しました。これらはすべてゼロまたは1です。これらの値の合計は、合計の項が異なるためランダムです。私たちは何度もこの手順を繰り返すことができればそのため、様々な合計(の範囲の整数を通じて合計の割合- )様々な周波数が表示されます。(以下のヒストグラムを参照してください。)nx1,x2,,xnyn=x1+x2++xn0n

ここで、値が非常に大きい場合、すべての周波数が非常に小さくなることが予想されます。「制限を取得」または「を移動」しようとするほど大胆な(または愚かな)場合、すべての周波数が減少すると正しく結論付けられ。しかし、軸のラベル付け方法に注意を払わずに、単に頻度のヒストグラム描くと、大きなのヒストグラムはすべて同じように見えることがわかります。ある意味では、これらのヒストグラムは頻度にかかわらず限界に近づきます。それ自体はすべてゼロになります。nn0n

ヒストグラム

これらのヒストグラムは、を取得する手順を何度も繰り返した結果を示しています。は、タイトルの「試行回数」です。ynn

ここでの洞察は、最初にヒストグラム描画し、後でその軸にラベルを付けることです。が大きいと、ヒストグラムは(水平軸上)を中心とする大きな値の範囲と、(垂直軸上の)わずかに小さい値の間隔をカバーします。これは、個々の周波数が非常に小さくなるためです。したがって、この曲線をプロット領域に当てはめるには、ヒストグラムのシフト再スケーリングの両方が必要です。これの数学的な説明は、ごとに中心値(必ずしも一意ではない!)を選択して、ヒストグラムといくつかのスケール値nn/2nmnsn(必ずしも一意ではありません!)軸内に収まるようにします。これは、を変更することで数学的に実行できます。ynzn=(ynmn)/sn

ヒストグラムはそのヒストグラムと水平軸の間の領域頻度を表すことに注意してください。 したがって、値が大きい場合のこれらのヒストグラムの最終的な安定性は、面積の観点から述べる必要があります。n そのため、たとえばからまでの任意の値の間隔を選択し、が増加するにつれて、間隔水平に広がるのヒストグラムの一部の領域を追跡します。物事:ab>anzn(a,b]

  1. とが何でabても、シーケンスと(またはにまったく依存しない方法で)適切に選択すると、が大きくなるにつれてこの領域は実際に制限に近づきます。mnsnabn

  2. シーケンスおよびは、、ボックス内の値の平均、およびそれらの値の広がりの尺度のみに依存する方法で選択できますが、それ以外には何もありません。 、制限は常に同じです。(この普遍性のプロパティは素晴らしいです。)mnsnn

  3. 特に、その制限領域は、と間の曲線下の領域です。これは、その普遍的な制限ヒストグラムの公式です。y=exp(z2/2)/2πab

    CLTの最初の一般化により、

  4. ボックスに0と1に加えて数字を含めることができる場合、まったく同じ結論が成り立ちます(ボックス内の極端に大きいまたは小さい数字の割合が「大きすぎない」、正確かつ単純な定量的ステートメントを持つ基準である場合) 。

    次の一般化、そしておそらく最も驚くべきものは、チケットのこの単一のボックスを、チケット付きの注文された無期限に長いボックスの配列に置き換えます。各ボックスのチケットには、異なる割合で異なる番号を付けることができます。観測は、最初のボックスからチケットを描画することによって行われ、は2番目のボックスから来るというように続きます。x1x2

  5. 箱の中身が「あまり大きくない」という条件であれば、まったく同じ結論が成り立ちます(「あまり大きくない」という意味の正確であるが異なる定量的特徴がいくつかあり、驚くほどの緯度を許容します)。

これらの5つのアサーションは、少なくとも説明する必要があります。 他にもあります。セットアップのいくつかの興味深い側面は、すべてのステートメントで暗黙的です。例えば、

  • 合計の特別な点は何ですか?積や最大値など、数の他の数学的な組み合わせの中心極限定理がないのはなぜですか?(実際にはそうであることがわかりますが、それらはそれほど一般的ではなく、CLTに還元できない限り、常にそのようなクリーンで単純な結論を出すわけでもありません。)およびのシーケンスは一意ではありませんが、ほとんど一意です最終的に、チケットの合計の期待値と合計の標準偏差をそれぞれ近似する必要があるという意味で(CLTの最初の2つのステートメントでは、倍のボックス)。 mnsnnn

    標準偏差は、値の広がりの尺度の1つですが、決して唯一のものではなく、歴史的にも多くのアプリケーションにとっても最も「自然」です。(たとえば、多くの人は、中央値からの絶対偏差の中央値のようなものを選択します。)

  • SDがこのような本質的な方法で表示されるのはなぜですか?

  • 制限ヒストグラムの式を考えてみましょ誰がそのような形をとると予想していましたか?確率密度の対数二次関数である と言います。どうして?これについて、直感的または明確で説得力のある説明はありますか?


スリカントの直観性とシンプルさに対する挑戦的な基準を満たすのに十分なシンプルな答えを提供するという究極の目標に到達することはできないと告白しますが、他の人が多くのギャップを埋めるためにインスピレーションを受けることを期待して、この背景をスケッチしました。良いデモンストレーションは、最終的に合計を形成する際にと間の値がどのように発生するかについての要素分析に依存する必要があると思います。CLTのシングルボックスバージョンに戻ると、対称分布の場合は処理が簡単です。その中央値はその平均に等しいため、がボックスの平均よりも小さくなる確率は50%、αn=asn+mnβn=bsn+mnx1+x2++xnxixiその平均よりも大きくなります。さらに、が十分に大きい場合、平均からの正の偏差は平均の負の偏差を補償するはずです。(これには、手を振るだけでなく、いくつかの慎重な正当化が必要です。)したがって、主に正と負の偏差の数を数えることを懸念する必要がありますn (ここで書いたすべてのことの中で、これはCLTが機能する理由についての直観を提供するのに最も役立つかもしれません。実際、CLTの一般化を真にするために必要な技術的仮定は、本質的にまれに大きな偏差が生じると、限界ヒストグラムが発生しないようにバランスが崩れます。

これは、とにかくある程度、CLTの最初の一般化が、ドモイヴルの元のベルヌーイ試用版になかったものを実際に明らかにしない理由を示しています。

この時点では、少しの数学を行う以外には何もありません。平均からの正の偏差の数が負の偏差の数と所定の値だけ異なる明確な方法の数を数える必要があります、明らかにkkn,n+2,,n2,n

The number of ways to obtain k positive and nk negative values out of n

equals nk+1k

times the number of ways to get k1 positive and nk+1 negative values.

kn/2m=n/2m+j+1j0

m+1m+1mm+2mj+1m+j+1

=11/(m+1)1+1/(m+1)12/(m+1)1+2/(m+1)1j/(m+1)1+j/(m+1).

ド・モアブルが執筆する135年前に、ジョン・ネイピアは乗算を単純化するために対数を発明したので、これを利用しましょう。近似を使用する

log(1x1+x)2x,

相対頻度の対数はおよそ

2/(m+1)4/(m+1)2j/(m+1)=j(j+1)m+1j2m.

j4/m3j4m3jjmm3/4


snnj2/m=2j2/n=2(j/n)2


5
+1回答を消化するには時間がかかります。私が課した制約の範囲内でCLTの直観を求めることはほとんど不可能だと認めます。

2
これを書くのに時間を割いてくれてありがとう。それは私が見たCLTの中で最も有用な説明であり、数学的にもアクセスしやすい。
ジェレミーラドクリフ

1
はい、かなり密集しています。最初のヒストグラムにはどのように2つのバーがありますか(試行は1つだけでした!)。無視してもいいですか?そして、慣例では、通常、ヒストグラムのバー間の水平方向のギャップを避けることです。(なぜなら、あなたが言うように、面積は重要であり、面積は最終的に連続した(つまりギャップのない)ドメインにわたって計算されるからです)だから私もギャップを無視します...?最初にそれを理解しようとしたときでも、ギャップがありました:)
レッドエンド

1
@TheRedご質問ありがとうございます。この投稿の最初の部分を編集して、これらのポイントを少し明確にしました。
whuberの

4
n

27

私が知っている素敵なアニメーション:http : //www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

等間隔のピンが水平方向に8層、各層が互い違いになっているため、これらのピンを介してドロップされたボールには「パチンコ/ピンボール」スタイルの障害が生じます。 各ボールは下に落ち、ボールが積み重なると、ボールの高さがガウス曲線の輪郭に近づきます。 これは、多くの独立したランダムイベント(レイヤー)の合計が結果のガウス分布(積み重ねられたボールの高さ)になることを示しています

私が読んだ最も簡単な言葉:http : //elonen.iki.fi/articles/centrallimit/index.en.html

これらの10回のスローの結果を合計すると、最大値の60(すべて6)または最小値の10(すべて1)よりも30〜40近くになります。

これは、極端な方法よりもはるかに多くの方法で中間値を取得できるためです。例:2つのサイコロを投げる場合:1 + 6 = 2 + 5 = 3 + 4 = 7、ただし1 + 1 = 2と6 + 6 = 12のみ。

つまり、1つのサイコロを投げるときに6つの数字のいずれかを等しく獲得したとしても、数個のサイコロの合計の中間値よりも極端な可能性は低くなります。


20

直感は扱いにくいものです。私たちの手の後ろに縛られた理論では、さらにトリッキーです。

CLTはすべて、小さな独立した外乱の合計に関するものです。サンプルの意味での「合計」は、(母集団の)有限分散の意味での「小さな」、および中央(母集団)値の周りのプラス/マイナスの意味での「外乱」を意味します。

私にとって、直観に最も直接訴えるデバイスはクインカンクス、または「ガルトンボックス」です。ウィキペディア(「ビーンマシン」の場合)を参照してください。アイデアは、格子で飾られたボードの表面に小さなボールを転がすことです。等間隔のピン。途中でボールは左右に迂回し(...ランダムに、独立して)、底に集まります。時間が経つにつれて、目の前に素敵なベル型のマウンドが見えます。

CLTは同じことを言っています。これはこの現象の数学的な記述です(より正確には、五点形は二項分布の正規近似の物理的証拠です)。大まかに言って、CLTは、人口が過度に誤動作していない限り(つまり、PDFの尾が十分に薄い場合)、サンプルの平均(適切にスケーリングされた)は、小さなボールが顔を跳ね返すように振る舞うと言います五つ角形:時々左に落ち、時には右に落ちますが、ほとんどの場合、真ん中にちょうどいいベルの形で着陸します。

(私にとって)CLTの威厳は、基礎となる人口のが無関係であるということです。形状は、(サンプルサイズの意味で)待機する必要がある時間の長さを委任する場合にのみ役割を果たします。


17

S=X1+X2++Xn

S

nn=

S/n

統計における中央極限定理のすべての「神聖さ」により、その限界はしばしば見過ごされがちです。以下に、コースの2つのスライドを示します。実際の使用例で、CLTがテールで完全に失敗することを示しています。残念ながら、多くの人々は、CLTを使用して、テールの確率を故意にまたはその他の方法で推定します。

ここに画像の説明を入力してください ここに画像の説明を入力してください


5
これは素晴らしい資料であり、賢明なアドバイスです。残念ながら、「この正規性は数学的アーチファクトであり、その背後にあるより深い真実や直感を検索することは役に立たないと思います」という主張は非常に厄介であるため、それを支持することはできません。彼らは(1)数学に頼って理論的に助けてはならない、(2)そもそも数学を理解する意味がないと示唆しているようです。このスレッド内の他の投稿が、2番目のアサーションの反証に向けて、すでに大きな役割を果たすことを願っています。前者は非常に矛盾しているため、これ以上の分析はほとんど必要ありません。
whuberの

2
@whuber。あなたは正しいです、私はおそらく私のリーグから外れています。編集します。
StijnDeVuyst

3
問題のある部分を再考していただき、ありがとうございます。
whuber

7

この答えは、簡単な微積分法(3次のテイラー展開)を使用して、中心極限定理の直感的な意味を与えることを望んでいます。概要は次のとおりです。

  1. CLTの言うこと
  2. 単純な計算を使用したCLTの直感的な証明
  3. なぜ正規分布なのか?

最後に正規分布について言及します。正規分布が最終的に現れるという事実は、あまり直感的ではないからです。

1.中心極限定理は何と言っていますか?CLTのいくつかのバージョン

xX1,,Xn

P(X1++Xnnx)n+xet2/22πdt.
X1.,,XnZ1,,Zn
E[f(X1++Xnn)]E[f(Z1++Znn)]n+0
fx
f(t)={1 if t<x0 if tx.
X1,,XnZ1,,Zn、ランダム変数が平均ゼロ、分散1で独立している場合。

kX1,,XnZ1,,Znf

(CONV)E[f(X1++Xnn)]E[f(Z1++Znn)]n+0

以下のステートメント間で同等性(「if and only if」)を確立することができます。

  1. ff(t)=1t<xf(t)=0txx
  2. f:RR
  3. C
  4. fsupxR|f(x)|1

上記の4つの各点は、大規模なクラスの関数に対して収束が成立することを示しています。技術的な近似の議論により、上記の4つのポイントが同等であることを示すことができます。DavidPollardの著書Aユーザーガイドの77ページの第7章を参照して、この答えが非常に刺激された理論的確率を測定してください

この答えの残りの私たちの仮定...

と仮定します 上記のポイント4に対応する定数。また、ランダム変数には有限の制限された3次モーメントがあると仮定しますおよび は有限です。supxR|f(x)|CC>0E[|Xi|3]E[|Zi|3]

2.は普遍的です:分布に依存しませんE[f(X1++Xnn)]X1,...,Xn

独立したランダム変数のどのコレクションが提供されたかに依存しないという意味で、この量が普遍的であることを示しましょう(小さな誤差項まで)。テイクと独立した確率変数の二つの配列、平均0、分散1、および有限の第三モーメントがそれぞれに。X1,,XnZ1,,Zn

アイデアは、量の1つでをで繰り返し置き換え、基本的な計算によって違いを制御することです(このアイデアはLindebergによるものだと思います)。テイラー展開により、で、場合、 ここでおよびXiZiW=Z1++Zn1h(x)=f(x/n)

h(Z1++Zn1+Xn)=h(W)+Xnh(W)+Xn2h(W)2+Xn3/h(Mn)6h(Z1++Zn1+Zn)=h(W)+Znh(W)+Zn2h(W)2+Zn3h(Mn)6
MnMnは、平均値定理によって与えられる中間点です。と独立性により、および2行目も同様です。再び独立性により、二次項は予想と同じです。残りの用語は3次のものだけであり、2行の差は最大で ここで、は 3次導関数の上限です。分母が表示されるのは、XnWE[Xnh(W)]=E[Xn]E[h(W)]=0

(C/6)E[|Xn|3+|Zn|3](n)3.
Cf(n)3h(t)=f(t/n)/(n)3独立性により、合計におけるの寄与は無意味です。これは、上記の表示よりも大きなエラーをことなくに置き換えることができるためです。XnZn

をに置き換えることを繰り返します。もし次いで の独立性によりと、との独立性により、とXn1Zn1W~=Z1+Z2++Zn2+Xn

h(Z1++Zn2+Xn1+Xn)=h(W~)+Xn1h(W~)+Xn12h(W~)2+Xn13/h(M~n)6h(Z1++Zn2+Zn1+Xn)=h(W~)+Zn1h(W~)+Zn12h(W~)2+Zn13/h(M~n)6.
Zn1W~Xn1W~、再び、0次、1次、および2次の項は、両方の行の期待値で等しいです。2行間の期待値の差は、多くても すべてのを置き換えるまで繰り返します。ステップのそれぞれで行われたエラーを追加することにより、を取得します として

(C/6)E[|Xn1|3+|Zn1|3](n)3.
ZiXin
|E[f(X1++Xnn)]E[f(Z1++Znn)]|n(C/6)maxi=1,,nE[|Xi|3+|Zi|3](n)3.
nまたはランダム変数の3番目のモーメントが有限である場合、右辺は任意に小さくなります(そうだと仮定しましょう)。これは、分布がの分布から離れていても、左側の期待値が互いに任意に近いことをます。独立性により、合計内の各の寄与はより大きいエラーを発生ことなくに置き換えることができるため、無意味です。 そして、すべての置換「での s」は以上に量を変化させない。X1,,XnZ1,,ZnXiZiO(1/(n)3)XiZiO(1/n)

したがって、期待値は普遍的であり、分布に依存しません。一方、独立性とは、上記の境界にとって最も重要でした。E[f(X1++Xnn)]X1,,XnE[Xi]=E[Zi]=0,E[Zi2]=E[Xi2]=1

3.なぜ正規分布なのですか?

期待値は、の分布が何であれ、同じであることがました。オーダー小さなエラー。E[f(X1++Xnn)]XiO(1/n)

しかし、アプリケーションの場合、そのような量を計算すると便利です。この量より単純な式を取得することも有用です。E[f(X1++Xnn)]

この量はどのコレクションでも同じであるため、分布が計算しやすく、または覚えやすいように、特定のコレクションを1つ選択するだけです。X1,,Xn(X1++Xn)/n

正規分布場合、この量は本当に単純になることがあります。実際、が場合、も分布を持ち、依存しません!したがって、場合、 そして独立確率変数の任意のコレクションのための上記の引数によってと、次いでN(0,1)Z1,,ZnN(0,1)Z1++ZnnN(0,1)nZN(0,1)

E[f(Z1++Znn)]=E[f(Z)],
X1,,XnE[Xi]=0,E[Xi2]=1

|E[f(X1++Xnn)]E[f(Z)|supxR|f(x)|maxi=1,,nE[|Xi|3+|Z|3]6n.

CLTではなく、多数の法則を主張しているようです。
whuber

1
@whuber、なぜあなたがこれを言うのかわかりません。上記は、がに収束するという直感的な証明を与えここで、は、関数の大きなクラスです。。これがCLTです。E[f((X1+...+Xn)/n)]E[f(Z)]ZN(0,1)f
16:09のjlewk

2
意味がわかります。一時停止するのは、あなたの主張が分布ではなく期待のみに関するものであるのに対して、CLTは分布の制限について結論を出すということです。2つの間の等価性は、多くの人にとってすぐには明らかではないかもしれません。それでは、配布を制限するという点で、あなたの声明とCLTの通常の声明との間に明確な関係を提供することをお勧めしますか?(ところで+1:この議論を詳しく説明してくれてありがとう。)
whuber

1

私は直感的なバージョンを思い付くのをあきらめ、いくつかのシミュレーションを思いつきました。Quincunxのシミュレーションを提供するものと、被験者ごとに十分なRTを収集した場合に、歪んだ生の反応時間分布がどのように正規になるかを示すようなものを行う他のものがあります。彼らは助けになると思いますが、今年の私のクラスでは新しく、最初のテストはまだ採点していません。

私が良かったと思うことの1つは、多数の法則も示すことができたことです。サンプルサイズが小さい場合に変数がどのように変化するかを示し、大きなサンプルでどのように変化するかを示すことができます。他にも多数のデモを行っています。ランダムプロセスの数とサンプルの数の間のQuincunxでの相互作用を示すことができます。

(私のクラスでチョークまたはホワイトボードを使用できないことは幸運だったかもしれません)


こんにちはジョン:ほぼ9年後にこの投稿でお会いできてうれしいです!CLTとLLNのアイデアを教えるためにシミュレーションを使用していた間に経験したことについて読むことは興味深いでしょう。
whuber

私はそのクラスを1年後に教えるのをやめましたが、その後のインストラクターがシミュレーションのアイデアを取り上げました。実際、彼はそれをはるかに活用し、一連の光沢のあるアプリを開発し、学生に250人のクラスのさまざまなもののシミュレーションで遊んでもらいました。私が上流階級を教えることからわかる限り、学生はそれから多くを得るようです。彼の生徒と同等のフィーダークラスの生徒の違いは顕著です。(ただし、もちろん、制御されていない変数がたくさんあります)
ジョン

ジョン、ありがとう。授業が終わった後も生徒のパフォーマンスが続くことについて逸話的なフィードバックを得るのは非常に珍しいのでこの限られた情報でさえも興味深いものです。
whuber

-8

ランダム分布の多くのヒストグラムを一緒に追加すると、個々のヒストグラムのすべてがすでにその形状を持っているため、正規分布の形状を維持するか、大きなヒストグラムを追加すると個々のヒストグラムの変動が互いに打ち消し合うため、その形状を取得しますヒストグラムの数。1つの変数のランダム分布のヒストグラムは、すでに一般的に分布しているため、人々は正規分布を呼び出し始めています。これは、中心変数の定理の縮図です。

これはすべてではありませんが、直感的に理解できると思います。


2
「正規分布」の説明は、代わりに二重指数関数の離散バージョンのように聞こえますが、ガウス正規分布のようには遠くありません(ただし、両方が単峰性で対称である場合を除きます)。コインフリップのヒストグラムには、各ステップで倍に減少するバーはありません!それは、この説明に潜むいくつかの困難があるかもしれないことを示唆している。2
whuber

5
この答えはほとんどナンセンスです。公正なコインのフリップの数は、確率を持つ頭の数の分布になりません。実際、それは確率質量関数でさえありません!行の頭も質問とは何の関係もありません。18,14,12,14,18
ディリップサルワテ
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.