回答:
私がCLTで最も気に入ったのは、適用できない場合です。これは、ガウス曲線が示唆するように、人生がもう少し面白いという希望を与えてくれます。だから彼にコーシー分布を見せてください。
多くの場合、数学者は確率について話すとき、既知の確率分布から始めて、イベントの確率について話します。中心極限定理の真の値は、真の分布がわからない場合の近似として正規分布を使用できることです。データが平均muおよびsd sigmaの分布から得られた場合、サンプルの平均が特定の値よりも大きくなる確率について、標準的な統計質問(ただし数学として表現)を父親に尋ねることができます。彼は、分布を仮定します(その後、私たちは知らないと言います)、または分布を知る必要があると言います。その後、多くの場合、CLTを使用して回答を近似できることを示すことができます。
数学と統計を比較するために、積分の平均値定理を使用したい(aからbの積分には、同じ面積のaからbの長方形が存在し、長方形の高さは曲線)。数学者はこの定理を見て「クール、積分を使用して平均を計算できる」と言い、統計学者は同じ定理を見て、「クール、平均を使用して積分を計算できる」と言います。
私は実際に、オフィスで平均値定理とCLT(ベイズ定理とともに)のクロスステッチの壁掛けを持っています。
「クラス内」の演習を通じて、サンプリングの変動と本質的に中央極限定理を示したいと思います。約100人の生徒のクラスの全員が自分の年齢を紙に書きます。すべての紙は同じサイズであり、平均を計算した後は同じように折りたたまれています。これが人口であり、平均年齢を計算します。その後、各生徒はランダムに10枚の紙を選択し、年齢を書き留めてバッグに戻します。(S)平均を計算し、バッグを次の生徒に渡します。最終的に、10人の学生の100個のサンプルがあり、それぞれが平均値を推定します。これは、ヒストグラムといくつかの記述統計を通じて説明できます。
次に、最近の世論調査での「はい/いいえ」の質問を再現する100の「意見」のセットを使用して、今回のデモを繰り返します。学生はこれらの意見のうち10個をサンプリングします。
最後に、連続データとバイナリデータの両方を使用したサンプリング変動、中央極限定理などを示しました。
次のコードで遊んで、値を変えて M
、ユニフォーム以外の分布を選択するのは楽しい例です。
N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))})
hist(meanvals, breaks=50, prob=TRUE)
Stataを使用する場合、サンプリング分布のグラフを作成する-clt-コマンドを使用できます。