中央極限定理の美しさを非統計学者にどのように伝えますか?


33

父は数学が好きですが、統計にはあまり興味がありません。すばらしい統計情報の一部を説明しようとするのは適切であり、CLTは最有力候補です。中心極限定理の数学的な美しさと影響を非統計学者にどのように伝えますか?


1つの簡単な考えは、68-95-99.7ルール(en.wikipedia.org/wiki/68-95-99.7_rule)を何らかの形で議論に取り入れることです。
-raegtin

回答:


16

私がCLTで最も気に入ったのは、適用できない場合です。これは、ガウス曲線が示唆するように、人生がもう少し面白いという希望を与えてくれます。だから彼にコーシー分布を見せてください。


コーシー分布とCLTまたはCLTの失敗との関係は何ですか?
ロビンジラール


CLTでは、MGFが0の近傍に存在する必要があります。コーシー分布にはその特性がありません。CLT Win。Cauchyは、平均と分散が存在することだけが必要なCLTの強力なバージョンの弱い要件さえも満たしていません。コーシー分布は、CLTが保持するために平均が存在する必要があることを示しています。CLTが失敗することはありません。
バルティマーク

@Baltimarkあなたは私の投稿を誤解しました-CachyがCLTの仮定のためにCLTでカバーされていないことは明らかで、そうでなければCLTを証明することは不可能です。CLTはすべてのディストリビューションで機能すると人々が信じているため、この例を挙げました。おそらく「失敗」は完璧な言葉ではありませんが、それでもそれがダウン投票の理由だとは思いません。わかりました、私はそれを適用外に変更しました。

あなたの編集が好きです。コーシー分布は間違いなく非常にクールです。
バルティマーク

14

CLTを十分に理解するには、それを見る必要があります。

したがって、Beanマシンの概念と、説明のためのたくさんのyoutube ビデオ


二項分布を示していると思いました。私は、その漸近線がCLTと直接リンクしているとは思わない。

2
パッケージアニメーションの著者によって豆のマシン... yihui.name/en/wp-content/uploads/2010/07/...
ロビンジラール


@robinについて書いたのですが、問題は何ですか?

1
@ShreevatsaRポイントは、良いイラストは何かの「コア」を示すべきであり、(少なくともIMO)CLTの「コア」は、異なる奇妙な分布からの多くの変数をガウスに融合するという事実にあるのではなく、二項分布の限界にすぎません。

7

多くの場合、数学者は確率について話すとき、既知の確率分布から始めて、イベントの確率について話します。中心極限定理の真の値は、真の分布がわからない場合の近似として正規分布を使用できることです。データが平均muおよびsd sigmaの分布から得られた場合、サンプルの平均が特定の値よりも大きくなる確率について、標準的な統計質問(ただし数学として表現)を父親に尋ねることができます。彼は、分布を仮定します(その後、私たちは知らないと言います)、または分布を知る必要があると言います。その後、多くの場合、CLTを使用して回答を近似できることを示すことができます。

数学と統計を比較するために、積分の平均値定理を使用したい(aからbの積分には、同じ面積のaからbの長方形が存在し、長方形の高さは曲線)。数学者はこの定理を見て「クール、積分を使用して平均を計算できる」と言い、統計学者は同じ定理を見て、「クール、平均を使用して積分を計算できる」と言います。

私は実際に、オフィスで平均値定理とCLT(ベイズ定理とともに)のクロスステッチの壁掛けを持っています。


うーん。ほとんどの数学者はMVTを使用して積分を長方形として近似すると思います。
枢機

5

「クラス内」の演習を通じて、サンプリングの変動と本質的に中央極限定理を示したいと思います。約100人の生徒のクラスの全員が自分の年齢を紙に書きます。すべての紙は同じサイズであり、平均を計算した後は同じように折りたたまれています。これが人口であり、平均年齢を計算します。その後、各生徒はランダムに10枚の紙を選択し、年齢を書き留めてバッグに戻します。(S)平均を計算し、バッグを次の生徒に渡します。最終的に、10人の学生の100個のサンプルがあり、それぞれが平均値を推定します。これは、ヒストグラムといくつかの記述統計を通じて説明できます。

次に、最近の世論調査での「はい/いいえ」の質問を再現する100の「意見」のセ​​ットを使用して、今回のデモを繰り返します。学生はこれらの意見のうち10個をサンプリングします。

最後に、連続データとバイナリデータの両方を使用したサンプリング変動、中央極限定理などを示しました。


4

次のコードで遊んで、値を変えて M、ユニフォーム以外の分布を選択するのは楽しい例です。

N <- 10000
M <- 5
meanvals <- replicate(N, expr = {mean(runif(M,min=0, max=1))}) 
hist(meanvals, breaks=50, prob=TRUE) 

2

Stataを使用する場合、サンプリング分布のグラフを作成する-clt-コマンドを使用できます。

http://www.ats.ucla.edu/stat/stata/ado/teach/clt.htm


非常にいいように見えますが、Stata 11.1(つまり最新バージョン)でインストールして実行しようとしましたが、ダイアログで「完了」をクリックすると、r(3000)エラーが表示され続けます。バージョン6:clt-。
ワンストップ

2

私の経験では、CLTは見た目ほど有用ではありません。プロジェクトの途中で、nがタスクに適切な近似値を得るのに十分な大きさであるかどうかはわかりません。また、統計テストの場合、CLTはタイプIエラーを保護するのに役立ちますが、タイプIIエラーを寄せ付けないためにはほとんど役立ちません。たとえば、データ分布が極端に歪んでいる場合、t検定ではnが大きい場合に任意に低い電力を設定できます。

弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.