シミュレーションで中央極限定理が壊れるのはなぜですか?


21

次の番号があるとしましょう:

4,3,5,6,5,3,4,2,5,4,3,6,5

そのうちのいくつか、たとえば5つをサンプリングし、5つのサンプルの合計を計算します。その後、何度も繰り返して多くの合計を取得し、ヒストグラムに合計の値をプロットします。これは、中心極限定理によるガウス分布になります。

しかし、彼らが数字に続いているとき、私は4をいくつかの大きな数字に置き換えました。

4,3,5,6,5,3,10000000,2,5,4,3,6,5

これらからの5つのサンプルの合計をサンプリングしても、ヒストグラムではガウス分布になることはありませんが、スプリットのようになり、2つのガウス分布になります。何故ですか?


1
n = 30程度以上に増やしても、それはできません...以下の受け入れられた答えの私の疑念とより簡潔なバージョン/再表明だけです。
oemb1905

@JimSD CLT漸近的な結果です(つまり、標準化されたサンプル平均の分布や、サンプルサイズが無限になったときの制限の合計について)。n=5n \ to \ inftyではありませんn。あなたが見ているもの(有限サンプルにおける正規性へのアプローチ)は、厳密にはCLTの結果ではなく、関連する結果です。
Glen_b-モニカを

3
@ oemb1905 n = 30は、OPが示唆するような歪度には不十分です。10 ^ 7のような値の汚染がどれほどまれであるかに応じて107、法線が妥当な近似値に見えるまでにn = 60またはn = 100以上かかる場合があります。汚染が約7%である場合(質問のように)、n = 120はまだ多少ゆがみます
Glen_b -Reinstate Monica


(1,100,000、1,900,000)のような間隔の値には決して到達しないと考えてください。しかし、それらの金額をまともな額にすればうまくいきます!
デビッド

回答:


18

正確に、中心極限定理が言っていることを思い出しましょう。

場合独立しており、(共有)の平均と同一分布確率変数と標準偏差、次には、分布が標準正規分布(*)に収束します。X1,X2,,XkμσX1+X2++XkkσkN(0,1)

これは、「非公式」形式でよく使用されます。

場合(共有される)の平均を有する独立同一分布確率変数でと標準偏差、次いで「分布の」標準正規分布に収束。X1,X2,,XkμσX1+X2++XkN(kμ,kσ)

「制限」分布が変化するため、その形式のCLTを数学的に正確にする良い方法はありませんが、実際には役立ちます。

次のような数値の静的リストがある場合

4,3,5,6,5,3,10000000,2,5,4,3,6,5

そして、このリストからランダムに数を取ってサンプリングします。中心極限定理を適用するには、サンプリングスキームがこれらの2つの独立性と同一の分散条件を満たすことを確認する必要があります。

  • 同一に分布していても問題はありません。リスト内の各数字が等しく選択される可能性があります。
  • 独立はより微妙であり、サンプリングスキームに依存します。置換なしでサンプリングする場合、独立性に違反します。中心極限定理が適用されるのは、交換でサンプリングするときだけです。

したがって、スキームで置換サンプリングを使用する場合、中心極限定理を適用できるはずです。同時に、サンプルのサイズが5の場合、サンプルで非常に大きな数が選択されているか、選択されていないかに応じて、非常に異なる動作が見られます。

それで、摩擦は何ですか?さて、正規分布への収束速度は、サンプリングする母集団の形状に大きく依存します。特に、母集団が非常にゆがんでいる場合、正規分布への収束に時間がかかることが予想されます。この例ではこれが当てはまるため、サイズ5のサンプルが通常の構造を示すのに十分であることを期待すべきではありません。

3つの正規分布

上記では、サイズ5、100、および1000のサンプルに対して(置換サンプリングを使用して)実験を繰り返しました。非常に大きなサンプルでは、​​通常の構造が出現していることがわかります。

(*)有限平均や分散など、ここで必要ないくつかの技術的条件があることに注意してください。これらは、リストの例からのサンプリングで真であることが簡単に検証されます。


非常に迅速かつ完璧な答えをありがとう。CLT、交換、データの分布が歪んでいる場合により多くのサンプルを必要とするという考え、...これは現在非常に明確です。私の最初の質問の意図は、あなたが言ったように、1つの大きな数が置換なしで含まれ、サンプリングの数が固定されている場合です。動作が非常に異なるため、多数がサンプリングされる場合とサンプリングされない場合について、「条件付き」CLTを考慮する必要があります。そのための研究や先行研究はあるのだろうか。しかしとにかくありがとう。
JimSD

ここで該当するかどうかはわかりませんが、歪度によって規制されるCLT収束の定理en.wikipedia.org/wiki/Berry%E2%80%93Esseen_theorem
seanv507

@MatthewDruryのCLTの定義に少し混乱しています。は正規分布ではなく、LLNによって定数に収束すると思います。Xkk
JTH

1
@ seanv507歪度ではなく、絶対的な3次モーメント。2つは関連していますが、有限の3次モーメントを持つ対称分布の場合、ベリーエッセンがバインドすることに注意してくださいは歪度ではないため、0ではありませんρ / σ 3|Fn(x)Φ(x)|ρ/σ3
Glen_b -Monica

1
@Glen_bええ、私は少し非公式でした(おそらくそうすべきではありませんでした)が、今日の午後には少し混乱するので修正できます。
マシュードゥルーリー

12

一般に、CLT近似が適切であるためには、各サンプルのサイズはより大きい必要があります。経験則は、サイズが以上のサンプルです。しかし、最初の例の母集団では、は問題ありません。5305

pop <- c(4, 3, 5, 6, 5, 3, 4, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 5
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ここに画像の説明を入力してください

2番目の例では、人口分布の形状(1つには偏りがありすぎます。Glen_bのコメントを読んでください)から、サイズサンプルでも、分布の適切な近似が得られません。サンプルは、CLTを使用することを意味します。30

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 30
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ここに画像の説明を入力してください

しかし、この2番目の母集団では、たとえばサイズサンプルで十分です。100

pop <- c(4, 3, 5, 6, 5, 3, 10000000, 2, 5, 4, 3, 6, 5)
N <- 10^5
n <- 100
x <- matrix(sample(pop, size = N*n, replace = TRUE), nrow = N)
x_bar <- rowMeans(x)
hist(x_bar, freq = FALSE, col = "cyan")
f <- function(t) dnorm(t, mean = mean(pop), sd = sd(pop)/sqrt(n))
curve(f, add = TRUE, lwd = 2, col = "red")

ここに画像の説明を入力してください


3
問題となるのは分散ではありません。厳密な制御を得る1つの方法は、ベリーエッセンの定理のように、3番目の中心モーメントと標準偏差の3乗の比を使用することです。

パーフェクト。追加されました。Tks。

1
コードを使って迅速かつ視覚的で完璧な回答をありがとう。私はそれがどれほど速いか非常に驚いた!適切なサンプリング数を知りませんでした。サンプリング数が固定されている場合を考えていました。
JimSD

@ガイ、ありがとうございます。「ベリー・エッセンの定理で3乗した標準偏差に対する3番目の中心モーメントの比」という考えは知りませんでした。分布に外れ値が含まれているような大きな数がある場合に対処したいだけです。そして、あなたが言ったように、そのような分布は参照できると思います。そのようなディストリビューションを扱った以前の仕事を知っているなら、私に知らせてください、ありがとう。
JimSD

2
@guyベリーエッセンの定理は、平均についての3番目の絶対モーメントであり、平均についての3番目のモーメントだけではありません。これにより、スキューネスだけでなく、重いテールにも反応します。ρ=E[|Xμ|3]μ3=E[(Xμ)3]
Glen_b-モニカを

7

複雑なキュムラント生成関数を使用して、誰もがこれを歪曲している理由を説明したいと思います。

サンプリングする確率変数をとして記述します。ここで、は平均、は標準偏差であるため、平均はで分散はです。のキュムラント生成関数はです。ここで、はのスキューを示します。元の変数のスキューに関して記述できます。つまり、。μ+σZμσZ01Z12t2iγ16t3+o(t3)γ1Zκ3μ+σZγ1=σ3κ3

の分布のサンプルの合計をで割ると、結果はcgfグラフが正しく見えるように十分に大きいで有効に正規近似を行うには、十分に大きいが必要です。この計算は、動機付けます。検討した2つのサンプルの値は大きく異なります。nZn

n(12(tn)2iγ16(tn)3)+o(t3)=12t2iγ16nt3+o(t3).
tnnγ12γ1


-1

簡単に言えば、中心極限定理を適用するのに十分なサンプルがありません。


1
これが有効な説明になり得ないことは、CLTが問題の最初のデータセットに対して同様の小さなデータの良い近似を与えるという観察から明らかです。
whuber

@whuber:正規分布は、最初のセットの5個のサンプルに対してかなり良い近似を与えると言っていると思います。合計の値の数は有限であるため(置換のない13の可能な値と置換のある21の可能な値)、5の多数のサンプルでは近似があまり良くなりません。また、初期近似は、最初のパターン...
ヘンリー

@whuber最初のセットの分布は左に歪んでいるように見えるため、5番目のセットの分布が右に歪んでいると予想するよりも極端な方法で、5の合計も左に歪んでいると予想します。歪度をさらに減らすには、より大きなサンプルサイズが必要になると考えていました
Henry

1
@Henryコメントありがとうございます。私はこれらの特定の状況については発言していませんでしたが、この答えの論理についてのみ、それがさらに説明できることを望んでいました。
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.