しないのはなぜためのCLTワーク


16

我々は、の合計ことを知っているのでパラメータを持つポアソン、それ自体とポアソンである 。したがって、仮説として、を実際にはと言うことができます。ここで、各は次のとおりです、およびCLTを機能させるには大きなnを使用します。nλnλxpoisson(λ=1)1nxipoisson(λ=1)xixipoisson(λ=1/n)

これは(明らかに)機能しません。これは、CLTが正常に「近い」ランダム変数に対して「高速」に動作する方法と関係があり、ラムダが小さいほど、ほとんどが0であり、まれにしか変化しないランダム変数を取得することと関係があると思います。

しかし、私が説明したのは私の直感です。これがなぜそうなのかを説明するより正式な方法はありますか?

ありがとう!


6
まず第一に、CLTではi=1nxi√で割る必要があります。n(この場合、ガウスに収束します)。
アレックスR.

1
@AlexR。いいえnで除算すると、標準偏差は1 / √の係数になります1/n
アクサカル

4
私は、この質問がCLTが「機能しない」こととどう関係するのかわかりません。CLTは、特定の分布を持つランダム変数の標準化された合計に関係しますが、単一のランダム変数を使用して、無限に多くの分割方法を考えています。
whuber

2
@AlexRセットアップはすべて間違っているようです。ここでは2つの異なるプロセス(合計と除算)が行われていますが、それらが同様の漸近特性を持つべきであると考える理由はありません。
whuber

3
@Aksakal:実際、AlexRは正しいです。で除算すると、n ∞の縮退分布が得られます。√で割った場合nnnとしてsd = 1の正規分布に近づきます。nn
クリフAB

回答:


13

私は@whuberに同意します。混乱の根源は、CLTの漸近的総和を、あなたの議論のある種の除算に置き換えているように見えることです。CLTにおいて、我々は、取得固定分布、次いで描画N数はxは私をそこから和を計算ˉ X N = 1f(x,λ)nxi nを増やし続けると、興味深いことが起こります: x¯n=1ni=1nxin ここで、μσ2は平均値であり、分布の分散FX

n(x¯nμ)N(0,σ2)
μ,σ2f(x)

ポアソンで行うことを提案しているのは、やや後方です。固定分布の変数を合計する代わりに、固定分布を常に変化する部分に分割することです。言い換えれば、あなたは、変数取るXから固定分布F X λを次に分割にそれをX IようにN Σ iは= 1、X IXxf(x,λ)xi

i=1nxix

CLTはこのプロセスについて何と言っていますか?なし。注、CLTではどのように変化しているか、及びその変化分布FNXと収束固定分布N0σ2n(x¯nμ)fn(x)N(0,σ2)

セットアップでは、合計もその分布f x λ も変化していません!それらは修正されました。彼らは変化しておらず、何にも収束していません。そのため、CLTにはそれらについて何も言うことはありません。xf(x,λ)

また、CLTは合計の要素数については何も言いません。Poisson(0.001)から1000個の変数の合計を得ることができ、CLTは合計について何も言いません。それが言っているのは、Nを増やし続けると、ある時点でこの合計が正規分布のように見えることです。実際、N = 1,000,000の場合、正規分布の近似値が得られます。1Ni=1Nxi,xiPoisson(0.001)

あなたの直観は、合計の要素の数についてのみ正しいです。つまり、開始分布が正規分布と異なる場合よりも、正規分布に到達するために合計する必要のある要素が多くなります。:より正式な(しかしまだ非公式)の方法は、ポアソンの特徴的な機能を見て、だろう あなたならばλ > > 1あなたはテイラー展開(WRTを取得、T)ネストされた指数の: EXP I λ T - λ / 2 トン2

exp(λ(exp(it)1))
λ>>1t これは、正規分布の特性関数であり、 Nλ λ 2
exp(iλtλ/2t2)
N(λ,λ2)

ただし、直観は正しく適用されません。ある種の部門でCLTの合計を移動すると、物事が混乱し、CLTが適用できなくなります。


+1準備資料はわかりやすい言葉でわかりやすく、問題の核心になっています。
whuber

7

この例の問題は、変更に応じてパラメーターを変更できることです。CLTは、有限平均とsd を持つ固定分布の場合、n として、nn

xμndN(0,σ)

ここで、σxの分布の平均とsdからのものです。μσx

もちろん、異なる分布(たとえば、より高いスキュー)の場合、この定理から得られる近似が妥当になる前に、より大きなが必要です。あなたの例では、のためにλ M = 1 / MN > > mが正規近似は妥当である前に必要とされます。nλm=1/mn>>m

編集

CLTが合計に適用されるのではなく、標準化された合計に適用される方法についての議論があります(すなわちありませんΣは、xはIを)。理論的には、これはもちろん真実です。ほとんどの場合、標準化されていない合計の分布は定義されていません。xi/nxi

Fx¯nFxXiPois(λ)Y=i=1nXiPois(nλ)λPois(λ)μ=λσ2=λ λYPois(nλ) fairly well with Φ(ynλnλ) for a large enough n if λ>0 (approximation can trivially be applied if λ=0, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


5

The question is, I argue, more interesting if thought about more generally, letting the distribution of the parent Poisson depend on n, say with parameter λn and λn=1 as a special case. I think it's perfectly reasonable to ask why, and how we can understand that, a central limit theorem does not hold for the sum Sn=i=1nXi,n. After all, it's common to apply a CLT even in problems where the distributions of the components of the sum depend on n. It's also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of Xi,n depends on n in such a way that the parameter of the distribution of Sn does not grow in n. If you would instead have taken, for example, SnPoi(n) and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a Poi(λn) distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out, SnPoi(1) for all n, so Sn cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let sn2=Var(Sn). The Lindeberg-Feller condition is that, ϵ>0:

1sn2i=1nE[Xi,n1/n]2I(|Xi,n1/n|>ϵsn)0,n

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in n that sn=1 for every n. For fixed n, we also have that the Xi,n are iid. Thus, the condition is equivalent to

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)0.

But, for small ϵ and large n,

nE[X1,n1/n]2I(|X1,n1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1e1/n]=ϵ2n[1(11/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of Sn for every n, but going through these calculations gives some indications of why it fails: if the variance didn't die off as quickly in n you could have the condition hold.


+1 This nicely illuminates a comment by @AlexR to the question, too.
whuber
弊社のサイトを使用することにより、あなたは弊社のクッキーポリシーおよびプライバシーポリシーを読み、理解したものとみなされます。
Licensed under cc by-sa 3.0 with attribution required.